![]()
Следовательно, они являются корнями уравнений
(9)
Можно показать, что если
где ρ — любой корень уравнения (9).
Теперь мы можем воспользоваться теоремой о локальной сходимости итерационных процессов вида (7), что дает возможность получить оценку (5). Вычисляя
![]()
находим приведенные в теореме оптимальные значенияа α*, β* и соответствующее им q*.
Сравним скорость сходимости, даваемую одношаговым и двухшаговым методами при оптимальном выборе параметров. И в том, и в другом случаях имеем сходимость со скоростью геометрической прогрессии, но знаменатель прогрессии для одношагового метода равен
(10)
а для двухшагового
(11)
Для больших значений числа обусловленности 
(12)
Поэтому, чтобы приблизиться к решению в е=2,7 ... раз, в одношаговом методе требуется порядка μ/2 итераций, в двух-шаговом — порядка
Иными словами, для плохо обусловленных задач метод тяжелого шарика дает выигрыш в
раз по сравнению с градиентным. Для больших μ эта разница весьма значительна. С вычислительной же точки зрения метод (2) немногим сложнее одношагового.
Правда, подбор оптимальных значений α и β в (2) не прост — формулами (6) непосредственно воспользоваться не удается, так как границы спектра
(числа l и L) обычно неизвестны.
2. Метод сопряженных градиентов. Рассмотрим другой вариант двухшагового метода — метод сопряженных градиентов, в котором параметры находятся из решения двумерной задачи оптимизации:
(13)
(14)
Для случая квадратичной функции
(15)
эта задача может быть решена явно:
(16)
Могло бы показаться, что соотношение методов (13), (14) и (2) такое же, как рассмотренных ранее методов, — если метод скорейшего спуска не дает, как мы видели, выигрыша в скорости сходимости по сравнению с градиентным методом с постоянным оптимальным γ, то и от двухшагового варианта скорейшего спуска (13), (14) трудно ждать существенного ускорения по сравнению с методом тяжелого шарика (2). Оказывается, ситуация здесь иная: так, в квадратичном случае метод (13), (14) (при специальном выборе р1) является конечным, т. е. дает точный минимум функции (15) за конечное число итераций.
Пусть начальное приближение х0 произвольно, а х1 получено из него методом скорейшего спуска:
(17)
Лемма 1. Градиенты r0, r1, ... в методе (13), (16), (17) попарно ортогональны:
(ri, rk) = 0, i<k. (18)
Доказательство. Воспользуемся индукцией по k. Пусть (ri, rk) = 0 при
Ортогональность r0, r1, r2 следует непосредственно из определения метода. Тогда, умножая (13) слева на А, получаем

Из r1≠ 0 для i ≤ k следует, что αk ≠ 0. Поэтому Ark есть линейная комбинация
аналогично
есть линейная комбинация
и в силу предположения индукции
Следовательно,
![]()
при i = 0, ..., k — 2.
Далее, непосредственно из формул (13), (16) следует, что

Наконец, из (13), заменяя k на k—1, имеем
Применяя это соотношение последовательно, получаем, что рk есть линейная комбинация
причем rk-1 входит с коэффициентом
Поэтому из
,
следует, что![]()
Итак, для всех i ≤ k будет (rk-1, ri) = 0.
Если rk обращается в 0, то хk —точка минимума f(x). Но в Rn не может существовать более п ортогональных ненулевых векторов, поэтому для некоторого k ≤ п будет rk=0. Итак, мы доказали следующий результат.
Теорема 2. Метод (13), (16), (17) дает точку минимума квадратичной функции f(x) вида (15) за число итераций, не превосходящее п.
Мы установим в дальнейшем, что если L — некоторое подпространство в Rn, f(x) - выпуклая дифференцируемая функция, то условие

необходимо и достаточно для того, чтобы х* было минимумом f(x) на L. Отсюда и из леммы 1 следует, что xk — точка минимума квадратичной функции f(x) вида (5) на подпространстве, проходящем через х0 и порожденном r0, ..., rk-1. Этот несколько неожиданный факт (мы ищем минимум k раз последовательно на 2-мерных подпространствах, а он оказывается минимумом на всем n-мерном подпространстве) является важнейшей особенностью метода сопряженных градиентов и объясняет его конечность.
Последовательные направления движения pk в методе сопряженных градиентов удовлетворяют соотношению
(19)
Действительно, рi= хi — хi-1, поэтому![]()
С другой стороны, мы уже отмечали, что рk есть
линейная комбинация
Поэтому для
i > k имеем
в силу леммы 1.
Векторы рi, связанные соотношением (19), называются сопряженными или А-ортогональными (они ортогональны в метрике, задаваемой матрицей А). Это объясняет название метода — в нем строятся линейные комбинации последовательных градиентов, являющиеся сопряженными.
Отметим, что знание произвольных сопряженных направлений
позволяет без труда решить систему
(20)
Действительно, будем искать решение в виде
![]()
Тогда, подставляя это в (20), умножая скалярно на si и используя
A-ортогональность, имеем
(21)
Этому решению можно придать рекуррентную форму: зададимся произвольным х0 и построим
где αk задаются
(21). Тогда хп = х* — решение (20). Поскольку αk в (21) можно определить иначе:
![]()
то мы получаем, что знание системы сопряженных направлений позволяет найти минимум квадратичной функции с помощью п одномерных минимизаций. Этот важный факт неоднократно можно использовать при построении других методов минимизации. В методе сопряженных градиентов сопряженные направления не выбираются заранее, а строятся по рекуррентным формулам.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 |


