1. Квазиньютоновские методы. Эти методы имеют общую структуру:
(1)
где матрица Нk пересчитывается рекуррентным способом на основе информации, полученной на k-й итерации, так что
.
Таким образом, методы в пределе переходят в ньютоновский, что и объясняет их название. Отметим некоторые общие свойства методов такого типа. Доказательство приводимых ниже лемм может быть без труда получено с использованием описанной ранее техники.
Лемма 1. Пусть
дифференцируема, f(х)
удовлетворяет условию Липшица и
(2)
Тогда в методе (1) с γk≡γ, где γ > 0 достаточно мало, будет
![]()
Лемма 2. Пусть х*— невырожденная точка минимума f(x), f(x) дважды непрерывно дифференцируема в окрестности х* и
(3)
Тогда метод (1) с γk = 1 локально сходится к х* быстрее любой геометрической прогрессии.
Таким образом, при любых равномерно положительно определенных Hk метод (1) обладает глобальной сходимостью, а при условии (3) в окрестности минимума метод сходится со сверхлинейной скоростью.
Перейдем к вопросу о способах построения матриц Hk, аппроксимирующих
В принципе их можно формировать с помощью конечно-разностной аппроксимации. Именно, из точки xk можно сделать п «пробных шагов» длины αk по координатным осям и вычислить в этих точках градиенты. Соответствующая разностная аппроксимация будет искомой, если
.
Однако такой прямолинейный способ аппроксимации неэкономен — в нем делается п пробных вычислений градиента на каждой итерации и никак не используются градиенты, найденные на предыдущих итерациях. Кроме того, в нем требуется обращать матрицу. Основная идея квазиньотоновских методов заключается, во-первых, в том, чтобы не делать специальных пробных шагов, а использовать найденные градиенты в предыдущих точках (поскольку они близки к хk), а во-вторых, в том, чтобы строить аппроксимацию непосредственно для обратной матрицы
Обозначим
(4)
Тогда для квадратичной фукции
![]()
имеем ![]()
(5)
Поэтому для нового приближения
естественно потребовать выполнения так называемого квазиньюто-новского условия
(6)
Кроме того, удобно получать Hk+1 как поправку к Hk с помощью матриц первого или второго ранга. Наконец, эти поправки должны быть такими, чтобы для квадратичного случая оказалось Нп = А-1.
Основным техническим инструментом анализа подобных методов является следующая лемма об обращении матриц.
Лемма 3. Пусть В — матрица п×п, для которой В-1 существует, a, b — векторы из Rп,
Тогда
(7)
Лемма доказывается прямой проверкой.
Таким образом, если известна матрица, обратная к В, a матрица А получена из В добавлением матрицы ранга 1, то обратная к А находится без труда.
Приведем примеры формул пересчета матриц Hk:
а) метод Давидона — Флетчера — Пауэлла (ДФП):
(8)
б) метод Бройдена:
(9)
в) метод Бройдена — Флетчера — Шенно (БФШ):
(10)
Оказывается, для всех формул (8) — (10) выполнено квазиньютоновское условие (6). А если γk > 0 — произвольные числа, pk — произвольные, линейно независимые векторы, yk удовлетворяют соотношению (5) с А-1 > 0, то при любом Н0 > 0 будет Нп = А-1. Отсюда следует
Теорема 1. При любых х0, Н0 > 0 метод (1), (4) с любой из формул пересчета (8), (9), (10) и γk = argmin f(xk+ γpk)
γ
для f(x) = (Ax, х)/2 — (b, х), А > 0, будет конечным: хп =х*= А-1b.
Более того, можно показать, что, несмотря на различие формул пересчета, последовательности xk, генерируемые каждым вариантом метода, для квадратичной функции f(x) совпадают.
Для неквадратичных функций квазиньютоновские методы в записанной выше форме применимы, но они перестают быть конечными. В связи с этим при k > п можно либо продолжать счет по этим же формулам, либо ввести процедуру обновления (заменять матрицу Hk на H0 через каждые п итераций).
Доказана сверхлинейная (или квадратичная) скорость сходимости многих вариантов квазиньютоновских методов в окрестности невырожденной точки минимума.
Эти результаты выглядят естественными в свете утверждений лемм 1 и 2 и теоремы 1, однако их полное доказательство весьма громоздко.
Квазиньютоновские методы чрезвычайно популярны, им посвящен огромное количество работ. Такое внимание объясняется упоминавшимися выше достоинствами методов — они требуют лишь одного вычисления градиента на каждом шаге, в них не нужно обращать матрицу или решать систему линейных уравнений, они обладают глобальной сходимостью, в окрестности решения скорость сходимости высока (часто квадратична) и т. п. Однако они имеют и дефекты по сравнению, например, с методом сопряженных градиентов. Главный из них заключается в необходимости хранить и пересчитывать матрицу Hk размерности п×п, что для больших п требует значительного объема памяти ЭВМ.
При численной проверке методов обычно наилучшие резульаты дает вариант (10).
2. Методы переменной метрики и методы сопряженных направлений. Выше квазиныотоновскне методы были получены как приближения к методу Ньютона. Однако на них можно посмотреть и с другой точки зрения.
Выясним прежде всего, как влияет выбор метрики на вид и свойства градиентного метода. Пусть в пространстве Rn наряду с исходным скалярным произведением (х, у) задано с помощью матрицы A > 0 другое скалярное произведение
(11)
В этом случае А задает новую метрику в Rn:
(12)
Выпишем градиент дифференцируемой функции f(x) в новой метрике:

В соответствии с определением вектор а есть градиент f(x) в пространстве со скалярным произведением (11). Итак,
(13)
В новой метрике градиентный метод приобретает вид
(14)
и отличается от исходного градиентного метода наличием матрицы А-1 Иными словами, градиентный метод не инвариантен к выбору метрики пространства. Естественно попытаться выбрать метрику так, чтобы ускорить сходимость метода. Для квадратичной функции
(15)
скорость сходимости (14) определяется знаменателем прогрессии q — (L— l)/(L+l), где L, I — наибольшее и наименьшее собственные значения матрицы А-1В. Чем ближе эта матрица к единичной, тем меньше q. Наилучший способ — выбрать А = В, тогда А-1В = I, q = 0, т. е. если задать метрику с помощью матрицы В, то градиентный метод (с γk≡1) даст точное решение за 1 шаг. Это не удивительно, так как в этой метрике
т. е. линии уровня f(x) — сферы, а обусловленность μ равна единице.
Для неквадратичной функции метод
(16)
может рассматриваться как градиентный в метрике
(17)
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 |


