и «оптимальным» выбором метрики является
Иными словами, квазиньютоновские методы могут трактоваться как градиентные, в которых на каждом шаге выбирается новая метрика, по возможности близкая к наилучшей. В связи с этим часто употребляют термин методы переменной метрики как синоним квазиныотоновских методов.
Такая интерпретация полезна и как эвристический способ построения новых вариантов квазиньотоновских методов. Например, можно получить новую метрику путем «растяжения» пространства в направлении последнего градиента или в направлении разности двух последовательных градиентов и т. п. Мы остановимся на таких методах подробнее в последующих разделах.
Другой подход к построению эффективных методов первого порядка связан с использованием понятия сопряженных направлений. Мы уже отмечали, что, зная набор сопряженных направлений р1, ..., рп:
(18)
можно найти минимум квадратичной функции
за п одномерных минимизаций:
(19)
Тогда при любом х0 будет хп = х* = A-1b. Один способ построения сопряженных направлений использовался в методе сопряженных градиентов — в нем процессу А-ортогонализации подвергались последовательно вычисляемые градиенты. Однако возможны и другие способы.
Пусть
—уже построенные сопряженные
векторы,
(20)
a xk — соответствующие им точки в методе (19). Следующий вектор pk+1 должен удовлетворять соотношению

Поскольку
![]()
то это эквивалентно условию
(pk+1, yi)=0, i=1,…, k. (21)
Итак, новое сопряженное направление pk+1должно удовлетворять условиям ортогональности (21). Подвергая такому процессу ортогонализации любой набор линейно независимых векторов, получим различные наборы сопряженных направлений. Этот же процесс может быть применен к неквадратичной функции:
(22)
Обычно при этом ищут pk+1 в виде
(23)
и вместо непосредственного запоминания векторов уi, i= 1, ..., k, запоминают матрицу Нk. Таким образом, методы принимают ту же форму (1), что и квазиньютоновские. Разница лишь в том, что при этом не обязательно Нk→[
2f(xk)]-1; в некоторых вариантах метода оказывается (для квадратичной функции) Нп=0. Поэтому в таких методах обязательно должно осуществляться обновление.
Выпишем алгоритм одного из простейших методов данного
класса:
(24)
Оказывается, что для квадратичной функции в методе (24) рk являются сопряженными направлениями, Hk ≥ 0 для всех k ≤ п, Нп = 0. Для неквадратичных функций доказана квадратичная локальная сходимость методов данного класса в окрестности невырожденного минимума.
3. Метод секущих. Одним из простейших и наиболее распространенных методов решения одномерного уравнения
g(x) = 0 (25)
является метод секущих, сущность которого видна из рис. 1.

Рис. 1. Метод секущих
Его можно обобщить на многомерный случай — если g: Rn→Rn, то можно вычислить g в п+1 точках, построить линейную аппроксимацию и найти ее корень, который является очередным приближением к решению (25).
Применительно к задаче минимизации f(x) в Rn, т. е. к задаче решения уравнения
f(x) = 0, метод принимает следующий вид. Пусть xk, xk-1x.....xk-n — n+ 1 точек в Rn,
f(xk),......,
f(xk-n) — вычисленные в них градиенты. Решим систему п+1 линейных уравнений с п+1 переменными λ0, λ1 ,…, λп:
(26)
и построим точку
(27)
Далее процесс повторяется для п + 1 последних точек xk+1, xk, ..., xk-n+1 и т. д. Нетрудно проверить, что для п— 1 такой метод совпадает с методом секущих для решения уравнения
f(x) = 0.
Теорема 2. Если векторы х1 — х0, х2 — х0, ..., хп — х0 линейно независимы, a f(x) квадратична с
2f(x)≡А > 0, то хп+1 — точка минимума f(x).
В системе линейных уравнений (26) на каждой итерации меняется лишь один столбец, поэтому нет необходимости решать ее каждый раз заново, а можно воспользоваться следующим результатом.
Лемма 4. Пусть В — квадратная матрица n × п со столбцами b1,..., bп, а В отличается от нее первым столбцом (b1 заменено на
). Тогда
(28)
где сi — строки В-1,
1 — строки
.
Для доказательства достаточно представить в виде = + (
— b1)ет, где е = (1, 0, ..., 0), и воспользоваться леммой 3.
Однако в описанной выше форме метод секущих не является удовлетворительным. Так, он не обладает свойством глобальной сходимости. Для устранения этого недостатка можно применять стандартные средства, например регулировку длины шага (из xk делается шаг по направлению
). Вторым дефектом
метода является его склонность к вырождению — в процессе счета последовательные приближения оказываются лежащими (приближенно) в подпространстве пространства Rn. Соответствующая система линейных уравнений (26) плохо обусловлена и ее решение неустойчиво. Для преодоления этого недостатка можно модифицировать метод с тем, чтобы система базисных точек была заведомо невырожденной. Например, можно добавлять на каждой итерации точку, делая шаг по координатным осям (в циклическом порядке). Для модифицированных подобным образом методов можно доказать сверхлинейную сходимость.
4. Другие идеи построения методов первого порядка. При всем разнообразии описанных выше алгоритмов первого порядка идея их оставалась одинаковой — использовать квадратичную аппроксимацию функции вблизи минимума. Как правило, эти алгоритмы конечны для квадратичных функций, а в общем случае их эффективность тем выше, чем ближе функция к квадратичной. Однако квадратичная модель может считаться естественной лишь в окрестности экстремума; вдали от него поведение минимизируемой функции может быть совсем иным. Поэтому для всех описанных выше методов отнюдь не гарантируется даже разумность стратегии оптимизации на начальных этапах поиска.
В связи с этим целесообразно использовать другие модели функции, отличные от квадратичной. На первый взгляд естественно попытаться строить полиномиальные модели на основе старших производных — следующих членов ряда Тейлора. Такие попытки делались, однако они вряд ли перспективны. Во-первых, прямое вычисление старших производных в многомерных задачах обычно требует слишком громоздких вычислений и большого объема памяти, а их восстановление по младшим производным предполагает вычисление последних в огромном числе точек. Во-вторых, решение вспомогательных задач минимизации полиномиальных функций, за редкими исключениями, не может быть осуществлено в аналитической форме.
Простой и важный класс представляют модели, основанные на аппроксимации функции однородной. Функция f(x), x
Rn, называется однородной относительно точки х* с показателем γ > 0, если
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 |


