Здеcь
- значение, полученное после k-го шага оптимизации. ε - наперед заданное положительное число.
В общем случае число α может на каждом шаге (т. е. для каждого n) выбираться заново:
xn+1 = xn – αnf ′(xn). | (2) |
Именно методы, задаваемые формулой (2), называются градентными. Если αn=α при всех n, то получающийся метод называется градиентным методом с постоянным шагом (с шагом α.)
Поясним геометрическую суть градиентного метода. Для этого мы выберем способ изображения функции с помощью линий уровня. Линией уровня функции f (изолинией) называется любое множество вида {x
Rm: f(x) = c}. Каждому значению c отвечает своя линия уровня (см. рис. 1).

Рис. 1.
Геометрическая интерпретация градиентного метода с постоянным шагом изображена на рис. 2. На каждом шаге мы сдвигаемся по вектору антиградиента, "уменьшенному в α раз".

Рис. 2.
Пример исследования сходимости.
Изучим сходимость градиентного метода с постоянным шагом на примере функции
f(x) = |x|p, |
где p > 1 (случай p ≤ 1 мы не рассматриваем, поскольку тогда функция f не будет гладкой, а мы такой случай не исследуем). Очевидно, задача (1) с такой функцией f имеет единственное решение x* = 0. Для этой функции приближения xn градиентного метода имеют вид:
xn+1 = xn – αp|xn|p–1sign xn. | (3) |
Пределом этой последовательности может быть только 0. Действительно, если x** = limn→∞ xn ≠ 0, то, переходя к пределу в (3) при n → ∞, получаем противоречащее предположению x** ≠ 0 равенство
x** = x** – αp|x**|p–1sign x**, |
откуда x** = 0. Очевидно также, что если x0 = 0, то и xn = 0 при всех n.
Покажем, что если p < 2, то при любом шаге α > 0 и любом начальном приближении x0 (за исключением не более чем счетного числа точек) приближения (3) не являются сходящимися. Для этого заметим, что если 0 < |xn| < (2/αp)1/2(2–p), то
|xn+1| > |xn|. | (4) |
Поэтому, если xn не обращается в нуль, то она не может сходиться к нулю и, следовательно, не может сходиться вообще.
Таким образом, осталось доказать (4). В силу (3)
|xn+1| = |xn – αp|xn|p–1 ·sign xn| = |xn|·| 1 –αp|xn|p–2·sign xn|. |
Остается заметить, что если 0 < |xn| < (2/αp)1/(2–p), то, как нетрудно видеть, |1 – αp|xn|p–2·sign xn| > 1, что и требовалось.
Замечание. Число начальных точек x0, для которых xn обращается в нуль при некотором n (и следовательно, при всех бóльших), не более чем счетно.
Если p = 2, т. е. f(x) = x2, то (3) переписывается в виде
|xn+1| = |xn|·|1 – 2α|. |
Поэтому, если α
(0, 1), то |1 – 2α| < 1, а следовательно,
|xn+1| = |1 – 2α|n+1·|x0| → 0 при n → ∞. |
Если же α ≥ 1, то
|xn+1| ≥ |xn|, |
и последовательность {xn}, начинающаяся из ненулевой начальной точки, расходится.
Замечание. Если p > 2, то градиентный метод (3) сходится при αp|x0|p–2 < 2 и расходится при αp|x0|p–2 ≥ 2 для любых начальных точек, за исключением может быть счетного множества.
Таким образом, есть функции, для которых градиентный метод не сходится даже при сколь угодно малом шаге α и есть функции, для которых он сходится только при достаточно малых шагах. В следующих пунктах мы приведем ряд теорем о сходимости градиентного метода.
Теорема об условной сходимости градиентного метода с постоянным шагом.
Пусть в задаче (1) функция f ограничена снизу, непрерывно дифференцируема и, более того, f ′ удовлетворяет условию Липшица:
||f ′(x) – f ′(y)|| ≤ Λ ||x – y|| при всех x, y |
Тогда при α
(0, 2/Λ) градиентный метод с постоянным шагом условно сходится.
Д о к а з а т е л ь с т в о. Положим zn = –αf ′(xn) и обозначим f(xn + tzn) через φ(t). Тогда, как легко видеть,
φ′(t) = (f ′(xn + tzn), zn) |
и поэтому по формуле Ньютона — Лейбница для функции φ
f(xn+1) – f(xn) = f(xn + zn) – f(xn) = φ(1) – φ(0) = |
|
Добавив и отняв (f ′(xn), zn) = ∫01(f ′(xn), zn) ds и воспользовавшись неравенством (x, y) ≤ ||x|| · ||y||, получим |
|
|
Учитывая условие Липшица для f ′, эту цепочку можно продолжить:
| (5) |
Поскольку 1 – Λα/2 > 0, последовательность {f(xn)} не возрастает и, следовательно, релаксационность {xn} доказана. А так как в силу условий теоремы f еще и ограничена снизу, последовательность {f(xn)} сходится. Поэтому, в частности, f(xn+1) – f(xn) → 0 при n → ∞. Отсюда и из (5) получаем
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 |


