||x^{[k+1]}-x^{[k]}||\leq\eps ||f(x^{[k+1]})-f(x^{[k]})||\leq\eps

Здеcь x^{[k]} \in \mathbb{R}^n- значение, полученное после k-го шага оптимизации. ε - наперед заданное положительное число.

В общем случае число α может на каждом шаге (т. е. для каждого n) выбираться заново:

xn+1 = xn – αnf ′(xn).

(2)

Именно методы, задаваемые формулой (2), называются градентными. Если αn=α при всех n, то получающийся метод называется градиентным методом с постоянным шагом (с шагом α.)

Поясним геометрическую суть градиентного метода. Для этого мы выберем способ изображения функции с помощью линий уровня. Линией уровня функции f (изолинией) называется любое множество вида {x Rm: f(x) = c}. Каждому значению c отвечает своя линия уровня (см. рис. 1).

Изолинии функции
Рис. 1.

Геометрическая интерпретация градиентного метода с постоянным шагом изображена на рис. 2. На каждом шаге мы сдвигаемся по вектору антиградиента, "уменьшенному в α раз".

Гpадиентный метод с постоянным шагом
Рис. 2.

Пример исследования сходимости.

Изучим сходимость градиентного метода с постоянным шагом на примере функции

f(x) = |x|p,

где p > 1 (случай p ≤ 1 мы не рассматриваем, поскольку тогда функция f не будет гладкой, а мы такой случай не исследуем). Очевидно, задача (1) с такой функцией f имеет единственное решение x* = 0. Для этой функции приближения xn градиентного метода имеют вид:

xn+1 = xn – αp|xn|p–1sign xn.

(3)

Пределом этой последовательности может быть только 0. Действительно, если x** = limn→∞ xn ≠ 0, то, переходя к пределу в (3) при n → ∞, получаем противоречащее предположению x** ≠ 0 равенство

НЕ нашли? Не то? Что вы ищете?

x** = x** – αp|x**|p–1sign  x**,

откуда x** = 0. Очевидно также, что если x0 = 0, то и xn = 0 при всех n.

Покажем, что если p < 2, то при любом шаге α > 0 и любом начальном приближении x0 (за исключением не более чем счетного числа точек) приближения (3) не являются сходящимися. Для этого заметим, что если 0 < |xn| < (2/αp)1/2(2–p), то

|xn+1| > |xn|.

(4)

Поэтому, если xn не обращается в нуль, то она не может сходиться к нулю и, следовательно, не может сходиться вообще.

Таким образом, осталось доказать (4). В силу (3)

|xn+1| = |xn – αp|xn|p–1 ·sign xn| = |xn|·| 1 –αp|xn|p–2·sign xn|.

Остается заметить, что если 0 < |xn| < (2/αp)1/(2–p), то, как нетрудно видеть, |1 – αp|xn|p–2·sign  xn| > 1, что и требовалось.

Замечание. Число начальных точек x0, для которых xn обращается в нуль при некотором n (и следовательно, при всех бóльших), не более чем счетно.

Если p = 2, т. е. f(x) = x2, то (3) переписывается в виде

|xn+1| = |xn|·|1 – 2α|.

Поэтому, если α (0, 1), то |1 – 2α| < 1, а следовательно,

|xn+1| = |1 – 2α|n+1·|x0| → 0 при n → ∞.

Если же α ≥ 1, то

|xn+1| ≥ |xn|,

и последовательность {xn}, начинающаяся из ненулевой начальной точки, расходится.

Замечание. Если p > 2, то градиентный метод (3) сходится при αp|x0|p–2 < 2 и расходится при αp|x0|p–2 ≥ 2 для любых начальных точек, за исключением может быть счетного множества.

Таким образом, есть функции, для которых градиентный метод не сходится даже при сколь угодно малом шаге α и есть функции, для которых он сходится только при достаточно малых шагах. В следующих пунктах мы приведем ряд теорем о сходимости градиентного метода.

Теорема об условной сходимости градиентного метода с постоянным шагом.

Пусть в задаче (1) функция f ограничена снизу, непрерывно дифференцируема и, более того, f ′ удовлетворяет условию Липшица:

||f ′(x) – f ′(y)|| ≤ Λ ||xy|| при всех x, y Rm.

Тогда при α (0, 2/Λ) градиентный метод с постоянным шагом условно сходится.

Д о к а з а т е л ь с т в о.  Положим zn = –αf ′(xn) и обозначим f(xn + tzn) через φ(t). Тогда, как легко видеть,

φ′(t) = (f ′(xn + tzn), zn)

и поэтому по формуле Ньютона — Лейбница для функции φ

f(xn+1) – f(xn) = f(xn + zn) – f(xn) = φ(1) – φ(0) =

1

0

φ′(s) ds

1

0


(f ′(xn+ szn), zn) ds

Добавив и отняв (f ′(xn), zn) = ∫01(f ′(xn), znds и воспользовавшись неравенством (x, y) ≤ ||x|| · ||y||, получим


f(xn+1) – f(xn) = (f ′(xn), zn) + 

1

0


(f ′(xn + szn) – f ′(xn), zn) ds ≤ 


≤ (f ′(xn), –αf ′(xn)) + 

1

0


||f ′(xn + szn) – f ′(xn)|| · ||zn|| ds

Учитывая условие Липшица для f ′, эту цепочку можно продолжить:


 f(xn+1) – f(xn) ≤ –α||f ′(xn)||2 + Λ ||zn||2

1

0

s ds =


= – α||f ′(xn)||2 + 

Λα2

2


||f ′(xn)||2 = –α||f ′(xn)||2

(

1 – 

Λα

2

)

.

(5)

Поскольку 1 – Λα/2 > 0, последовательность {f(xn)} не возрастает и, следовательно, релаксационность {xn} доказана. А так как в силу условий теоремы f еще и ограничена снизу, последовательность {f(xn)} сходится. Поэтому, в частности, f(xn+1) – f(xn) → 0 при n → ∞. Отсюда и из (5) получаем

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97