а функция f(x) монотонно убывает:
Доказательство. Подставим в формулу градиента функции

и воспользуемся (6):
Суммируя неравенства
(9)
по k от 0 до s, получаем
![]()
Поскольку α > 0 в силу (8), то

при всех s, т. е.
Отсюда![]()
Покажем, что все условия этой теоремы существенны. Нарушения условия (6) могут быть двух типов. Во-первых, функция f(x) может быть недостаточно гладкой в какой-либо точке. Пусть, например,
Эта функция дифференцируема, но ее градиент не удовлетворяет условию Липшица, так как
при ||x||→0. В этом случае будет
при малых ||хk||, т. е. шаг в методе (5) получается большим и монотонность убывания f(x) нарушается. Во-вторых, (6) не выполняется для функций, растущих быстрее квадратичной. Пусть, например,
![]()
тогда

при
. При этом для всякого γ>0 можно указать такое х0, что метод (5), примененный к функции
с начальным приближением х0, расходится, поскольку будет ![]()
Если не выполнено условие (7), то функция f(x) не достигает минимума и градиент в методе (5) не обязан стремиться к 0 (например, если f(x) линейна: f(x)=(c, x), то 
Наконец, выбирать γ, нарушая условие (8), вообще говоря, также нельзя, что видно на примере функции
x
R1. Действительно, если γ ≥ 2/L, то в методе (5) для этой функции будет
при любом х0.
С другой стороны, при сделанных в теореме 1 предположениях нельзя доказать ничего большего, например, сходимость последовательности хk. Примером может служить 
Эта функция удовлетворяет условиям теоремы и при любом х0 ≠ 0 будет![]()
Если потребовать, чтобы множество
было
ограничено, то из хk можно выбрать подпоследовательность, сходящуюся к некоторой стационарной точке х*. Однако точка х* не обязана быть точкой локального или глобального минимума. В частности, градиентный метод (5) (или даже (1) с произвольным выбором γk), начатый из некоторой стационарной точки х0, останется в этой точке: хk — х0 для всех k. Иными словами, градиентный метод «застревает» в любой стационарной точке — точке максимума, минимума или седловой. Что же касается поиска глобального минимума, то градиентный метод «не отличает» точек локального минимума от глобального и никакой гарантии сходимости к глобальному минимуму он не дает.
Наконец, в условиях теоремы 1 скорость сходимости
f(xk) к 0 может быть очень медленной. Например, для f(х)= 1/х при х ≥1 (вид f(x) при х < 1 безразличен) метод (5) при γ=1, х0 = 1 принимает вид
при этом можно показать, что
![]()
Рассмотрим поведение градиентного метода для более узкого класса функций — сильно выпуклых. Естественно, здесь удается доказать более сильные результаты, чем в теореме 1 - именно, сходимость итераций хk к точке глобального минимума со скоростью геометрической прогрессии.
Нам понадобится несколько неравенств, относящихся к дифференцируемым, выпуклым и сильно выпуклым функциям.
Лемма 1. Пусть f(x) дифференцируема,
f(x) удовлетворяет условию Липшица с константой Y и f(x) ≥f* для всех х.
Тогда
(10)
Доказательство. Сделаем из точки х шаг градиентного метода с γ = 1/L. Тогда (см. (9))

Лемма 2. Пусть f(x) выпукла и дифференцируема, a
f(x) удовлетворяет условию Липшица с константой L. Тогда
(11)
Доказательство. Докажем (11) лишь для дважды дифференцируемых функций. Тогда
![]()
где матрица
симметрична и неотрицательно определена, т. е. A≥0. Кроме того, ||A||≤L, так как
, для всех х в силу условия Липшица на градиент. Поэтому
![]()
Лемма 3. Пусть f(x)— дифференцируемая сильно выпуклая (с константой l) функция, х* — ее точка минимума (она существует). Тогда

Теорема 2. Пусть f(x) дифференцируема на Rn, ее градиент удовлетворяет условию Липшица с константой L и f(x) является сильно выпуклой функцией с константой l. Тогда при 0 < γ < 2/L метод (5) сходится к единственной точке глобального минимума х* со скоростью геометрической прогрессии:
(12)
Доказательство. Выполнены все условия теоремы 1, поэтому справедливо неравенство (9):

Используем лемму 3:

Отсюда
![]()
Поскольку
и следовательно, f(xk)→f(x*). Из неравенства
f(x)≥f(x*)+l||x-x*||2/2
следует

Рассмотрим еще более узкий класс функций — сильно выпуклых дважды дифференцируемых.
Теорема 3. Пусть f(x) дважды дифференцируема и
(13)
для всех х. Тогда при
(14)
Величина q минимальна и равна
(15)
Доказательство. По формуле

определяем
![]()
где в силу (13)
Поэтому
Для всякой симметричной матрицы А имеем
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 |


