Мы не выписывали выше точных значений констант (величин р, γ, q), интересуясь лишь качественной картиной процесса. Рассмотрим эти значения указаны для случая квадратичной функции.
Пусть![]()
Тогда в методе (1) будет![]()
Используя известную лемму, получим оценку
В частности, при γ = 2/(L + l) отсюда следует ![]()
3. Относительные детерминированные помехи.
Теорема 2. Пусть
Тогда
найдется >0 такое, что при 0 < γ <
метод (1) сходится к х* со скоростью геометрической прогрессии.
Доказательство. Возьмем в качестве функции Ляпунова
Тогда

Таким образом, градиентный метод устойчив к относительным ошибкам, если их уровень менее 100%. Причина этого очевидна— всякое направление, составляющее с антиградиентом острый угол, является направлением убывания f(x) и может быть использовано в качестве направления движения вместо градиента.
4. Абсолютные случайные помехи. Пусть помехи rk случайны, независимы,![]()
Теорема 3. Найдется
>0 такое, что при γk ≡ γ, 0 < γ < в методе (1)

Если
![]()
то
Если же
(6)
то хk→х* п. н. Наконец, если
то
(7)
Доказательство. Возьмем V(х) = f(x) — f *. Тогда

Мы увидим далее (теорема 4), что вышеприведенные оценки не завышены, поэтому теорема 3 дает основания для следующих выводов. Во-первых, обычный вариант градиентного метода (с γk≡γ) при наличии аддитивных случайных помех не сходится к точке минимума, а приводит лишь в окрестность минимума. Размеры этой области тем меньше, чем меньше γ. Во-вторых, выбирая убывающие γk, можно сделать метод сходящимся в том или ином вероятностном смысле (в среднем при γk →0 и почти наверное при
![]()
В-третьих, скорость сходимости при этом довольно медленна (порядка О(1/k)). Как мы увидим в дальнейшем, более высокой скорости сходимости нельзя добиться ни при каком выборе γk.
Уточним теорему 3 для квадратичной функции и помех постоянного уровня. Пусть
(8)
Будем считать, что начальное приближение х0 случайно и симметрично распределено вокруг![]()
Теорема 4. При любом 0 < γ < 2/L, γk≡γ в методе (1) при условиях (8) для величины
(9)
справедливы соотношения
(10)
(11) Если
то
(12)
Величина || В (γ) || минимальна при γ = 1/l,
(13)
5. Относительные случайные помехи. Пусть помехи rk такие же, как в предыдущем пункте, но их дисперсия удовлетворяет условию
M|| rk ||≤α||
f(x)||2. (14)
Теорема 5. При любом α существует
такое, что при γk≡γ, 0< γ < методе (1) будет
(15)
Мы видим, что наличие случайных относительных помех любого уровня не приводит к нарушению сходимости.
Итак, в зависимости от типа помех их присутствие может либо сохранять, либо нарушать сходимость градиентного метода. Иногда сходимость можно восстановить за счет регулировки длины шага.
9. 3. Другие методы минимизации при наличии помех
1. Метод Ньютона. Вопрос о поведении метода Ньютона при наличии помех значительно более сложен, чем тот же вопрос для градиентного метода. Дело в том, что в этом методе может быть несколько источников помех (вычисление
f(x),
2f(x), обращение
2f(x)) и их природа может быть различна (например, случайные ошибки в вычислении градиента и систематические в обращении матрицы). Мы не будем стараться рассмотреть все возможные ситуации, а остановимся на нескольких характерных примерах, интересуясь лишь качественным анализом процесса.
Пусть в результате всех вычислений (градиента, гессиана, решения системы линейных уравнений) получается вектор, отличающийся от истинного:
(1)
где rk — помеха, и делается шаг
(2)
Предположим, что помеха может содержать систематическую ошибку:
(3)
Как мы знаем, метод Ньютона сходится локально в некоторой области U. Ясно, что если в больше диаметра U, то сходимости заведомо нет — при любом х0, сколь угодно близком к х*, процесс выходит из U. Таким образом, возникает ситуация, которой не было в градиентном методе: при достаточно высоком уровне абсолютных помех метод Ньютона может вести себя бессмысленным образом (например, ||хk — х*|| может возрастать) при любом х0.
Возникновение систематических ошибок в методе Ньютона неизбежно, даже если
f(x) и
2 f (x) вычисляются точно. Дело в том, что если число обусловленности μ точки минимума велико (а именно тогда применение метода Ньютона наиболее целесообразно), то матрица
2f(xk) оказывается плохо обусловленной. Поэтому результат решения системы линейных уравнений
2({xk)z=
f(xk) для определения шага метода отличается от точного решения вследствие ошибок округления в ЭВМ. Это отличие (для плохо обусловленных систем) может быть значительным и приводит к развалу метода Ньютона.
Присутствие случайных или относительных ошибок не столь катастрофично, но может повлечь существенное замедление метода Ньютона. Пусть, например, требуется минимизировать квадратичную функцию
(4)
причем матрицы А и A-1 вычисляются точно, а градиент содержит случайную ошибку:
(5) Рассмотрим метод
(6)
являющийся обобщением метода Ньютона за счет введения параметра γk. Как мы увидим в дальнейшем, этот метод ни при каком способе выбора γk не может сходиться быстрее чем O(1/k). Но скорость сходимости такого же порядка может обеспечить гораздо более простой градиентный метод. Таким образом, здесь теряется основное преимущество метода Ньютона — его высокая скорость сходимости. Аналогичная ситуация возникает при наличии относительной ошибки. Если, например, градиент вычисляется с относительной ошибкой, то метод Ньютона может сходиться лишь со скоростью геометрической прогрессии. Лишь при высокой точности вычислений метод Ньютона сохраняет свои преимущества.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 |


