2. Многошаговые методы. Ограничимся вновь анализом некоторых характерных частных случаев. Начнем с метода тяжелого шарика. Можно показать, что при наличии абсолютных детерминированных помех в определении градиента он сходится в область вокруг минимума. Громоздкая выкладка показывает, что для квадратичной функции размер этой области, вообще говоря, больше, чем для градиентного метода. Приведем аналогичный результат, относящийся к абсолютным случайным помехам. Пусть
(8)
причем помехи rk взаимно независимы. Как можно показать, метод тяжелого шарика с постоянными коэффицентами
(9)
в такой ситуации не сходится к х* = A-1b, а приводит лишь в область вокруг х*. Поэтому рассмотрим метод с переменными коэффициентами, который удобно записать в форме
(10)
Наряду с ним рассмотрим градиентный метод
(11)
Ограничимся коэффициентами вида
(12)
Теорема 1. При любом выборе α, β метод (10), (12) сходится асимптотически не быстрее (в смысле величины
чем метод (11) с γk = 1/(kl).
Таким образом, метод тяжелого шарика, превосходящий градиентный метод по скорости сходимости для задач без помех, является относительно менее эффективным при наличии помех.
Этот вывод относится только к асимптотическому поведению метода. На начальных итерациях, когда относительная величина помех мала, двухшаговый метод может превосходить одношаговый, как и для задач без помех.
Примерно такова же ситуация с методом сопряженных градиентов. Полный анализ его поведения при наличии помех очень сложен. При этом разные его варианты по-разному реагируют на ошибки. Можно показать, что при абсолютных и относительных помехах метод сопряженных градиентов вблизи минимума теряет преимущества перед градиентным. Лишь если помехи удовлетворяют условию типа (7), то метод сопряженных градиентов сохраняет свои достоинства.
3. Другие методы. Квазиньютоновские методы очень чувствительны к ошибкам вычисления градиента. Действительно, в них восстанавливается матрица А =
2f(x) по измерениям градиента:
(13)
Если шаги малы (xi+1 близко к хi), а измерения
f(xi) содержат ошибки, то матрица восстанавливается плохо. Для задач со случайными аддитивными помехами с этим эффектом можно бороться путем увеличения числа измерений — нужно восстанавливать не по п значениям
f(x), как в детерминированном случае, а по N > п замерам. При этом можно выписать рекуррентные формулы,. Для неслучайных помех такой прием, вообще говоря, не приводит к повышению точности.
Совершенно аналогичные замечания относятся и к методу секущих — чтобы сделать его работоспособным при наличии случайных помех, нужно брать число базисных точек заметно большее, чем размерность пространства.
Однако нужно помнить, что возможности всех методов, основанных на квадратичной аппроксимации, весьма ограничены в задачах с помехами — даже знание точной матрицы вторых производных не спасает положения.
9.4. Прямые методы
1. Постановка задачи. Пусть в произвольной точке хk измеряется значение f(xk) с ошибкой ηk. По-прежнему будем говорить об абсолютной (относительной) детерминированной ошибке, если
и об абсолютной
(относительной) случайной ошибке, если ηk случайны, независимы,
Задача заключается в изучении влияния разного рода ошибок на прямые методы минимизации и в модификации этих методов для преодоления влияния помех.
2. Разностные методы при случайных помехах. Рассмотрим методы некоторые методы в ситуации со случайными помехами. Начнем с наиболее типичного примера — метода Кифера — Вольфовица (метода разностной аппроксимации градиента):
(1)
eі — координатные орты. Здесь и далее
(2)
причем случайные ошибки η независимы в различных точках и
(3)
Обсудим вопрос о выборе пробных и рабочих шагов αk, γk. Обозначим

где gk — систематическая, a ξk — случайная ошибки. Если f(x) дважды дифференцируема, a
2f(x) удовлетворяет условию Липшица, то в соответствии с известной леммой
(4)
Для случайной составляющей погрешности оценки градиента имеем
(5)
Таким образом, при уменьшении αk убывает систематическая погрешность, но растет случайная. Покажем, прежде всего, что можно так регулировать αk, γk, чтобы обеспечить сходимость.
Теорема 1. Пусть f(x) сильно выпукла и дважды дифференцируема,
2({x) удовлетворяет условию Липшица, выполнено (3) и для αk, γk справедливы соотношения
(6)
Тогда в методе (1)
Если при этом
и γ достаточно велико, то
Можно получить аналогичный результат для несимметричной разностной аппроксимации градиента при менее жестких предположениях о гладкости f(x).
Таким образом, при наличии аддитивных случайных помех в измерении функции для сходимости следует и пробные, и рабочие шаги стремить к 0, причем пробные шаги следует уменьшать медленнее. Асимптотическая скорость сходимости зависит от выбора αk, γk гладкости f(x) и вида разностной аппроксимации, однако она не превосходит О(k-s), s < 1. Эти же выводы справедливы и для более общих алгоритмов.
Приведем более точные оценки скорости сходимости для квадратичной функции при постоянных аддитивных помехах:
(7)
где помехи η независимы в различных точках. Сопоставим метод Кифера — Вольфовица (градиентный)

и метод случайного поиска
где hk — случайный вектор, равномерно распределенный на единичной сфере (и не зависящий от η). Поскольку для квадратичной функции систематическая ошибка в разностной аппроксимации градиента равна 0 при любом αk, здесь не нужно стремить αk к 0. Будем считать, что в (8) и (9) αk ≡α > 0. Используя изветную теорему, нетрудно доказать, что в методе (8) при γk = γ/k, γ > 1/(2l)


Отсюда следует, что если брать γk в (8) в п раз большим, чем в (9), то п шагов метода (9) будут асимптотически эквивалентны одному шагу метода (8). Учитывая, что трудоемкость мотода (8) в п раз больше, чем метода (9), получаем, что в данной ситуации методы (8) и (9) эквивалентны по их асимптотической эффективности. Этот вывод не зависит от обусловленности или каких-либо других свойств А.
Отметим в заключение, что к асимптотическим оценкам типа приведенных в теореме 1, следует относиться с большой осторожностью. Например, выбор αk = γk -1/6 означает, что нужно сделать миллион итераций, чтобы уменьшить пробный шаг в 10 раз. Поэтому практически счет будет происходить при постоянном αk.
3. Другие методы. Для задач с помехами перестают быть работоспособными все методы, построенные на одномерных минимизациях (например, методы сопряженных направлений), поскольку такую минимизацию нельзя осуществить. Более перспективными являются методы, в которых строится нелокальная аппроксимация функции по ее значениям в ряде точек (типа симплексного поиска или метода барицентрических координат). Влияние помех сказывается в том, что эти методы перестают работать в окрестности минимума, где уровень помех сравним с приращениями функции. Если помехи случайны и центрированы, то методы можно модифицировать так, что они останутся работоспособными и в указанной области. Общая идея такой модификации — использовать большее число точек для построения аппроксимации функции, чем в детерминированном случае. Это позволяет усреднять помехи и получать все более точную аппроксимацию. Например, в симплексном методе можно многократно проводить вычисления функции в каждой вершине симплекса, сопоставляя точность оценки значений функции с их разностью в различных вершинах.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 |


