Рис.3

Изменение значений тормозящих весов того же нейрона второго слоя вычисляется по формуле

, (6)

В случае, когда отсутствуют возбужденные нейроны в области конкуренции (во втором слое), например на эта

инициализации процесса обучения, изменение весов вычисляется как

, , (7)

где также как и η – положительный коэффициент скорости обучения (<η).

Рассмотренная процедура обучения обеспечивает более быстрое увеличение возбуждающих весов по сравнению с тормозящими у активированных нейронов. И наоборот, у нейронов, которые проиграли конкуренцию, возбуждающие веса возрастают незначительно, а тормозящие сильнее.

Неокогнитрон – дальнейшее развитие и модификация идей когнитрона. Каждый слой неокогнитрона состоит из двух плоскостей двумерных массивов нейронов.

Простые нейроны входной плоскости (первой) настроены на специфическую входную информацию (входной образ).

Сложные нейроны второго слоя уменьшают позиционную зависимость реакции неокогнитрона на образы. На входы каждого сложного нейрона подаются выходные сигналы с набора простых нейронов из соответствующего множества первой плоскости того же слоя.

12. Статистический подход к обучению нейронных сетей. Машина Больцмана и ее модификации

Поскольку нейронные сети представляют собой большие ансамбли одинаковых нелинейных элементов, связанных между собой, они могут служить также объектом изучения статистической физики. К нейронным сетям можно применять различные статистические подходы, и их удобной отличительной особенностью по сравнению с другими объектами статистической физики является возможность прямого изучения не только поведения всей системы в целом, но и отдельных элементов. Развитие этого подхода сулит получение дополнительного инструмента оценивания различных искусственных нейронных сетей и тем самым возможности выбора наиболее эффективных и быстродействующих конфигураций.

НЕ нашли? Не то? Что вы ищете?

Алгоритм:

1.  Определяем некоторую переменную Т, которой мы придаем смысл искусственной температуры.

2.  Предоставляем сети множество входов и вычисляем целевую функцию.

3.  Даем случайное изменение весу и пересчитываем выходы сети и изменения целевой функции в соответствии с изменением веса. Целевая функция обладает смыслом энергии. Наилучшее значение – 0.

4.  Если целевая функция улучшилась (энергия уменьшилась), то сохраняем изменения веса. Если целевая функция увеличилась, то вычисляем вероятность в соответствии с распределением Больцмана.

P(E)=exp(-)=exp(-), (1)

где kT= .

Выбираем случайное число 0<r<=1; если r<P(E), то сохраняем изменения, иначе – нет.

max при Е=0; по мере Е0 все больше примеров нас будут устраивать.

Рис.1

5. Пункты 3-4 повторяются для всех весов сети при уменьшении Т пока не будет достигнуто низкое значение целевой функции. Затем процесс обучения повторяется для следующего входного вектора. Скорость уменьшения температуры должна быть обратно пропорциональна логарифму времени.

Плюсы. Этот алгоритм обеспечивает достижение глобального минимума, т. е. возможен выход из локального минимума.

Минусы. Медленный алгоритм обучения.

Область применения: распознавание образов, классификация.

Модификации:

Алгоритмы, в которых изменяются веса всех входных векторов. Это ускоряет процесс обучения.

Рис.2

Распределение Дирака Распределение Дирака P(E)= E<=C p(E)=1 E>C p(E)=0 По мере уменьшения Т, Е<C, поэтому при малой Т все модификации будут считаться хорошими.

13. Обучение как процесс диффузии

Рассмотрим так называемое обучение нейронной сети с учителем. Пусть состояние сети описывается непрерывным вектором внутренних параметров настройки и характеризуется энергией , в качестве которой мы примем целевую функцию, представляющую собой полусумму квадратов ошибок, соответствующих обучающим примерам, взятую со знаком минус. Пусть у сети n выходов, которые мы занумеруем индексами i, и ей предъявлено для обучения m примеров, нумеруемых индексами j. Обозначим выходные состояния нейронной сети , в то время как правильные значения, соответствующие ответам обучающих примеров, есть . Тогда энергетическая функция запишется в виде

(1)

Энергетическая аналогия позволяет представить обучение нейронной сети как движение материальной точки по заданному энергетическому рельефу. Если отождествить (1) с потенциальной энергией, то на точку будет действовать скатывающая сила в направлении ближайшего локального минимума. Если одновременно на точку действует сила вязкого сопротивления, то при больших значениях вязкости можно считать, что силы инерции пренебрежимо малы и сила вязкости, пропорциональная скорости, локально уравновешивается потенциальной силой. В таком случае точка будет двигаться в направлении локального минимума, пока не достигнет его и не остановится. Выйти из локального минимума частица самопроизвольно уже не сможет. Для поиска глобального минимума можно добавить случайную силу эквивалентную тепловому действию внешней среды.

В итоге динамика нейронной сети может быть описана на основе уравнения Ланжевена, которое применяется для систем с большой вязкостью, движущихся под действием суммы детерминированной силы и случайной силы :

. (2)

Компоненты случайной силы в уравнении (2) удовлетворяют соотношениям для корреляционной функции вида

(3)

где = kT (k – постоянная Больцмана, T - температура).

Для нахождения решения уравнения (2) необходимо задание конкретного вида функции , но ряд общих свойств решений можно изучить для функций достаточно произвольного вида. Задача об обучении с учителем в такой формулировке эквивалентна задаче о многомерных случайных блужданиях частицы в потенциальном поле сложной конфигурации.

Прохождение критических точек

Рассмотрим динамику системы вблизи минимума энергии, то есть вблизи некоторого решения как показано на рис.1. В окрестности этого решения энергию E можно представить с точностью до квадратичных членов в виде

. (4)

Рис. 1

где E0 = 0.

Поскольку задача обучения нейронной сети сведена к движению частицы по сложному потенциальному рельефу при наличии случайных сил, возникает тесная связь рассматриваемой проблемы с задачей о диффузии в случайной среде. Перетекание из одной долины в другую происходит через перевалы (рис.2).

Рис. 2

Тем самым важнейшими точками при описании процесса обучения являются критические точки, в которых потенциальная функция изменяется вблизи минимумов и седловых точек. Определенный интерес представляют точки максимумов как оценка верхней границы возбуждения системы, за которой никакое обучение заведомо невозможно, поскольку все пространство “затоплено”.

В окрестности точек перевала градиенты целевой функции малы, а самих точках перевала равны нулю, тем самым все градиентные методы перестают работать. В то же время такие области никак не могут считаться решениями, и их необходимо проходить максимально быстро. Основываясь на диффузионной модели, можно предложить «метод продувки» для решения этой проблемы. При замедлении движения в перевальных областях в окрестности точки M в процессе перехода из долины A в долину B необходимо приложить искусственную внешнюю силу, направленную в сторону долины В. Математически это оформляется следующим образом. В окрестности седловой точки, в которой мы будем считать , зависимость от обучаемых параметров может быть приведена к виду

. (5)

Это гарантирует теорема Морса при выполнении условия .

Направление наискорейшего спуска с перевала соответствует . Переход через перевал может идти в положительном или отрицательном направлении координаты .

Проекция вектора на ось zk:

, (6)

, (7)

где . Найдем среднее значение квадрата . С учетом того, что и получаем:

, (при ) (8)

Тем самым временная зависимость релаксации вблизи минимума вполне определена. Из соотношения (8) видно, что точное решение в процессе диффузионного обучения можно получить только при температурном параметре , тогда =0.

Проведенный анализ позволяет модифицировать процесс обучения для повышения его скорости. На начальном этапе обучения детали строения энергетической поверхности не имеют большого значения. Следовательно, можно использовать процедуру обучения, в которой исходная целевая функция заменена сглаженной. В частности можно представить исходную энергетическую поверхность в виде совокупности плоских симплексов с постоянным наклоном.

Преимущества такого подхода:

·  Необходимо обходить не все вершины, а только вершины треугольника (промежуточных точек нет);

·  В пределе одного симплекса задача линейна.

14. Уравнение диффузии

Рассмотрим случайное блуждание на оси (одномерное блуждание).

Пусть - количество частиц в узле n (плотность частиц), - вероятность прыжка в определенную сторону, тогда изменение количества частиц в единицу времени в одной точке n будет равно:

, (1)

где - частицы, которые пришли в точку n, - частицы, которые ушли из точки n. Так как ∆n, где ∆n = 0, то:

, (2)

где x = an. С учетом (1) получаем уравнение диффузии

, (3)

где

Диффузия при наличии внешнего поля

- плотность тока частиц: , тогда

(4)

-  уравнение Колмагорова-Фоккера-Планка, где

(5)

- уравнение диффузии, ∆ - оператор Лапласа ∆=.

Рассмотрим стационарное состояние, в котором

(6)

и

. (7)

Покажем, что соотношение (7) выполняется для одномерной задачи. В этом случае

,

и

.

Такой подход позволяет использовать при описании нейронных сетей по аналогии со статистической физикой.

16. MATLAB

В рабочем пространстве MatLab существуют зоны просмотра и редактирования.

Содержание рабочего пространства сохраняется в файл с расширением. mat.

Команды MatLab:

·  clc - стирает видимое поле, но не затрагивает памяти;

·  clear var1,var2,… - стирает значения переменных var1, var2,…;

·  who – просмотр переменных в рабочем пространстве;

·  для продления строки ставятся три или более точки;

·  cd – показывает текущий каталог;

·  help <имя команды> - помощь по определенной команде;

·  если после команды стоит знак «;», то результат команды не выводится;

Комплексные числа

Комплексная единица обозначается как «i» или «j».

Некоторые из доступных команд:

·  imag – возвращает мнимую часть комплексного числа;

·  real – возвращает действительную часть комплексного числа;

·  angle – возвращает |z|

·  abs – возвращает

Массивы

Задание массивов:

·  a1=[1,2,3,4]

·  a1(1)=6

·  Массив с постоянным шагом: d=3.7:0.3:8.9

·  x=sin(d) – x массив синусов.

Для того, чтобы узнать длину массива a1 используется команда length(a1).

Задание матриц:

·  X=[1,2;3,4;5,6]

Для того, чтобы определить размер матрицы – size(X).

Операции над матрицами и векторами:

·  *, +, -

·  .* и.\ - каждый элемент одной матрицы умножается или делится на соответствующий элемент другой матрицы;

·  A\B соответствует выполнению операции A-1B.

Графика

T = 0:pi/50:10pi

X = sin(t)

Y = cos(t)

Plot(x, y,t);grid on;

Цикл

While … end;

For k=1:1:57 … end;

m-файлы

хранят сценарии с инструкциями на m-языке. Создаются в любом текстовом редакторе. Набор имени файла вызывает выполнение всех команд файла.

Сети Хопфилда в MatLab

Задается целевая матрица T – образец, на котором происходит тренировка:

T=[-1 -1 1;1 -1 1]’

Далее строим сеть:

net=newhop(T)

gensim(net)

Для того, чтобы убедиться, что тренировочные образцы воспроизводятся необходимо:

Ai=T

[Y, Pf, Af]=sim(net,2,[],Ai)

Y{}

Для примера подадим другой вектор:

Ai = {[-0.9;-0.8;0.7]}

[Y, Pf, Af]=sim(net,{1 5},[],Ai)

Y{}

где «{1 5}» - количество итераций.

Естественные аналоги

Как мы видим, одну из возможностей описания процесса обучения предоставляет диффузионный подход. В то же время, для создания наиболее эффективных видов архитектуры нейронных сетей пока не существует каких либо последовательных алгоритмов. Поэтому исключительно полезным может быть, как и ранее при создании нейронных сетей разных типов, использование тех или иных структурных и функциональных особенностей головного мозга человека [19,20]. В этом разделе мы обратим внимание на некоторые важные свойства головного мозга и проанализируем одно из них на основе диффузионной модели.

Отметим в первую очередь, что мозг обладает очень сильно выраженной структурной и функциональной неоднородностью. В нем разные отделы осуществляют первичную обработку различных каналов информации, кратковременную память, долговременную память, абстрактное мышление и так далее. В то же время различные отделы мозга хорошо связаны между собой, передают информацию и функционируют в единстве. Тем самым можно ожидать, что и в искусственных нейронных сетях эффективные решения могут быть достигнуты при использовании блочной структуры системы с разной функциональной ориентацией отдельных блоков.

При наблюдении роста мозга у животных и человека выявляется принцип самопостроения и последовательного развития его областей, начиная с первичной нервной пластинки. Ничего подобного для искусственных нейронных сетей пока не разработано. Все части мозга в своем развитии проходят восемь главных стадий:

1.  Клетки нервной пластинки детерминируются как будущие нейроны того или иного общего типа.

2.  Клетки детерминированного участка начинают делиться.

3.  Эти клетки мигрируют к местам их промежуточного и окончательного назначения.

4.  Достигнув места своей окончательной локализации, все еще незрелые нейроны начинают собираться в группы, из которых позже разовьются “ядра” взрослой нервной системы.

5.  Эмбриональные нейроны, образующие скопления, перестают делиться и начинают формировать соединительные отростки.

6.  Это приводит к раннему образованию связей, обеспечивает возможность синтеза и выделения нейромедиаторов.

7.  В конце концов “правильные связи” стабилизируются, а клетки, связи которых оказались “неудачными” или слишком малочисленными, умирают.

8.  После того, как общее число нейронов стабилизировалось, происходят незначительные изменения в соответствии с функциональной нагрузкой тех или иных систем.

Существуют три генетически детерминированных типа естественных нейронных сетей:

1.  Иерархические сети.

2.  Локальные сети.

3.  Дивергентные сети с одним входом.

Так в зрительной системе вначале имеется дивергенция входного сигнала, что повышает вероятность его обнаружения. Затем в результате последовательной конвергенции обеспечивается обобщение зрительных образов.

Особый интерес представляет строение коры головного мозга. Здесь основной особенностью является образование вертикальных ансамблей или колонок, которые охватывают все слои коры снизу доверху. Сенсорные системы, идущие от одного и того же участка возбуждают группу нейронов, расположенную по вертикали. Вертикальные колонки нейронов более или менее сходного типа распространены по всей коре больших полушарий, хотя размеры и плотность клеток в них варьируются. Информация, с которой имеют дело кортикальные колонки, - зрительная для зрительной коры, тактильная для тактильной, слуховая для слуховой и так далее, конечно уже была подвергнута частичной переработке первичными воспринимающими интегрирующими центрами. Результаты деятельности одной корковой колонки с помощью специфических внутрикортикальных синаптических связей передается затем другой колонке для дальнейшей переработки данных.

Любая корковая колонка содержит примерно одинаковое число клеток-100 или около того, будь то мозг крысы или даже человека. Большие способности отдельных особей внутри вида с определенным строением коры обусловлены большим числом колонок в коре и нервных волокон, связывающих их между собой внутри отдельных корковых зон. Всюду в мозге реализуется параллельная обработка информации как один из основных принципов функционирования.

Статистический подход можно применить к процессам роста нейронных сетей как явлению самоорганизации, а также к процессу их функционирования. В обоих случаях мы имеем дело с кинетикой распределенной нелинейной системы. Кинетическое уравнение, описывающее обучение, есть уравнение диффузии в пространстве параметров нейронной сети. Наиболее важными для описания скорости обучения системы в диффузионной модели являются точки минимумов и точки перевалов. Их картирование открывает возможность построения более эффективных алгоритмов обучения. В диффузионной модели можно проследить как релаксацию системы вблизи решения, так и эволюцию системы в целом на больших временах. Физические аналогии позволяют дать новую интерпретацию уже известным в теории нейронных сетей явлениям, а также указать некоторые новые явления и алгоритмы обучения. В частности, предложен метод продувки, который не обладает недостатками метода моментов, а также показан пульсационный характер обучения в столбчатых структурах. В заключение отметим, что сочетание структурных особенностей естественных нейронных сетей в искусственных аналогах и статистического описания их функционирования полезным является инструментом, дополняющим уже найденные и эффективно работающие алгоритмы анализа и обучения сложных искусственных нейронных сетей.

Упражнения для практики

1.  Получить правила дифференцирования униполярной и биполярной функций.

2.  Построить графики униполярной и биполярной функций, а также их производных при разных значениях коэффициента .

Литература

1.  , искуственные нейронные сети. М.: Горячая линия - Телеком, 2001. –382с.

2.  Нейронные сети для обработки информации. М.: Финансы и статистика, 2002. –344с.

3.  , Потемкин сети. Матлаб 6. М.: Диалог МИФИ, 2002. – 496с.

4.  Нейронные сети. STSTISTICA Neural Networks. М.: Горячая линия - Телеком, 2001. –182с.

5.  Нейрокомпьютерная техника: Теория и практика. (Интернет).

6.  Основные концепции нейронных сетей. М.: Вильямс, 2001. –287с.

7.  , , Слесарев сети и их приложения. М., МЭИ, 2002. –95с.

Дополнительная литература

1.  , Дунин-, и др. Нейроинформатика. – Новосибирск : Наука, 1998. – 296с.

2.  Engel A. and Van den Broeck C. Statistical Mechanics of Learning. – Cambridge: Cambridge University Press, 2001. –250p.

3.  Geman S., Geman D. IEE Transactions on Pattern Analysis and Machine Intelligence. 1994, V.6, 721-741.

4.  Watkin T. L.H., Rau A. Rev. Mod. Phys. 1993, V.65, №2, 499-556.

5.  Неравновесная статистическая механика. – М.: Мир, 1990. –320с.

6.  Динамическая теория полимеров. – М.: Мир, 1998. –440с.

7.  Ruben Moreno, Jeime de la Rocha, Alfonso Renart, and Nestor Parga. Phys. Rev. Lett., 2002, V.89, No 28, 288101.

8.  Тертычный-Даури механика. – М.: Изд-во “Факториал Пресс”, 2001. – 464с.

9.  , , Шелепин уравнения Фоккера-Планка и их решения. - M: Труды ФИАН, 1980. Т.124.,С.75-96.

10.  , Шилов функции и действия над ними. Вып.1. - М.: ГИФМЛ, 1959. С.250.

11.  Методы математической физики. Т.2. - Л.: ГИТТЛ, 1951. С.226.

12.  Joquin J. Torres, Lovorka Pantic, and Hilbert J. Kappen. Phys. Rev. E, 2002, V.66, 061910.

13.  Isichenko M. Rev. Mod. Phys. 1992, V.64, No 4, P..

14.  Ziman J. M. Models of Disoder. - NY, Cambridge University, 1979.

15.  Morse M. The Critical Points of a Function of n Variables. Trans. Am. Math. Soc. 1931, V.33, pp.72-91.

16.  Rossikhin Yu. A. and Shitikova M. V. Applied Mechanics Reviews. 1997, V.50, No 1, 15-67.

17.  Мозг, разум, поведение. - М.: Мир, 1988.

18.  Шульговский нейрофизиологии. – М.: Аспект пресс, 2000. – 277с.

Рабочая программа:

1.  Искусственный нейрон. Идея и техническая реализация. Модели нейронов. Типичные виды функций активации нейрона. Многослойный персептрон.

2.  Однонаправленные многослойные сети. Алгоритм обратного распространения ошибки. Вывод конкретных формул для двухслойных сетей с малым числом нейронов (2-3).

3.  Градиентные методы. Алгоритм наискорейшего спуска. Недостатки метода. Метод моментов.

4.  Генетические алгоритмы. Особенности применения. Достоинства и недостатки.

5.  Радиальные нейронные сети. Обучение. Область применения.

6.  Рекурентные сети.

7.  Ассоциативная сеть Хопфилда. Обучение. Распознование образов.

8.  Сеть Хемминга. Сеть MAXNET.

9.  Двунаправленная гетероассоциативная память. Принципы построения и функционирования.

10.  Сеть встречного распространения. Обучение слоя Кохонена. Решение задач кластеризации.

11.  ART сети.

12.  Когнитрон.

13.  Статистический подход к обучению нейронной сети. Машина Больцмана и ее модификации.

14.  Обучение как процесс диффузии. Уравнение Ланжевена. Лемма Морса. Анализ решений вблизи критических точек.

15.  Обучение как процесс диффузии. Уравнение Фоккера-Планка.

16.  Нейронный сети в пакете STATISTICA. Основные представления. Данные. Типы решаемых задач.

17.  Основные характеристики пакета MATLAB. Сессия. М-файлы. Mat-файлы. Операции с матрицами. Решение систем линейных уравнений. Обращение матриц.

18.  Нейронный сети в пакете MATLAB. Сети Хопфилда.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3