45354

Методы обучения нейросетей

Доклад

Информатика, кибернетика и программирование

Эта теория ставит своей задачей поиск минимума некоторой целевой функции функционала  которая зависит от нескольких переменных представленных в виде вектора w=[w1 w2 . Все градиентные методы теории оптимизации основаны на разложении целевой функции w в ряд Тейлора в окрестности некоторой начальной точки w nмерного пространства переменных: где p – вектор вдоль которого строится разложение в ряд Тейлора gw – вектор градиента целевой функции . Согласно методу наискорейшего спуска реализованному в алгоритме обратного...

Русский

2013-11-16

62 KB

8 чел.

18 Методы обучения нейросетей

Существует большое количество различных алгоритмов обучения нейросетей, которые можно разделить на два больших класса: детерминистские и стохастические. В первом случае подстройка весов представляет собой жёсткую последовательность действий, во втором – она производится на основе действий, подчиняющихся некоторому случайному процессу.

Рассмотренный выше алгоритм обратного распространения ошибки в его первоначальном изложении реализовывал метод наискорейшего спуска, который относится к градиентным методом теории оптимизации. Эта теория ставит своей задачей поиск минимума некоторой целевой функции (функционала) , которая зависит от нескольких переменных, представленных в виде вектора w=[w1, w2, ..., wn]T. В случае обучения многослойного персептрона целевая функция – это квадратичная ошибка персептрона, рассчитанная по формуле:

,

а w – вектор синаптических весов межнейронных связей.

Все градиентные методы теории оптимизации основаны на разложении целевой функции (w) в ряд Тейлора в окрестности некоторой начальной точки w n-мерного пространства переменных:

,

где p – вектор, вдоль которого строится разложение в ряд Тейлора, g(w) – вектор градиента целевой функции

.

Матрица

,

составляется из производных второго порядка, её называют матрицей Гессе.

Согласно методу наискорейшего спуска, реализованному в алгоритме обратного распространения ошибки, процесс поиска минимума функции (w) можно представить следующим образом. В некоторой случайно заданной точке поверхности ошибок находится направление скорейшего спуска (антиградиента), затем делается шаг вниз на расстояние, пропорциональное крутизне склона (градиенту) и коэффициенту скорости обучения . В новой точке снова определяются направление и величина антиградиента, согласно которым делается следующее перемещение и т.д. Это значит, что при виде сверху на поверхность, изображающую целевую функцию, каждое такое перемещение производится в направлении, ортогональном к проходящей через данную точку линии постоянного уровня (изолинии).

Если бы изолинии поверхности ошибок нейросети представляли собой концентрические окружности, как показано на рис. 5.8а, то направление антиградиента указывало бы на точное расположение точки минимума целевой функции. Однако поверхность ошибок имеет более сложный характер. Так, на рис. 5.8б изолинии поверхности ошибок имеют вид эллипсов, а сама поверхность вблизи минимальной точки имеет форму оврага. В этом случае траектория градиентного спуска представляет собой ломаную линию, каждый отрезок которой ортогонален к линии уровня в той точке поверхности ошибок, из которой производится очередной шаг.

Рисунок 5.8 – Движение точки наблюдения по поверхности ошибок нейросети, обучаемой методом обратного распространения ошибки (а, б),

ParTan-методом (в)

Суть еще одного приема, называемого ParTan-методом, продемонстрирована на рис. 5.8в. Его идея заключается в том, что выполняются два или несколько шагов в сторону антиградиента, причем координаты точек функции ошибок перед первым шагом и после последнего шага запоминаются. Затем делается шаг в направлении, соединяющем первую и последнюю запомненные точки.

Существует группа методов, называемых квазиньютоновскими, в которых помимо первых производных используются еще и вторые производные целевой функции. Квазиньютоновский алгоритм получается при сохранении трех слагаемых разложения целевой функции в ряд Тейлора.

Существует группа методов, не требующих вычисления производных от целевой функции и потому называемых неградиентными. Однако, как правило, они значительно уступают по эффективности градиентным методам и поэтому не рекомендуются для обучения нейросетей.

Существуют также методы обучения нейросетей, называемые эвристическими. Как правило, они не имеют строгого теоретического обоснования, но в них отражается личный опыт работы авторов в области нейросетевых технологий.

Во всех рассмотренных здесь методах обучения нейросетей присутствует проблема выбора параметра , определяющего длину шага вдоль выбранного направления оптимизации p(t). Простейший способ состоит в фиксации постоянных значений на весь период обучения. При этом рекомендуется величину задавать раздельно для каждого слоя персептрона.

Другие методики предполагают динамическое изменение в ходе обучения в зависимости от поведения целевой функции ошибок . Для более быстрой сходимости коэффициент стремятся увеличивать по мере снижения функции ошибок, однако не допуская ее существенного возрастания.

В настоящее время основная проблема обучения персептронов состоит в том, что поверхность функции ошибок обычно имеет очень сложную форму со множеством локальных минимумов. Поэтому все изложенные выше методы обычно приводят к одному из локальных минимумов, лежащих в окрестности начальной точки обучения. Если после нахождения такого минимума погрешность обучения нейросети признается неудовлетворительной, то сеть "встряхивают", давая весовым коэффициентам случайные приращения, и продолжают процесс обучения из другой точки. Часто процесс обучения приобретает характер длительного экспериментирования, в ходе которого пробуются различные оптимизационные алгоритмы с различными параметрами. В результате успех применения нейросетевых технологий ставится в зависимость от опыта и интуиции специалиста, числа различных оптимизационных алгоритмов, имеющихся в его распоряжении.

В связи с этим актуальным является развитие методов глобальной оптимизации, т.е. таких, которые позволяют найти глобальный минимум многоэкстремальной целевой функции. Среди множества возможных подходов наиболее успешным признаётся идея генетических алгоритмов. Эта идея, впервые предложенная Дж. Холландом в 1970-х годах, состоит в имитации природных оптимизационных процессов, происходящих при эволюции живых организмов.

Как известно, основы теории эволюции были сформулированы Чарльзом Дарвином в 1859 году. Согласно эволюционной теории природа оптимизирует все живое благодаря двум биологическим механизмам – естественному отбору и генетическому наследованию. Суть естественного отбора заключается в том, что наиболее приспособленные особи лучше выживают и приносят больше потомства, чем менее приспособленные. Механизм генетического наследования состоит в следующем. Почти в каждой клетке любого живого организма имеется набор хромосом, несущих информацию об этом организме. Основная часть хромосомы – нить ДНК (молекула дезоксирибонуклеиновой кислоты), которая состоит из четырех видов соединений – нуклеотидов, идущих в определенной последовательности.

Ген – это отрезок цепи ДНК, отвечающий за определенное свойство особи, например за цвет глаз, тип волос, цвет кожи и т.д. Установлено, что вся совокупность генетических признаков человека кодируется посредством примерно 60 тыс. генов, суммарная длина которых составляет более 90 млн нуклеотидов.

При размножении живых организмов происходит слияние двух родительских половых клеток: хромосомы родителей сближаются вплотную, затем их нити ДНК разрываются в нескольких случайных местах и хромосомы обмениваются своими частями. Таким образом, молекулы ДНК потомков случайным образом приобретают гены как отца, так и матери.

При наследовании возможны мутации – изменения генов в половых клетках одного из родителей. Измененные гены передаются потомку и придают ему новые свойства, отличные от свойств родителей. Если эти новые свойства окажутся полезными, т.е. потомок будет более приспособлен к окружающей среде, то в процессе естественного отбора он выживет и создаст новое более совершенное потомство. Таким образом, механизмы естественного отбора, изменчивости и наследственности являются источником совершенствования биологических видов, методом оптимизации свойств живых организмов, созданным самой природой.

Генетические алгоритмы, предназначенные для оптимизации (обучения) весовых коэффициентов нейронной сети, работают следующим образом. Сначала создается некоторая начальная популяция особей, каждая из которых имеет свою собственную "хромосому" – вектор весовых коэффициентов нейронной сети w =[w1, w2, ..., wn]T. Для каждой особи вычисляется целевая функция (w), являющаяся мерой приспособленности особи к существованию. Первоначальная популяция равномерно распределяется в пространстве оптимизируемых параметров. Таким образом, точки, соответствующие каждой особи, более-менее равномерно распределяются по поверхности целевой функции.

Отбор особей для скрещивания, необходимого для создания нового поколения, может основываться на различных принципах. Одним из наиболее распространенных считается принцип элитарности, согласно которому к скрещиванию допускаются наиболее приспособленные особи, а наихудшие отбраковываются и заменяются вновь создаваемым потомством. Этот процесс называется селекцией. Обычно процесс скрещивания состоит в том, что хромосомы родителей случайным образом рассекаются на две неравные части, после чего они соединяются так, что хромосомы потомков содержат часть хромосомы отца и часть хромосомы матери (рис. 5.9).

Рисунок 5.9 – Операция скрещивания,

применяемая в генетических алгоритмах

Следующая генетическая операция называется мутацией и состоит в замене некоторого случайным образом выбранного элемента (гена) случайно выбранного вектора (особи) на новое, случайным образом заданное допустимое значение. Мутации обычно подвергается не более 1..5% бит хромосом всей популяции. В результате всех этих генетических операций формируется новое поколение, число особей которого равно числу особей предыдущего поколения. Как показывает опыт, новые поколения, созданные в результате селекции, скрещивания и мутаций, в среднем имеют меньшие значения целевой функции, т.е. оно являются более совершенными.

Процесс смены поколений завершается после достижения заданного числа итераций или после того, как одна из особей приобретет заданное минимальное значение целевой функции. Эта особь является победителем, и ее хромосома принимается за окончательное решение генетического алгоритма.

При обучении персептронов обычно применяют различные вариации генетических алгоритмов, связанные с выбором параметров и способов селекции, скрещивания и мутаций. Эффективным оказалось совмещение генетических алгоритмов с другими алгоритмами оптимизации: на начальных стадиях работает генетический алгоритм, а затем особь-победитель или группа наиболее совершенных особей продолжают спуск к минимуму другим методом.

Генетические алгоритмы имеют свою независимую от нейросетевых технологий область применения и лежат в основе многих коммерческих пакетов, широко применяемых для решения разнообразных оптимизационных задач, возникающих в экономике, бизнесе, промышленности и других областях человеческой деятельности.


a)

б)

)

1

2

a1

a2

Хромосома отца

b1

b2

Хромосома матери

a1

b2

Хромосома 1-го потомка

b1

a2

Хромосома 2-го потомка


 

А также другие работы, которые могут Вас заинтересовать

13578. Создает человека природа, но развивает и образует его общество 16.06 KB
  Создает человека природа но развивает и образует его общество В. Г. Белинский Выбранное мною высказывание связано с проблемой формированием человеческой личности ролью и значением природных и биологических качеств а также воздействием общества на личность. Значи...
13579. Гораздо важнее прививать людям нравы и обычаи, чем давать им законы и суды 17.93 KB
  Гораздо важнее прививать людям нравы и обычаи чем давать им законы и суды. О. Мирабо В выбранном мною высказывании автор сопоставляет нормы морали и нормы права. Еще с давних пор философы проводят параллель между негласными правилами добра и зла и писаными законами...
13580. Толерантность – это не смерть различий, это поддержка и понимание различий 34 KB
  Толерантность – это не смерть различий это поддержка и понимание различий. Выбранное мною высказывание затрагивает вопрос о взаимоотношении людей в обществе. Он особенно важен для человечества сейчас в эпоху противоречий и конфликтов между людьми отличающимися ид
13581. Толерантность – это не смерть различий, это поддержка и понимание различий А. Г. Асмолов 15.87 KB
  Толерантность – это не смерть различий это поддержка и понимание различий А. Г. Асмолов Главная проблема затронутая автором в данном высказывании – проблема толерантности. В настоящее время проблема формирования этого качества в людях стоит особенно остро. Её ак
13582. Самый несчастный человек – это тот, для кого в мире не нашлось работы 16.08 KB
  Самый несчастный человек – это тот для кого в мире не нашлось работы. Т. Карнеги В выбранном мною высказывании автор британский писатель и философ Томас Карнейль обращается к проблеме роль труда в жизни человека. Эта проблема безусловно важна так как любой человек...
13583. Деньги – слуги, если умеешь ими пользоваться. Если не умеешь – господа 28 KB
  Деньги – слуги если умеешь ими пользоваться. Если не умеешь – господа. Латинская поговорка В выбранном мною высказывании поднимается проблема сущности денегих функций. Проблема того как относиться к деньгам всегда волновала не только экономистов. Как не стать рабо
13584. Инфляция – единственная форма наказания без особого основания 33.5 KB
  Инфляция – единственная форма наказания без особого основания. Милтон Фридмен Выбранное мною высказывание затрагивает вопрос о сущности и причинах инфляции. Данная тема несомненно актуальна в настоящее время так как в современном мире экономическая ситуация не...
13585. Инфляция это единственная форма наказания без законного основания 15.64 KB
  Инфляция единственная форма наказания без законного основания М. Фридман Автор данного высказывания затрагивает проблему роли и места инфляции в экономике ее воздействия на субъекты рынка. Данная проблема очень актуальна в наши дни ведь борьба с растущей инфл...
13586. Инфляция – единственная форма наказания без законного основания (Милтон Фридмен) 17.84 KB
  Инфляция – единственная форма наказания без законного основания Милтон Фридмен Выбранное мною высказывание посвящено сущности понятия инфляции и ее роли в рыночной системе экономики. Эта проблема всегда остается актуальной особенно в условиях рыночной экономик