45354

Методы обучения нейросетей

Доклад

Информатика, кибернетика и программирование

Эта теория ставит своей задачей поиск минимума некоторой целевой функции функционала  которая зависит от нескольких переменных представленных в виде вектора w=[w1 w2 . Все градиентные методы теории оптимизации основаны на разложении целевой функции w в ряд Тейлора в окрестности некоторой начальной точки w nмерного пространства переменных: где p вектор вдоль которого строится разложение в ряд Тейлора gw вектор градиента целевой функции . Согласно методу наискорейшего спуска реализованному в алгоритме обратного...

Русский

2013-11-16

62 KB

9 чел.

18 Методы обучения нейросетей

Существует большое количество различных алгоритмов обучения нейросетей, которые можно разделить на два больших класса: детерминистские и стохастические. В первом случае подстройка весов представляет собой жёсткую последовательность действий, во втором – она производится на основе действий, подчиняющихся некоторому случайному процессу.

Рассмотренный выше алгоритм обратного распространения ошибки в его первоначальном изложении реализовывал метод наискорейшего спуска, который относится к градиентным методом теории оптимизации. Эта теория ставит своей задачей поиск минимума некоторой целевой функции (функционала) , которая зависит от нескольких переменных, представленных в виде вектора w=[w1, w2, ..., wn]T. В случае обучения многослойного персептрона целевая функция – это квадратичная ошибка персептрона, рассчитанная по формуле:

,

а w – вектор синаптических весов межнейронных связей.

Все градиентные методы теории оптимизации основаны на разложении целевой функции (w) в ряд Тейлора в окрестности некоторой начальной точки w n-мерного пространства переменных:

,

где p – вектор, вдоль которого строится разложение в ряд Тейлора, g(w) – вектор градиента целевой функции

.

Матрица

,

составляется из производных второго порядка, её называют матрицей Гессе.

Согласно методу наискорейшего спуска, реализованному в алгоритме обратного распространения ошибки, процесс поиска минимума функции (w) можно представить следующим образом. В некоторой случайно заданной точке поверхности ошибок находится направление скорейшего спуска (антиградиента), затем делается шаг вниз на расстояние, пропорциональное крутизне склона (градиенту) и коэффициенту скорости обучения . В новой точке снова определяются направление и величина антиградиента, согласно которым делается следующее перемещение и т.д. Это значит, что при виде сверху на поверхность, изображающую целевую функцию, каждое такое перемещение производится в направлении, ортогональном к проходящей через данную точку линии постоянного уровня (изолинии).

Если бы изолинии поверхности ошибок нейросети представляли собой концентрические окружности, как показано на рис. 5.8а, то направление антиградиента указывало бы на точное расположение точки минимума целевой функции. Однако поверхность ошибок имеет более сложный характер. Так, на рис. 5.8б изолинии поверхности ошибок имеют вид эллипсов, а сама поверхность вблизи минимальной точки имеет форму оврага. В этом случае траектория градиентного спуска представляет собой ломаную линию, каждый отрезок которой ортогонален к линии уровня в той точке поверхности ошибок, из которой производится очередной шаг.

Рисунок 5.8 – Движение точки наблюдения по поверхности ошибок нейросети, обучаемой методом обратного распространения ошибки (а, б),

ParTan-методом (в)

Суть еще одного приема, называемого ParTan-методом, продемонстрирована на рис. 5.8в. Его идея заключается в том, что выполняются два или несколько шагов в сторону антиградиента, причем координаты точек функции ошибок перед первым шагом и после последнего шага запоминаются. Затем делается шаг в направлении, соединяющем первую и последнюю запомненные точки.

Существует группа методов, называемых квазиньютоновскими, в которых помимо первых производных используются еще и вторые производные целевой функции. Квазиньютоновский алгоритм получается при сохранении трех слагаемых разложения целевой функции в ряд Тейлора.

Существует группа методов, не требующих вычисления производных от целевой функции и потому называемых неградиентными. Однако, как правило, они значительно уступают по эффективности градиентным методам и поэтому не рекомендуются для обучения нейросетей.

Существуют также методы обучения нейросетей, называемые эвристическими. Как правило, они не имеют строгого теоретического обоснования, но в них отражается личный опыт работы авторов в области нейросетевых технологий.

Во всех рассмотренных здесь методах обучения нейросетей присутствует проблема выбора параметра , определяющего длину шага вдоль выбранного направления оптимизации p(t). Простейший способ состоит в фиксации постоянных значений на весь период обучения. При этом рекомендуется величину задавать раздельно для каждого слоя персептрона.

Другие методики предполагают динамическое изменение в ходе обучения в зависимости от поведения целевой функции ошибок . Для более быстрой сходимости коэффициент стремятся увеличивать по мере снижения функции ошибок, однако не допуская ее существенного возрастания.

В настоящее время основная проблема обучения персептронов состоит в том, что поверхность функции ошибок обычно имеет очень сложную форму со множеством локальных минимумов. Поэтому все изложенные выше методы обычно приводят к одному из локальных минимумов, лежащих в окрестности начальной точки обучения. Если после нахождения такого минимума погрешность обучения нейросети признается неудовлетворительной, то сеть "встряхивают", давая весовым коэффициентам случайные приращения, и продолжают процесс обучения из другой точки. Часто процесс обучения приобретает характер длительного экспериментирования, в ходе которого пробуются различные оптимизационные алгоритмы с различными параметрами. В результате успех применения нейросетевых технологий ставится в зависимость от опыта и интуиции специалиста, числа различных оптимизационных алгоритмов, имеющихся в его распоряжении.

В связи с этим актуальным является развитие методов глобальной оптимизации, т.е. таких, которые позволяют найти глобальный минимум многоэкстремальной целевой функции. Среди множества возможных подходов наиболее успешным признаётся идея генетических алгоритмов. Эта идея, впервые предложенная Дж. Холландом в 1970-х годах, состоит в имитации природных оптимизационных процессов, происходящих при эволюции живых организмов.

Как известно, основы теории эволюции были сформулированы Чарльзом Дарвином в 1859 году. Согласно эволюционной теории природа оптимизирует все живое благодаря двум биологическим механизмам – естественному отбору и генетическому наследованию. Суть естественного отбора заключается в том, что наиболее приспособленные особи лучше выживают и приносят больше потомства, чем менее приспособленные. Механизм генетического наследования состоит в следующем. Почти в каждой клетке любого живого организма имеется набор хромосом, несущих информацию об этом организме. Основная часть хромосомы – нить ДНК (молекула дезоксирибонуклеиновой кислоты), которая состоит из четырех видов соединений – нуклеотидов, идущих в определенной последовательности.

Ген – это отрезок цепи ДНК, отвечающий за определенное свойство особи, например за цвет глаз, тип волос, цвет кожи и т.д. Установлено, что вся совокупность генетических признаков человека кодируется посредством примерно 60 тыс. генов, суммарная длина которых составляет более 90 млн нуклеотидов.

При размножении живых организмов происходит слияние двух родительских половых клеток: хромосомы родителей сближаются вплотную, затем их нити ДНК разрываются в нескольких случайных местах и хромосомы обмениваются своими частями. Таким образом, молекулы ДНК потомков случайным образом приобретают гены как отца, так и матери.

При наследовании возможны мутации – изменения генов в половых клетках одного из родителей. Измененные гены передаются потомку и придают ему новые свойства, отличные от свойств родителей. Если эти новые свойства окажутся полезными, т.е. потомок будет более приспособлен к окружающей среде, то в процессе естественного отбора он выживет и создаст новое более совершенное потомство. Таким образом, механизмы естественного отбора, изменчивости и наследственности являются источником совершенствования биологических видов, методом оптимизации свойств живых организмов, созданным самой природой.

Генетические алгоритмы, предназначенные для оптимизации (обучения) весовых коэффициентов нейронной сети, работают следующим образом. Сначала создается некоторая начальная популяция особей, каждая из которых имеет свою собственную "хромосому" – вектор весовых коэффициентов нейронной сети w =[w1, w2, ..., wn]T. Для каждой особи вычисляется целевая функция (w), являющаяся мерой приспособленности особи к существованию. Первоначальная популяция равномерно распределяется в пространстве оптимизируемых параметров. Таким образом, точки, соответствующие каждой особи, более-менее равномерно распределяются по поверхности целевой функции.

Отбор особей для скрещивания, необходимого для создания нового поколения, может основываться на различных принципах. Одним из наиболее распространенных считается принцип элитарности, согласно которому к скрещиванию допускаются наиболее приспособленные особи, а наихудшие отбраковываются и заменяются вновь создаваемым потомством. Этот процесс называется селекцией. Обычно процесс скрещивания состоит в том, что хромосомы родителей случайным образом рассекаются на две неравные части, после чего они соединяются так, что хромосомы потомков содержат часть хромосомы отца и часть хромосомы матери (рис. 5.9).

Рисунок 5.9 – Операция скрещивания,

применяемая в генетических алгоритмах

Следующая генетическая операция называется мутацией и состоит в замене некоторого случайным образом выбранного элемента (гена) случайно выбранного вектора (особи) на новое, случайным образом заданное допустимое значение. Мутации обычно подвергается не более 1..5% бит хромосом всей популяции. В результате всех этих генетических операций формируется новое поколение, число особей которого равно числу особей предыдущего поколения. Как показывает опыт, новые поколения, созданные в результате селекции, скрещивания и мутаций, в среднем имеют меньшие значения целевой функции, т.е. оно являются более совершенными.

Процесс смены поколений завершается после достижения заданного числа итераций или после того, как одна из особей приобретет заданное минимальное значение целевой функции. Эта особь является победителем, и ее хромосома принимается за окончательное решение генетического алгоритма.

При обучении персептронов обычно применяют различные вариации генетических алгоритмов, связанные с выбором параметров и способов селекции, скрещивания и мутаций. Эффективным оказалось совмещение генетических алгоритмов с другими алгоритмами оптимизации: на начальных стадиях работает генетический алгоритм, а затем особь-победитель или группа наиболее совершенных особей продолжают спуск к минимуму другим методом.

Генетические алгоритмы имеют свою независимую от нейросетевых технологий область применения и лежат в основе многих коммерческих пакетов, широко применяемых для решения разнообразных оптимизационных задач, возникающих в экономике, бизнесе, промышленности и других областях человеческой деятельности.


a)

б)

)

1

2

a1

a2

Хромосома отца

b1

b2

Хромосома матери

a1

b2

Хромосома 1-го потомка

b1

a2

Хромосома 2-го потомка


 

А также другие работы, которые могут Вас заинтересовать

33919. Понятие медианы, квартилей, децилей 11.29 KB
  Понятие медианы квартилей децилей Медианазначение признака которое делит стат.совти имеет значение признака не МЕНЬШЕ медианы а другая половина значение признака не больше медианы. Значение изучаемого признака всех ед.совти не четное то значение признака находящееся в середине ранжированного ряда будет являться медианой а если число ед.
33920. Определение структурных средних в дискретных вариационных рядах 14.62 KB
  Мода это наиболее часто встречающийся вариант ряда. Модой для дискретного ряда является варианта обладающая наибольшей частотой. Медиана это значение признака которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части.
33921. Определение структурных средних в интервальном вариационном ряду 41.92 KB
  При вычислении моды для интервального вариационного ряда необходимо сначала определить модальный интервал по максимальной частоте а затем значение модальной величины признака по формуле: где: значение моды нижняя граница модального интервала величина интервала заменить на iМе частота модального интервала частота интервала предшествующего модальному частота интервала следующего за модальным Медиана это значение признака которое лежит в основе ранжированного ряда и делит этот ряд на две равные по...
33922. Закономерные изменения частот за счет изменения варьирующего признака в вариационных рядах 12.67 KB
  Главной задачей анализа вариационных рядов является выявление закономерностей распределения и характера распределения. Тип закономерности распределения это отражение в вариационных рядах общих условий определяющих распределение в однородной совокупности. Следовательно должна быть построена кривая распределения.
33923. Виды дисперсий. Правило сложения дисперсий 23.06 KB
  Правило сложения дисперсий Вариация признака происходит в резте влияния на него различных факторов. Признакам на вариации под влиянием осн. Отклонение индивидуальных значений результативного признака от ср.значения результативного признака для всей совокупности можно представить как сумму отклонений где i текущий номер признака общей совти; j текущий номер группы в интером ряду распределения; среднее значение результативного признака в jгруппе.
33924. Использование показателей вариации в анализе взаимосвязей социально-экономических явлений 15.36 KB
  Эмпирическое корреляционное отношение характеризует тесноту связи; рассчитывается как корень квадратный из эмпирического коэффициента детерминации Оба показателя находятся в пределах от 0 до 1 при этом чем ближе показатели к 1 тем связь между изучаемыми признаками теснее. Для оценки тесноты связи с помощью корреляционного отношения можно воспользоваться шкалой Чеддока: 0103связь слабая 0305связь умеренная 0507связь заметная 0709связь тесная 09099связь весьма тесная.
33925. Теоретические основы выборочного наблюдения 12.04 KB
  Теоретические основы выборочного наблюдения. Выборочное наблюдение относится к несплошному виду наблюдения. Преимущества выборочного наблюдения: экономия средств оперативность получения результатов возможность расширения программы наблюдения возможность проверки качества продукции которая при этом уничтожается высокая достоверность результатов. Совокупность которая получилась в результате отбора единиц для наблюдения наз.
33926. Простая случайная выборка 12.98 KB
  Простая случайная выборка отбор единиц из генеральной совокупности путем случайного отбора но при условии вероятности выбора любой единицы из генеральной совокупности.возвращается в генер. не возвращается в генеральную совокупность. Характеристика генер.
33927. Понятие и виды рядов динамики. Требования к рядам динамики 13.07 KB
  Понятие и виды рядов динамики. Требования к рядам динамики. Ряд динамики ряд стат. Ряд динамики характеризуют 2 элемента: показатель времени t и уровни ряда y числовая характеристика изучаемого явления.