45354

Методы обучения нейросетей

Доклад

Информатика, кибернетика и программирование

Эта теория ставит своей задачей поиск минимума некоторой целевой функции функционала  которая зависит от нескольких переменных представленных в виде вектора w=[w1 w2 . Все градиентные методы теории оптимизации основаны на разложении целевой функции w в ряд Тейлора в окрестности некоторой начальной точки w nмерного пространства переменных: где p – вектор вдоль которого строится разложение в ряд Тейлора gw – вектор градиента целевой функции . Согласно методу наискорейшего спуска реализованному в алгоритме обратного...

Русский

2013-11-16

62 KB

8 чел.

18 Методы обучения нейросетей

Существует большое количество различных алгоритмов обучения нейросетей, которые можно разделить на два больших класса: детерминистские и стохастические. В первом случае подстройка весов представляет собой жёсткую последовательность действий, во втором – она производится на основе действий, подчиняющихся некоторому случайному процессу.

Рассмотренный выше алгоритм обратного распространения ошибки в его первоначальном изложении реализовывал метод наискорейшего спуска, который относится к градиентным методом теории оптимизации. Эта теория ставит своей задачей поиск минимума некоторой целевой функции (функционала) , которая зависит от нескольких переменных, представленных в виде вектора w=[w1, w2, ..., wn]T. В случае обучения многослойного персептрона целевая функция – это квадратичная ошибка персептрона, рассчитанная по формуле:

,

а w – вектор синаптических весов межнейронных связей.

Все градиентные методы теории оптимизации основаны на разложении целевой функции (w) в ряд Тейлора в окрестности некоторой начальной точки w n-мерного пространства переменных:

,

где p – вектор, вдоль которого строится разложение в ряд Тейлора, g(w) – вектор градиента целевой функции

.

Матрица

,

составляется из производных второго порядка, её называют матрицей Гессе.

Согласно методу наискорейшего спуска, реализованному в алгоритме обратного распространения ошибки, процесс поиска минимума функции (w) можно представить следующим образом. В некоторой случайно заданной точке поверхности ошибок находится направление скорейшего спуска (антиградиента), затем делается шаг вниз на расстояние, пропорциональное крутизне склона (градиенту) и коэффициенту скорости обучения . В новой точке снова определяются направление и величина антиградиента, согласно которым делается следующее перемещение и т.д. Это значит, что при виде сверху на поверхность, изображающую целевую функцию, каждое такое перемещение производится в направлении, ортогональном к проходящей через данную точку линии постоянного уровня (изолинии).

Если бы изолинии поверхности ошибок нейросети представляли собой концентрические окружности, как показано на рис. 5.8а, то направление антиградиента указывало бы на точное расположение точки минимума целевой функции. Однако поверхность ошибок имеет более сложный характер. Так, на рис. 5.8б изолинии поверхности ошибок имеют вид эллипсов, а сама поверхность вблизи минимальной точки имеет форму оврага. В этом случае траектория градиентного спуска представляет собой ломаную линию, каждый отрезок которой ортогонален к линии уровня в той точке поверхности ошибок, из которой производится очередной шаг.

Рисунок 5.8 – Движение точки наблюдения по поверхности ошибок нейросети, обучаемой методом обратного распространения ошибки (а, б),

ParTan-методом (в)

Суть еще одного приема, называемого ParTan-методом, продемонстрирована на рис. 5.8в. Его идея заключается в том, что выполняются два или несколько шагов в сторону антиградиента, причем координаты точек функции ошибок перед первым шагом и после последнего шага запоминаются. Затем делается шаг в направлении, соединяющем первую и последнюю запомненные точки.

Существует группа методов, называемых квазиньютоновскими, в которых помимо первых производных используются еще и вторые производные целевой функции. Квазиньютоновский алгоритм получается при сохранении трех слагаемых разложения целевой функции в ряд Тейлора.

Существует группа методов, не требующих вычисления производных от целевой функции и потому называемых неградиентными. Однако, как правило, они значительно уступают по эффективности градиентным методам и поэтому не рекомендуются для обучения нейросетей.

Существуют также методы обучения нейросетей, называемые эвристическими. Как правило, они не имеют строгого теоретического обоснования, но в них отражается личный опыт работы авторов в области нейросетевых технологий.

Во всех рассмотренных здесь методах обучения нейросетей присутствует проблема выбора параметра , определяющего длину шага вдоль выбранного направления оптимизации p(t). Простейший способ состоит в фиксации постоянных значений на весь период обучения. При этом рекомендуется величину задавать раздельно для каждого слоя персептрона.

Другие методики предполагают динамическое изменение в ходе обучения в зависимости от поведения целевой функции ошибок . Для более быстрой сходимости коэффициент стремятся увеличивать по мере снижения функции ошибок, однако не допуская ее существенного возрастания.

В настоящее время основная проблема обучения персептронов состоит в том, что поверхность функции ошибок обычно имеет очень сложную форму со множеством локальных минимумов. Поэтому все изложенные выше методы обычно приводят к одному из локальных минимумов, лежащих в окрестности начальной точки обучения. Если после нахождения такого минимума погрешность обучения нейросети признается неудовлетворительной, то сеть "встряхивают", давая весовым коэффициентам случайные приращения, и продолжают процесс обучения из другой точки. Часто процесс обучения приобретает характер длительного экспериментирования, в ходе которого пробуются различные оптимизационные алгоритмы с различными параметрами. В результате успех применения нейросетевых технологий ставится в зависимость от опыта и интуиции специалиста, числа различных оптимизационных алгоритмов, имеющихся в его распоряжении.

В связи с этим актуальным является развитие методов глобальной оптимизации, т.е. таких, которые позволяют найти глобальный минимум многоэкстремальной целевой функции. Среди множества возможных подходов наиболее успешным признаётся идея генетических алгоритмов. Эта идея, впервые предложенная Дж. Холландом в 1970-х годах, состоит в имитации природных оптимизационных процессов, происходящих при эволюции живых организмов.

Как известно, основы теории эволюции были сформулированы Чарльзом Дарвином в 1859 году. Согласно эволюционной теории природа оптимизирует все живое благодаря двум биологическим механизмам – естественному отбору и генетическому наследованию. Суть естественного отбора заключается в том, что наиболее приспособленные особи лучше выживают и приносят больше потомства, чем менее приспособленные. Механизм генетического наследования состоит в следующем. Почти в каждой клетке любого живого организма имеется набор хромосом, несущих информацию об этом организме. Основная часть хромосомы – нить ДНК (молекула дезоксирибонуклеиновой кислоты), которая состоит из четырех видов соединений – нуклеотидов, идущих в определенной последовательности.

Ген – это отрезок цепи ДНК, отвечающий за определенное свойство особи, например за цвет глаз, тип волос, цвет кожи и т.д. Установлено, что вся совокупность генетических признаков человека кодируется посредством примерно 60 тыс. генов, суммарная длина которых составляет более 90 млн нуклеотидов.

При размножении живых организмов происходит слияние двух родительских половых клеток: хромосомы родителей сближаются вплотную, затем их нити ДНК разрываются в нескольких случайных местах и хромосомы обмениваются своими частями. Таким образом, молекулы ДНК потомков случайным образом приобретают гены как отца, так и матери.

При наследовании возможны мутации – изменения генов в половых клетках одного из родителей. Измененные гены передаются потомку и придают ему новые свойства, отличные от свойств родителей. Если эти новые свойства окажутся полезными, т.е. потомок будет более приспособлен к окружающей среде, то в процессе естественного отбора он выживет и создаст новое более совершенное потомство. Таким образом, механизмы естественного отбора, изменчивости и наследственности являются источником совершенствования биологических видов, методом оптимизации свойств живых организмов, созданным самой природой.

Генетические алгоритмы, предназначенные для оптимизации (обучения) весовых коэффициентов нейронной сети, работают следующим образом. Сначала создается некоторая начальная популяция особей, каждая из которых имеет свою собственную "хромосому" – вектор весовых коэффициентов нейронной сети w =[w1, w2, ..., wn]T. Для каждой особи вычисляется целевая функция (w), являющаяся мерой приспособленности особи к существованию. Первоначальная популяция равномерно распределяется в пространстве оптимизируемых параметров. Таким образом, точки, соответствующие каждой особи, более-менее равномерно распределяются по поверхности целевой функции.

Отбор особей для скрещивания, необходимого для создания нового поколения, может основываться на различных принципах. Одним из наиболее распространенных считается принцип элитарности, согласно которому к скрещиванию допускаются наиболее приспособленные особи, а наихудшие отбраковываются и заменяются вновь создаваемым потомством. Этот процесс называется селекцией. Обычно процесс скрещивания состоит в том, что хромосомы родителей случайным образом рассекаются на две неравные части, после чего они соединяются так, что хромосомы потомков содержат часть хромосомы отца и часть хромосомы матери (рис. 5.9).

Рисунок 5.9 – Операция скрещивания,

применяемая в генетических алгоритмах

Следующая генетическая операция называется мутацией и состоит в замене некоторого случайным образом выбранного элемента (гена) случайно выбранного вектора (особи) на новое, случайным образом заданное допустимое значение. Мутации обычно подвергается не более 1..5% бит хромосом всей популяции. В результате всех этих генетических операций формируется новое поколение, число особей которого равно числу особей предыдущего поколения. Как показывает опыт, новые поколения, созданные в результате селекции, скрещивания и мутаций, в среднем имеют меньшие значения целевой функции, т.е. оно являются более совершенными.

Процесс смены поколений завершается после достижения заданного числа итераций или после того, как одна из особей приобретет заданное минимальное значение целевой функции. Эта особь является победителем, и ее хромосома принимается за окончательное решение генетического алгоритма.

При обучении персептронов обычно применяют различные вариации генетических алгоритмов, связанные с выбором параметров и способов селекции, скрещивания и мутаций. Эффективным оказалось совмещение генетических алгоритмов с другими алгоритмами оптимизации: на начальных стадиях работает генетический алгоритм, а затем особь-победитель или группа наиболее совершенных особей продолжают спуск к минимуму другим методом.

Генетические алгоритмы имеют свою независимую от нейросетевых технологий область применения и лежат в основе многих коммерческих пакетов, широко применяемых для решения разнообразных оптимизационных задач, возникающих в экономике, бизнесе, промышленности и других областях человеческой деятельности.


a)

б)

)

1

2

a1

a2

Хромосома отца

b1

b2

Хромосома матери

a1

b2

Хромосома 1-го потомка

b1

a2

Хромосома 2-го потомка


 

А также другие работы, которые могут Вас заинтересовать

47862. Інформаційні технології. Конспект лекцій 14.48 MB
  Пристрої візуалізації і подання даних. Способи подання атрибутивних даних. Моделі даних. Створення атрибутивної бази даних
47864. Загальні поняття основ ергономіки 300 KB
  Технічний прогрес у промисловості в транспортній галузі в енергетиці та у військовій справі супроводжується вростанням ролі людини у забезпеченні високої ефективності виробництва. Механізація та автоматизація виробничих процесів упровадження обчислювальної техніки та інформаційних технологій докорінно змінюють діяльність людини висуваючи до неї нові більш високі вимоги збільшуючи при цьому економічну та соціальну значущість результатів її діяльності. Одночасно принцип гуманізації...
47865. Інформаційні системи та технології в торгівлі 623.5 KB
  Між керуючою системою і керованою системою здійснюється взаємозв'язок через інформаційну систему під якою розуміють комунікаційну систему із збору передачі переробки інформації про об'єкт яка постачає працівникам різного рангу інформацію для реалізації функції управління. Друга відмінність полягає у формі передавання інформації. Для АСУТП основною формою передавання інформації є сигнали в АСОУ документи. Роль та місце АСДС в ієрархії управління визначається тим що вона є основним джерелом статистичної інформації конче потрібної для...
47866. Організаційна структура та бюджетні повноваження Державного казначейства України. Функції Державного казначейства України 72 KB
  Саме останні дають нам можливість оцінити якість дії Державного казначейства а також його завдання та обовязки які повязані з його діяльністю. Більше того через функції визначається сутність та основна мета діяльності певного об'єкта в нашому випадку Державного казначейства. На Державне казначейство в Україні покладено виконання таких функцій: здійснення касового виконання державного бюджету та бюджетів самоврядування за доходами та видатками; здійснення контролю за цільовим спрямуванням бюджетних коштів на стадії проведення...
47867. Предмет і метод політичної економіки 1.86 MB
  Сукупність економічних відносин між людьми у сфері виробництва розподілу обміну і споживання продукції що утворюють певну економічну систему. Юм Фізіократи 1718 ст питання походження багатства перенесено із сфери обігу в сферу виробництва. Основні риси виробництва Стадії суспільного виробництва Основні елементи процесу виробництва Праця –це свідома доцільна діяльність людини яка спрямована на створення тих чи інших благ з метою задоволення потреб.
47868. Проектний аналіз 1.67 MB
  Він дає інформаційну базу у вигляді проекту як спеціально оформленого інвестиційного плану чи результатів проведеної експертизи проекту для ухвалення рішення щодо включення проекту в інвестиційний портфель підприємства початку його інвестування постійного моніторингу реалізації. Аналіз інвестиційних проектів – це комплекс методичних та практичних прийомів розробки обґрунтування й оцінки доцільності реалізації проекту. Більшість проектів що виявилися збитковими могла бути не допущена до реалізації за умови якісного попереднього аналізу з...
47869. Міжнародна економіка. Конспект лекцій 905.5 KB
  Конспект лекцій містить зміст лекційного курсу, завдання до самостійного вивчення теоретичного матеріалу курсу, що вивчається в позааудиторний час, список рекомендованої літератури і ресурсів Інтернет, ілюстративний матеріал до лекцій
47870. Многочлени. Властивості многочленів 5.51 MB
  Ділення многочлена на лінійний двочлен. Розклад многочлена за степенями лінійного двочлена. Означення многочлена Вираз виду: Повністю визначається коефіцієнтами. Многочленомполіномомвід однієї змінної над областю цілісності К називається вираз виду 3 де довільне ціле невід’ємне число елементи К а деякі символи; називається степенем змінної або невідомого а м коефіцієнтом многочлена 3 або коефіцієнтом при .