45354

Методы обучения нейросетей

Доклад

Информатика, кибернетика и программирование

Эта теория ставит своей задачей поиск минимума некоторой целевой функции функционала  которая зависит от нескольких переменных представленных в виде вектора w=[w1 w2 . Все градиентные методы теории оптимизации основаны на разложении целевой функции w в ряд Тейлора в окрестности некоторой начальной точки w nмерного пространства переменных: где p вектор вдоль которого строится разложение в ряд Тейлора gw вектор градиента целевой функции . Согласно методу наискорейшего спуска реализованному в алгоритме обратного...

Русский

2013-11-16

62 KB

10 чел.

18 Методы обучения нейросетей

Существует большое количество различных алгоритмов обучения нейросетей, которые можно разделить на два больших класса: детерминистские и стохастические. В первом случае подстройка весов представляет собой жёсткую последовательность действий, во втором – она производится на основе действий, подчиняющихся некоторому случайному процессу.

Рассмотренный выше алгоритм обратного распространения ошибки в его первоначальном изложении реализовывал метод наискорейшего спуска, который относится к градиентным методом теории оптимизации. Эта теория ставит своей задачей поиск минимума некоторой целевой функции (функционала) , которая зависит от нескольких переменных, представленных в виде вектора w=[w1, w2, ..., wn]T. В случае обучения многослойного персептрона целевая функция – это квадратичная ошибка персептрона, рассчитанная по формуле:

,

а w – вектор синаптических весов межнейронных связей.

Все градиентные методы теории оптимизации основаны на разложении целевой функции (w) в ряд Тейлора в окрестности некоторой начальной точки w n-мерного пространства переменных:

,

где p – вектор, вдоль которого строится разложение в ряд Тейлора, g(w) – вектор градиента целевой функции

.

Матрица

,

составляется из производных второго порядка, её называют матрицей Гессе.

Согласно методу наискорейшего спуска, реализованному в алгоритме обратного распространения ошибки, процесс поиска минимума функции (w) можно представить следующим образом. В некоторой случайно заданной точке поверхности ошибок находится направление скорейшего спуска (антиградиента), затем делается шаг вниз на расстояние, пропорциональное крутизне склона (градиенту) и коэффициенту скорости обучения . В новой точке снова определяются направление и величина антиградиента, согласно которым делается следующее перемещение и т.д. Это значит, что при виде сверху на поверхность, изображающую целевую функцию, каждое такое перемещение производится в направлении, ортогональном к проходящей через данную точку линии постоянного уровня (изолинии).

Если бы изолинии поверхности ошибок нейросети представляли собой концентрические окружности, как показано на рис. 5.8а, то направление антиградиента указывало бы на точное расположение точки минимума целевой функции. Однако поверхность ошибок имеет более сложный характер. Так, на рис. 5.8б изолинии поверхности ошибок имеют вид эллипсов, а сама поверхность вблизи минимальной точки имеет форму оврага. В этом случае траектория градиентного спуска представляет собой ломаную линию, каждый отрезок которой ортогонален к линии уровня в той точке поверхности ошибок, из которой производится очередной шаг.

Рисунок 5.8 – Движение точки наблюдения по поверхности ошибок нейросети, обучаемой методом обратного распространения ошибки (а, б),

ParTan-методом (в)

Суть еще одного приема, называемого ParTan-методом, продемонстрирована на рис. 5.8в. Его идея заключается в том, что выполняются два или несколько шагов в сторону антиградиента, причем координаты точек функции ошибок перед первым шагом и после последнего шага запоминаются. Затем делается шаг в направлении, соединяющем первую и последнюю запомненные точки.

Существует группа методов, называемых квазиньютоновскими, в которых помимо первых производных используются еще и вторые производные целевой функции. Квазиньютоновский алгоритм получается при сохранении трех слагаемых разложения целевой функции в ряд Тейлора.

Существует группа методов, не требующих вычисления производных от целевой функции и потому называемых неградиентными. Однако, как правило, они значительно уступают по эффективности градиентным методам и поэтому не рекомендуются для обучения нейросетей.

Существуют также методы обучения нейросетей, называемые эвристическими. Как правило, они не имеют строгого теоретического обоснования, но в них отражается личный опыт работы авторов в области нейросетевых технологий.

Во всех рассмотренных здесь методах обучения нейросетей присутствует проблема выбора параметра , определяющего длину шага вдоль выбранного направления оптимизации p(t). Простейший способ состоит в фиксации постоянных значений на весь период обучения. При этом рекомендуется величину задавать раздельно для каждого слоя персептрона.

Другие методики предполагают динамическое изменение в ходе обучения в зависимости от поведения целевой функции ошибок . Для более быстрой сходимости коэффициент стремятся увеличивать по мере снижения функции ошибок, однако не допуская ее существенного возрастания.

В настоящее время основная проблема обучения персептронов состоит в том, что поверхность функции ошибок обычно имеет очень сложную форму со множеством локальных минимумов. Поэтому все изложенные выше методы обычно приводят к одному из локальных минимумов, лежащих в окрестности начальной точки обучения. Если после нахождения такого минимума погрешность обучения нейросети признается неудовлетворительной, то сеть "встряхивают", давая весовым коэффициентам случайные приращения, и продолжают процесс обучения из другой точки. Часто процесс обучения приобретает характер длительного экспериментирования, в ходе которого пробуются различные оптимизационные алгоритмы с различными параметрами. В результате успех применения нейросетевых технологий ставится в зависимость от опыта и интуиции специалиста, числа различных оптимизационных алгоритмов, имеющихся в его распоряжении.

В связи с этим актуальным является развитие методов глобальной оптимизации, т.е. таких, которые позволяют найти глобальный минимум многоэкстремальной целевой функции. Среди множества возможных подходов наиболее успешным признаётся идея генетических алгоритмов. Эта идея, впервые предложенная Дж. Холландом в 1970-х годах, состоит в имитации природных оптимизационных процессов, происходящих при эволюции живых организмов.

Как известно, основы теории эволюции были сформулированы Чарльзом Дарвином в 1859 году. Согласно эволюционной теории природа оптимизирует все живое благодаря двум биологическим механизмам – естественному отбору и генетическому наследованию. Суть естественного отбора заключается в том, что наиболее приспособленные особи лучше выживают и приносят больше потомства, чем менее приспособленные. Механизм генетического наследования состоит в следующем. Почти в каждой клетке любого живого организма имеется набор хромосом, несущих информацию об этом организме. Основная часть хромосомы – нить ДНК (молекула дезоксирибонуклеиновой кислоты), которая состоит из четырех видов соединений – нуклеотидов, идущих в определенной последовательности.

Ген – это отрезок цепи ДНК, отвечающий за определенное свойство особи, например за цвет глаз, тип волос, цвет кожи и т.д. Установлено, что вся совокупность генетических признаков человека кодируется посредством примерно 60 тыс. генов, суммарная длина которых составляет более 90 млн нуклеотидов.

При размножении живых организмов происходит слияние двух родительских половых клеток: хромосомы родителей сближаются вплотную, затем их нити ДНК разрываются в нескольких случайных местах и хромосомы обмениваются своими частями. Таким образом, молекулы ДНК потомков случайным образом приобретают гены как отца, так и матери.

При наследовании возможны мутации – изменения генов в половых клетках одного из родителей. Измененные гены передаются потомку и придают ему новые свойства, отличные от свойств родителей. Если эти новые свойства окажутся полезными, т.е. потомок будет более приспособлен к окружающей среде, то в процессе естественного отбора он выживет и создаст новое более совершенное потомство. Таким образом, механизмы естественного отбора, изменчивости и наследственности являются источником совершенствования биологических видов, методом оптимизации свойств живых организмов, созданным самой природой.

Генетические алгоритмы, предназначенные для оптимизации (обучения) весовых коэффициентов нейронной сети, работают следующим образом. Сначала создается некоторая начальная популяция особей, каждая из которых имеет свою собственную "хромосому" – вектор весовых коэффициентов нейронной сети w =[w1, w2, ..., wn]T. Для каждой особи вычисляется целевая функция (w), являющаяся мерой приспособленности особи к существованию. Первоначальная популяция равномерно распределяется в пространстве оптимизируемых параметров. Таким образом, точки, соответствующие каждой особи, более-менее равномерно распределяются по поверхности целевой функции.

Отбор особей для скрещивания, необходимого для создания нового поколения, может основываться на различных принципах. Одним из наиболее распространенных считается принцип элитарности, согласно которому к скрещиванию допускаются наиболее приспособленные особи, а наихудшие отбраковываются и заменяются вновь создаваемым потомством. Этот процесс называется селекцией. Обычно процесс скрещивания состоит в том, что хромосомы родителей случайным образом рассекаются на две неравные части, после чего они соединяются так, что хромосомы потомков содержат часть хромосомы отца и часть хромосомы матери (рис. 5.9).

Рисунок 5.9 – Операция скрещивания,

применяемая в генетических алгоритмах

Следующая генетическая операция называется мутацией и состоит в замене некоторого случайным образом выбранного элемента (гена) случайно выбранного вектора (особи) на новое, случайным образом заданное допустимое значение. Мутации обычно подвергается не более 1..5% бит хромосом всей популяции. В результате всех этих генетических операций формируется новое поколение, число особей которого равно числу особей предыдущего поколения. Как показывает опыт, новые поколения, созданные в результате селекции, скрещивания и мутаций, в среднем имеют меньшие значения целевой функции, т.е. оно являются более совершенными.

Процесс смены поколений завершается после достижения заданного числа итераций или после того, как одна из особей приобретет заданное минимальное значение целевой функции. Эта особь является победителем, и ее хромосома принимается за окончательное решение генетического алгоритма.

При обучении персептронов обычно применяют различные вариации генетических алгоритмов, связанные с выбором параметров и способов селекции, скрещивания и мутаций. Эффективным оказалось совмещение генетических алгоритмов с другими алгоритмами оптимизации: на начальных стадиях работает генетический алгоритм, а затем особь-победитель или группа наиболее совершенных особей продолжают спуск к минимуму другим методом.

Генетические алгоритмы имеют свою независимую от нейросетевых технологий область применения и лежат в основе многих коммерческих пакетов, широко применяемых для решения разнообразных оптимизационных задач, возникающих в экономике, бизнесе, промышленности и других областях человеческой деятельности.


a)

б)

)

1

2

a1

a2

Хромосома отца

b1

b2

Хромосома матери

a1

b2

Хромосома 1-го потомка

b1

a2

Хромосома 2-го потомка


 

А также другие работы, которые могут Вас заинтересовать

31725. Специфіка педагогічного мислення 27.5 KB
  Специфіка педагогічного мислення Педагогічне завдання є структурною одиницею мислення вчителя. Основним компонентом практичного мислення вчителя в якому найяскравіше проявляється внутрішня єдність інтелектуальних емоційних та вольових якостей особистості є процес прийняття педагогічних рішень. Ще одна важлива особливість мислення вчителя полягає в тому що теоретичні знання при розв'язанні педагогічних завдань використовуються як правило у знятому вигляді автоматично скорочено згорнуто. Зумовлено це поперше загальною тенденцією до...
31726. Педагогічне спілкування 28 KB
  Педагогічне спілкування Прагнення до людського спілкування виступає своєрідним внутрішнім стимулом рушієм діяльності особистості. Педагогічне спілкування це система органічної соціальнопсихологічної дії учителявихователя і вихованця в усіх сферах діяльності що має певні педагогічні функції спрямоване на створення оптимальних соціальнопсихологічних умов активної та результативної життєдіяльності особистості. Оптимальним треба вважати таке спілкування педагога з вихованцями у процесі навчальновиховної роботи яке створює найбільш...
31727. Методи педагогічної психології 29 KB
  Недоліки цього методу: пасивність спостерігача фіксація тільки зовнішніх проявів певних дій і вчинків складність кількісної обробки одержаних даних. Позитивні сторони методу в його масовості швидкості одержання інформації легкої обробки даних можливості застосування математичних методів обробки даних і порівняльного аналізу декількох обстежень. Недоліки методу важко розраховувати на повні правильні точні відповіді неможливість втручання в сам процес анкетування немає гарантій недобросовісного заповнення анкет тощо. Позитивні...
31728. Історія розвитку педагогічної психології 28 KB
  Історія розвитку педагогічної психології Становлення багатьох галузей наукового знання являє собою гетерогенний і гетерохронний і більше того розірваний у часі процес. поклала початок розвитку педагогічної теорії і цілеспрямованої організації шкільного навчання. Ця праця можна розглядати і як першу передумову тривалого суперечливого становлення педагогічної психології протягом більш ніж 250 років бо тільки в кінці 19 в. Весь шлях становлення і розвитку педагогічної науки може бути представлений трьома великими періодами етапами: Перший...
31729. Суспільна роль вчителя, його значення в перебудові суспільства 28.5 KB
  Діяльність педагога вид соціально культурної діяльності спрямованої на передачу накопичених людством культури і досвіду від старших поколінь молодшим створення умов для їх всебічного гармонійного розвитку та підготовку до виконання певних соціальних ролей у суспільстві. Основою педагогічної діяльності є спільна діяльність людей у процесі якої кожен субєкт засвоює загальнолюдський досвід історично сформовані суспільні педагогічні комунікативні моральні та інші цінності знання і способи дій; формує себе як особистість. Метою...
31730. Вимоги педагогічної діяльності до особистості вчителя 27.5 KB
  Вимоги педагогічної діяльності до особистості вчителя Які ж особистісні якості необхідні для успішної педагогічної діяльності Ще Я. Перша така особливість це педагогічні здібності тобто наявність внутрішнього натхнення до цієї діяльності. За відсутності цієї чутливості він неспроможний досягти в цій діяльності значних успіхів. Здібності до педагогічної діяльності можна виявити шляхом визначення темпів опанування педагогом професійних педагогічних знань глибини оволодіння основними прийомами та способами педагогічної діяльності.
31731. Педагогічні здібності вчителя та їх розвиток 28.5 KB
  Педагогічні здібності - це індивідуальні стійкі властивості особистості, що складаються в специфічної чутливості до об'єкта, засобів, умов педагогічної праці і створенню продуктивних моделей формування шуканих якостей в особистості воспитуемого.
31732. Психологічні передумови взаємин вчителя з учнями та колегами 30 KB
  Психологічні передумови взаємин вчителя з учнями та колегами Професіональне педагогічне спілкування комунікативна взаємодія педагога з учнями батьками колегами спрямована на встановлення сприятливого психологічного клімату психологічну оптимізацію діяльності і стосунків. Непрофесіональне педагогічне спілкування навпаки породжує страх невпевненість спричинює зниження працездатності порушення динаміки мовлення і внаслідок цього появу стереотипних висловлювань у школярів оскільки у них зменшується бажання думати і діяти самостійно....
31733. CASE-технологии 62.5 KB
  02 CSEтехнологии 1. Основные понятия и классификация CSEтехнологий Потребность контролировать процесс разработки ИС прогнозировать и гарантировать стоимость разработки сроки и качество результатов привела в конце 70х гг. Термин CSE означает Computer ided System Softwre Engineering. Под CSE средством понимается программное средство поддерживающее процессы жизненного цикла ИС включая анализ требований к системе проектирование прикладного ПО и баз данных генерацию кода тестирование документирование обеспечение качества...