22177

ОСНОВНЫЕ ПОЛОЖЕНИЯ ТЕОРИИ НЕЙРОННЫХ СЕТЕЙ

Лекция

Информатика, кибернетика и программирование

Биологические нейронные сети 3. Нейронные сети и алгоритм обучения персептрона 1. Оптическая память и нейронные сети Москва 1994 г. Поэтому коннекционная машина или нейронная сеть должна состоять из сети с множеством соединений сравнительно простых процессоров узлы устройства или искусственные нейроны каждый из которых имеет много входов и один выход.

Русский

2013-08-04

590 KB

15 чел.

13

ЛЕКЦИЯ

ОСНОВНЫЕ ПОЛОЖЕНИЯ

ТЕОРИИ НЕЙРОННЫХ СЕТЕЙ

Вопросы

1. Историческая справка

2. Биологические нейронные сети

3. Нейронные сети и алгоритм обучения персептрона

1. Историческая справка

С самых первых дней появления компьютеров, с конца 40-х и начала 50-х гг., существует два подхода к проблеме разработки машин, демонстрирующих "разумное" поведение. Один из них - это хранение информации в виде набора атомарных семантических объектов, или символов, и манипулирование ею согласно набору формальных алгоритмических правил. Такая символьно-алгоритмическая модель, которая на протяжении последних двадцати лет представляет основное направление исследований в области искусственного интеллекта (ИИ), да и сам термин "ИИ", обычно используется для обозначения именно этого направления.

Второй подход заключается в использовании машин с архитектурой, отдаленно напоминающей устройство мозга, которые назвали нейронными сетями (НС). Пик интереса к нейронным сетям приходится на 60-е и 70-е гг., а в начале 80-х гг. их популярность ослабла, но в настоящее время вновь возобновился интерес к ним. В последние десять лет во всем мире наблюдается резко возросший объем научных исследований в области теории и практики искусственных нейронных сетей. Ежегодно проводится большое количество конференций и симпозиумов по этой тематике. Появилось много новых журналов, в частности "Neural Networks" (с 1983 г.) и "ШЕЕ Transactions on Neural Networks" (с 1990 г.). В России также ведутся значительные исследования в этой области. Проведены международные конференции "Нейроинформатика и нейрокомпьютеры" (Ростов-на-Дону, 1992 и 1995 гг.), "Оптическая память и нейронные сети" (Москва, 1994 г.), "Нейрокомпьютеры и их применение" (Москва, 1995, 1996, 1997 гг.). Начиная с 1992 г. издается журнал "Нейрокомпьютер".

Основная идея данного подхода заключена в следующем. Для того чтобы воссоздать некоторые из возможностей мозга по обработке информации, необходимо вначале отразить некоторые из его архитектурных особенностей. Поэтому коннекционная машина, или нейронная сеть, должна состоять из сети с множеством соединений сравнительно простых процессоров (узлы, устройства или искусственные нейроны), каждый из которых имеет много входов и один выход.

На системном уровне можно составить список особенностей, характерных для всех нейронных сетей:

  1.  Параметры  узла  формируются  путем  тренировки  до  их  конечной
    величины    непрерывным   воздействием   на   сеть    набора   величин,    или
    тренировочных векторов, позволяющих сети реагировать на каждую величину
    и  соответственно  изменять  веса;  поэтому  нейронные  сети  -  это  скорее
    адаптивные, нежели запрограммированные системы.
  2.  Реакцию НС на входное воздействие лучше всего представлять как
    эволюцию во времени физической динамической системы, и даже может
    существовать  ее  явное  описание  посредством  набора  дифференциальных
    уравнений.
  3.  НС надежны при наличии шума в соединениях между нейронами и
    обладают свойством постепенной деградации при аппаратном сбое.
  4.  НС  выделяют  статистические  закономерности  или  особенности  из
    набора обучающих воздействий. Это позволяет сети плодотворно реагировать
    на неизвестное входное воздействие, сопоставляя его с уже испытанным
    воздействием или относя к новому классу.
  5.  В нейронной сети не существует простого соответствия между узлами и
    высокоуровневыми семантическими объектами. Скорее всего представление
    концепции или идеи в сети происходит посредством полной совокупности
    активностей в нейронах так, что отдельный модуль может принимать участие в
    нескольких семантических объектах.

Одна из ключевых особенностей сетей - их способность к обучению исходя из опыта, полученного в обучающей среде. В 1949 г. Д. Хеб обнаружил механизм, посредством которого данное явление происходит в биологическом мозге. Величина синоптических сигналов меняется так, чтобы усилить любое одновременное изменение уровней активности между пре- и постсиноптическими нейронами. При переводе на язык искусственных нейронных сетей вес на входе должен быть усилен, чтобы отразить корреляцию между входом и выходом устройства. Обучающие схемы, основанные на "правиле Д. Хеба", всегда играли видную роль.

Следующим заметным явлением стало изобретение персептрона Ф. Ро-зенблатом в 1957 г., описанное в книге "Принципы нейродинамики".

Помимо всего, нейронные сети являются еще и подсистемой более широкого класса систем - клеточные автоматы, частицы и хаотический феномен, - что и стало предметом изучения физиков.

Последние годы были отмечены увеличением интереса к нейронным сетям. Это произошло после получения важных теоретических результатов в начале 80-х гг. и появления нового аппаратного обеспечения, повысившего производительность вычислений. В результате увеличилось число ученых, занимающихся данной темой, количество конференций и журналов, посвященных нейронным сетям. В настоящее время большинство университетов на кафедрах психологии, физики, компьютеров или биологии имеют группы, изучающие нейронные сети.

Искусственные нейронные сети характеризуются как "вычислительные модели", обладающие способностями к адаптации или обучению, обобщению или кластеризации данных, чье функционирование основано на параллельности вычислений. Тем не менее многие из перечисленных выше свойств могут быть отнесены и к ненейронным моделям, и ответ на интригующий вопрос о том, до какой степени нейронный подход лучше существующих моделей, до сих пор не найден.

Часто рассматриваются параллели с биологическими системами. Тем не менее до сих пор еще очень мало известно (даже на самом низком клеточном уровне) о них, поэтому модели, которые используются в искусственных нейронных системах, - это лишь упрощенный вариант "биологических" моделей.

2. Биологические нейронные сети

Нервная система и мозг человека состоят из нейронов, соединенных между собой нервными волокнами. Нервные волокна способны передавать электрические импульсы между нейронами. Все процессы передачи раздражений от нашей кожи, ушей и глаз к мозгу, процессы мышления и управления действиями - все это реализовано в живом организме как передача электрических импульсов между нейронами. Рассмотрим строение биологического нейрона. Каждый нейрон имеет отростки нервных волокон двух типов - дендриты, по которым принимаются импульсы, и единственный аксон, по которому нейрон может передавать импульс. Аксон контактирует с дендритами других нейронов через специальные образования - синапсы, которые влияют на силу импульса.

Рис.1 – Биологический нейрон

Можно считать, что при прохождении синапса сила импульса меняется в определенное число раз, которое мы будем называть весом синапса. Импульсы, поступившие к нейрону одновременно по нескольким дендритам, суммируются. Если суммарный импульс превышает некоторый порог, нейрон возбуждается, формирует собственный импульс и передает его далее по аксону. Важно отметить, что веса синапсов могут изменяться со временем, а значит, меняется и поведение соответствующего нейрона.

Нетрудно построить математическую модель описанного процесса.

На рисунке изображена модель нейрона с тремя входами (дендритами), причем синапсы этих дендритов имеют веса w1, w2, w3. Пусть к синапсам поступают импульсы силы x1, x2, x3 соответственно, тогда после прохождения синапсов и дендритов к нейрону поступают импульсы w1x1, w2x2, w3x3.

Рис.2- Математическая модель описанного процесса

Нейрон преобразует полученный суммарный импульс x=w1x1+ w2x2+ w3x3 в соответствии с некоторой передаточной функцией f(x). Сила выходного импульса равна y=f(x)=f(w1x1+w2x2+w3x3). Таким образом, нейрон полностью описывается своими весами wk и передаточной функцией f(x). Получив набор чисел (вектор) xk в качестве входов, нейрон выдает некоторое число y на выходе.


      2.1. Структура и свойства искусственного нейрона

На рис. 2 представлен искусственный нейрон, имитирующий в первом приближении свойства биологического нейрона. На вход искусственного нейрона поступает некоторое множество сигналов, каждый из которых является выходом другого нейрона. Каждый вход умножается на соответствующий вес, аналогичный синаптической силе, и все произведения суммируются, определяя уровень активации нейрона.

Множество входных сигналов, обозначенных х1, х2, ... , хn, поступает на искусственный нейрон. Эти входные сигналы, в совокупности обозначаемые вектором Х, соответствуют сигналам, приходящим в синапсы биологического нейрона. Каждый сигнал умножается на соответствующий вес w1, w2, ... , wn (множество весов в совокупности образуют вектор W) и поступает на суммирующий блок, обозначенный . Этот блок, соответствующий телу биологического элемента, суммирует взвешенные входы, выдавая на выход сигнал NET. В векторных обозначениях это может быть записано следующим образом: NET = XW.

Рис. 2. Структура искусственного нейрона

Активационная функция

Сигнал NET далее преобразуется активационной функцией F и на выходе появляется сигнал OUT.

Активационная функция может быть обычной линейной функцией

OUT = K(NET),

где К   постоянная  пороговой функции

OUT = 1, если NET > Т,

OUT = 0  в остальных случаях,

где Т   некоторая постоянная пороговая величина.

Функция F может более точно моделировать нелинейную передаточную характеристику биологического нейрона и представлять нейронной сети большие возможности.

Рис. .3. Искусственный нейрон и его активационная функция

На  рис. 3 блок, обозначенный F, принимает сигнал NЕТ и выдает сигнал OUT. Если блок F сужает диапазон изменения величины NET так, что при любых  значениях NET значения OUT принадлежат некоторому конечному интервалу, то F называется сжимающей” функцией. В качестве “сжимающей” функции часто используется “логистическая” или “сигмоидальная” (S-образ-ная) функция, показанная на рис. 1.4а. Эта функция математически выражается как F(х) = 1/(1 + е-x). Таким образом,

OUT = 1/(1 + е-NET).

По аналогии с электронными системами активационную функцию можно считать нелинейной усилительной характеристикой искусственного нейрона. Коэффициент усиления вычисляется как отношение приращения величины OUT к вызвавшему его небольшому приращению величины NET. Он выражается наклоном кривой при определенном уровне возбуждения и изменяется от малых значений при больших отрицательных возбуждениях (кривая почти горизонтальна) до максимального значения при нулевом возбуждении и снова уменьшается, когда возбуждение становится большим положительным.

Отметим, что при этом сеть может обрабатывать как слабые, так и сильные сигналы. Действительно, слабые сигналы нуждаются в большом сетевом усилении, чтобы дать пригодный к использованию выходной сигнал. Однако усилительные каскады с большими коэффициентами усиления могут привести к насыщению выхода шумами усилителей (случайными флуктуациями), которые присутствуют в любой физически реализуемой сети. Сильные входные сигналы, в свою очередь, также будут приводить к насыщению усилительных каскадов, исключая возможность полезного использования выхода. Центральная область логистической функции, имеющая большой коэффициент усиления, решает проблему обработки слабых сигналов, в то время как области с падающим коэффициентом усиления на положительных и отрицательных концах подходят для больших возбуждений. Таким образом, нейрон функционирует с большим усилением в широком диапазоне уровня входного сигнала.

а

б

Рис. 4. Активационные функции нейронов:

а    сигмоидальная логистическая функция;

б    функция гиперболического тангенса

Другой широко используемой активационной функцией является гиперболический тангенс. По форме она сходна с логистической функцией и часто используется биологами в качестве математической модели активации нервной клетки. В качестве активационной функции  искусственной нейронной сети она записывается следующим образом:

OUT = th(х).

Подобно логистической функции гиперболический тангенс является S-об-разной функцией, но он симметричен относительно начала координат, и в точке NET = 0 значение выходного сигнала OUT равно нулю (см. рис. 1.4б). В отличие от логистической функции, гиперболический тангенс принимает значения различных знаков, что оказывается выгодным для ряда сетей (см. гл. 3).

Предложенная простая модель искусственного нейрона не учитывает многие свойства биологического нейрона. Например, она не учитывает задержки во времени, которые воздействуют на динамику системы. Входные сигналы без задержек формируют выходной сигнал. И, что более важно, она не учитывает воздействий функции частотной модуляции или синхронизирующей функции биологического нейрона, которые ряд исследователей считают решающими.

Несмотря на эти ограничения, сети, построенные из таких нейронов, позволяют моделировать свойства биологических систем.

Нейронная сеть представляет собой совокупность большого числа сравнительно простых элементов - нейронов, топология соединений которых зависит от типа сети. Некоторые нейроны связаны с "внешним миром", некоторые - только с другими нейронами (скрытые нейроны). Существуют два основных типа топологии НС: feed-forward (с прямой связью) и feedback (с обратной связью). В feed-forward сети сигнал распространяется только в одну сторону, т.е. сеть не имеет петлей.

Рисунок  5 - НС: feed-forward (с прямым распространением)

В feedback нейросети (рис. 6) выходной сигнал от нейрона передается на вход другого нейрона на том же или предыдущем уровне. Термин "feedback" определяет способ соединения нейронов. Но не следует путать его с back propagation - методом обучения feed-forward нейросетей. В методе back propagation ошибка на последнем (выходном) уровне используется для коррекции весов всей сети (распространение обратно через сеть). Feedback нейросети не применяют back propagation для обучения. Back propagation нейросеть - это не нейросеть с топологией feedback.

Рисунок 6 - НС: feedback (с обратным распространением)

В feed-forward нейросетях (рис. 5.) сигнал распространяется только в одном направлении - от входов к выходам. Линейные feed-forward нейронные сети были созданы одними из первых. В настоящее время чаще всего используют нелинейные feed-forward сети. Feed-forward сети считаются менее пригодными для реализации ассоциативной памяти, чем feedback сети, хотя они могут выполнять такие же задачи. Можно доказать математически, что любая feedback сеть имеет эквивалентную feed-forward, которая может выполнять те же самые функции.

В настоящее время нейронные сети с архитектурой feed-forward работают лучше, чем feedback сети, по нескольким причинам. Емкость feedback оказалась не очень большой. Так, например, количество данных, которое может быть сохранено без ошибок в САМ (Hophield Content Addressable Memory) вычисляется по формуле: М = N/(4logN), где N - количество нейронов. Это значит, что для хранения 1000 записей потребуется 20000 нейронов и 200000000 уникальных связей. Для сравнения: NetTalk - приложение, применяющее feed-forward модель, используя 300 нейронов и 20000 уникальных соединений, может выучить правильное написание 1000 слов и около 7000 ассоциаций буква - звук.

Кроме того, feed-forward сети работают быстрее, чем feedback, так как,для того чтобы найти решение, им нужно сделать только один проход. Feedback сети должны повторять цикл снова и снова до тех пор, пока выходы не перестанут изменяться. Обычно для этого требуется от 3 до 1000 циклов.

Feed-forward нейронные сети могут быть контролируемые (supervised) или неконтролируемые (unsupervised). Контролируемые нейронные сети во время обучения сравнивают свой ответ с заранее известным, в то время как неконтролируемые не делают этого.

 2.2 Как работает нейронная сеть 

Искусственная нейронная сеть (ИНС, нейронная сеть) - это набор нейронов, соединенных между собой. Как правило, передаточные функции всех нейронов в нейронной сети фиксированы, а веса являются параметрами нейронной сети и могут изменяться. Некоторые входы нейронов помечены как внешние входы нейронной сети, а некоторые выходы - как внешние выходы нейронной сети. Подавая любые числа на входы нейронной сети, мы получаем какой-то набор чисел на выходах нейронной сети. Таким образом, работа нейронной сети состоит в преобразовании входного вектора в выходной вектор, причем это преобразование задается весами нейронной сети.
    Практически любую задачу можно свести к задаче, решаемой нейронной с
етью.

3. Нейронные сети и алгоритм обучения персептрона

Однослойные  нейронные сети

Простейшая нейронная сеть состоит из группы нейронов, образующих один слой, как показано в правой части рис.7.

Рис. 7. Однослойная нейронная сеть

Отметим, что вершины-круги слева служат лишь для распределения входных сигналов. Они не выполняют каких-либо вычислений и потому не считаются слоем нейронной сети. По этой причине они обозначены кругами, чтобы отличать их от вычисляющих нейронов-квадратов. Каждый элемент из множества входов Х посредством весовых коэффициентов соединен с каждым нейроном. Каждый нейрон выдает на выход взвешенную сумму входов. В искусственных и биологических сетях многие соединения могут отсутствовать. Могут иметь место также соединения между выходами и входами нейронов одного слоя. Удобно считать веса элементами матрицы W. Матрица имеет т строк и п столбцов, где т  число входов, а п число нейронов. Например, w3,2   это вес, связывающий третий вход со вторым нейроном. Таким образом, вычисление выходного вектора N, компонентами которого являются выходы OUT нейронов, сводится к матричному умножению N = XW, где здесь и в дальнейшем при подобных векторных записях под N и Х будем понимать векторы-строки.

Пример решения задачи на однослойной нейронной сети

Примером, поясняющим работу однослойной нейронной сети, может служить задача о нахождении времени, затраченного на перемещение боевой машины (БМ) из исходного района в район боевого предназначения (из точки А в точку В) ночью или днем.

Пусть маршрут заранее определен командиром. Он состоит из трех отрезков пути, отличающихся дорожным покрытием: x1  путь в  километрах, который предстоит пройти БМ по дороге с асфальтовым покрытием; х2  с грунтовым покрытием; х3  по пересеченной местности ( необорудованное дорожное покрытие ).

Тогда веса нейрона характеризуют скорость движения боевой машины по каждому из видов дорожного покрытия ночью или днем. Матрица весов W будет иметь размер 32. Число нейронов 2 , а число входов каждого нейрона 3. Однослойная сеть, моделирующая данную задачу, показана на pис.8.

Рис. 8  Пример однослойной нейронной сети

Полученное значение NET1 характеризует время, затраченное на прохождение всего маршрута (из А в В) днем, а NET2 ночью. Временные ограничения, налагаемые при этом на сроки прибытия в пункт В, могут быть смоделированы в виде двух активационных функций F1 и F2, в простейшем случае приравниваемых к постоянным значениям Т1 и Т2.

OUT1 = 1, если NET1 > T1;  OUT 2 = 1, если NET2 > T2;

OUT1 = 0, в остальных случаях; OUT 2 = 0, если NET2 < T2.

Многослойные нейронные сети

Более сложные многослойные нейронные сети обладают и большими вычислительными возможностями, чем однослойные. Они образуются каскадами слоев. Выходы одного слоя являются входами для последующего слоя. Подобная сеть показана на рис. 9.

Нелинейная активационная функция

Многослойные сети приводят к увеличению вычислительной мощности по сравнению с однослойной лишь в случае, если активационная функция между слоями является нелинейной. Вычисление выхода слоя заключается в умножении выходного вектора на первую весовую матрицу с последующим умножением (если отсутствует нелинейная активационная функция) результирующего вектора на вторую весовую матрицу: (XW1)W2.

Рис. 9 Двухслойная нейронная сеть

Так как умножение матриц ассоциативно, то X(W1W2). Следовательно, двухслойная линейная сеть эквивалентна одному слою с весовой матрицей, равной произведению двух весовых матриц. Следовательно, любая многослойная линейная сеть может быть заменена эквивалентной однослойной сетью. Таким образом, для расширения возможностей сетей по сравнению с однослойной сетью необходима нелинейная активационная функция.

Обучение искусственных нейронных сетей

Одним из самых интересных свойств искусственных нейронных сетей является их способность к обучению. Целью обучения сети является желаемое отображение некоторого множества входов на некоторое множество выходов. Каждое такое входное (или выходное) множество рассматривается как вектор. Обучение осуществляется путем последовательного предъявления входных векторов с одновременной подстройкой весов в соответствии с определенной процедурой. В процессе обучения веса сети постепенно становятся такими, чтобы каждый входной вектор вырабатывал выходной вектор.

Дельта-правило

Важное обобщение алгоритма обучения персептрона, называемое дельта-правилом

                                                    d = Т - А.                                                     (1)

где -  d,  равна разности между требуемым и целевым выходом Т и реальным выходом А.  

С целью обобщения вводится коэффициент “скорости обучения” h, который умножается на dхi, что позволяет управлять средней величиной изменения весов. В алгебраической форме записи

                                            Di = hd xi ,,                                                           (2)

 

                                  wi(n+1) = wi(n) + Di ,                                                    (3)

где Di   коррекция, связанная с i-м входом хi, wi(n+1)  значение веса i после коррекции; wi(n)   значение веса i до коррекции.

Дельта-правило модифицирует веса в соответствии с требуемым и действительным значениями выхода каждой полярности, как для непрерывных, так и для бинарных входов и выходов.

Процедуру обучения персептрона рассмотрим на примере решения задачи классификации образов (рис. 10), на котором представлена общая схема решения задачи.

Рис. 10 – Полная система классификации

Строки данных из пространства возможных точек выбираются и преобразуются к новому виду в пространстве данных и соответствующих им образов. В этом новом пространстве образов выделяются признаки и определяются сущности, представляемые ими. Например, рассмотрим задачу со звуковыми сигналами, записанными на цифровом устройстве. Эти акустические сигналы трансформируются в амплитудно-частотное представление, а затем система классификации по этим признакам может распознать, кому принадлежит данный голос. Еще одним примером задачи классификации является медицинская диагностика, предполагающая сбор информации с помощью медицинского диагностического оборудования и классификацию симптомов по различным категориям болезней.

Для рассматриваемого примера в блоке преобразователя и извлечения признаков рис. 10,  данные из предметной области задачи трансформируются в двухмерные векторы декартова пространства.  На рис. 11 показаны результаты анализа информации, приведенной в табл. 1, с помощью персептрона с двумя входами, В первых двух столбцах таблицы содержатся векторы данных, используемые для обучения сети. В третьем столбце представлены ожидаемые результаты классификации, +1 или - 1 , используемые для обучения сети. На рис. 11 показаны обучающие данные и линия разделения классов данных, полученных после предъявления обученной сети каждого входного образа.

Рис. 11 - Данные из табл. 1  в двухмерном пространстве. Персептрон, обеспечивает линейное разделение этого набора данных

Таблица 1 - Набор обучающих данных для классификации с помощью персептрона

Сначала познакомимся с общей теорией классификации. Каждая группа данных, выявленная классификатором, может быть представлена некоторой областью в многомерном пространстве. Каждому классу Ri соответствует дискриминантная функция gi, определяющая степень принадлежности этой области. Среди всех дискриминантных функций для области Ri максимальное значение имеет функция gi: 

В простом примере из табл. 1 двухмерные входные векторы делятся на два класса, ср из которых соответствует значение +1 , а второму - -1.

Важным частным случаем дискриминантной функции является оценка степени принадлежности на основе расстояния от некоторой центральной точки области. Классификация, основанная на такой дискриминантной функции, называется классификацией по минимальному расстоянию. Легко показать, что такую классификацию можно реализовать для линейно разделимых классов.

Если области Ri и Rj  являются смежными, как две области на рис.11, то существует пограничная область, для которой дискриминантная функция имеет вид:

.

Если классы линейно разделимы, как на рис. 11, то дискриминантная функция, разделяющая соответствующие области, представляет собой прямую линию, т.е. функции   являются линейными. Поскольку прямая это множество точек, равноудаленных от двух фиксированных точек, то дискриминантные функции   - это функции минимального расстояния от декартового центра каждой из областей.

Линейную разделяющую функцию можно вычислить с помощью персептрона, показанного на рис. 12  и содержащего два обычных входа и пороговый вход с постоянным значением 1. Персептрон выполняет вычисление последующей формуле:

Если  = + 1 , то х принадлежит одному классу, если = -1  - другому. Такое преобразование называется кусочно-линейной биполярной пороговой функцией (релейный элемент). Пороговый вход служит для смещения пороговой функции вдоль вертикальной оси. Величина этого смещения определяется в процессе обучения с помощью настройки весового коэффициента

Используем данные из табл. 1 для обучения персептрона, показанного на рис. 10.  Инициализируем значения веса случайным образом, например [ 0,75, 0,5,  -0 6 ] и применим алгоритм обучения персептрона. Верхний индекс переменной, в частности 1 в выражении , задает номер текущей итерации алгоритма. Обработка данных начинается с первой строки таблицы

Поскольку значение  корректно, настройка весовых коэффициентов не нужна.

Следовательно, .  Для второго обучающего примера

Для данного обучающего примера на выходе персептрона ожидается значение - -1, значит, для настройки весов необходимо применить обучающее правило:

где с — постоянный коэффициент обучения, Х и W — векторы входов и весовых коэффициентов, t — номер итерации обучения, Т — символ транспонирования, dt-1 — ожидаемый результат в момент времени t-1 (или, как в данном случае, в момент времени t-2). Выход сети при t=2 равен 1, следовательно, разность между ожидаемым и реальным выходом сети составляет

.

На самом деле для биполярного персептрона инкремент обучения всегда составляет либо + 2 сХ либо — -2 сХ, где Х— вектор из обучающего множества. Коэффициент скорости обучения - это небольшое вещественное число, наподобие 0,2. Обновим вектор весовых коэффициентов:

Теперь нужно вьхчислить выходное значение сети для третьего обучающего примера с учетом настроенных весов

Это значение снова не совпадает с ожидаемым выходом. На следующей итерации веса W4 обновляются таким образом:

После десяти итераций обучения сети персептрона формируется линейное разделение, показанное на рис. 11. Примерно через 500 шагов обучения вектор весовых коэффициентов будет равен (-1,3 -1,1, 10,9). Нас интересует линейное разделение двух классов. В терминах дискриминантных функций  разделяющая поверхность  представляет собой множество точек, для которых или,т.е. уровень активации равен 0. Уравнение функционирования сети можно записать в терминах весов:

Следовательно, линейная разделяющая поверхность между двумя классами определяется линейным уравнением:

Для обобщения идеи сети персептрона нужно заменить его строгую пороговую функцию активационной функцией другого типа (см. рис. 4). Например, непрерывные активационные функции позволяют строить более тонкие алгоритмы обучения за счет более точного вычисления ошибки измерения.


 

А также другие работы, которые могут Вас заинтересовать

65735. Удосконалення розрахунку напружено-деформованого стану мостових конструкцій з урахуванням динамічного впливу вантажних поїздів 697.5 KB
  Штучні споруди є невід’ємною та важливою складовою транспортної системи країни однак до цього часу в Україні відсутні рекомендації з визначення швидкісних режимів руху поїздів мостами. Більш ніж 10 залізничних мостів в Україні внаслідок наявності дефектів є бар’єрними об’єктами що призводить...
65736. ЖАНРОВІ МОДИФІКАЦІЇ В ПОЕЗІЇ В. СКОТТА ТА ПОЕТІВ-«ЛЕЙКІСТІВ» 139.5 KB
  Скотта і поетів лейкістів яких об’єднували схожі світоглядні позиції та напрямки естетичних пошуків ще недостатньо повно висвітлені в науці особливо в аспекті засвоєння народних традицій що вплинули на картину світу британського романтизму на його ранньому етапі й зумовили подальші художні відкриття.
65737. МОДЕЛЮВАННЯ І ПРОГНОЗУВАННЯ ДІЇ НЮХОВОГО НАНОБІОСЕНСОРА НА ОСНОВІ МОЛЕКУЛИ БІЛКА ТИПУ GPCR 481.5 KB
  Причинами цього є поперше те що сучасна кремнієва електроніка досягає межі мініатюризації і для виведення її на якісно новий рівень розвитку створення так званого квантового комп'ютера необхідна нова фізична елементна база з елементами розміру порядку нанометра тобто розміру молекули.
65738. Робота та розрахунок сталевих нагельних з’єднань дерев’яних конструкцій за повторних навантажень 1.33 MB
  Велике значення мають дослідження міцнісних і деформативних характеристик нагельних з'єднань дерев'яних елементів при одноразових та повторних навантаженнях оскільки при експлуатації значна кількість дерев'яних конструкцій знаходяться саме в таких умовах.
65739. ПРАВОВЕ РЕГУЛЮВАННЯ ПРОТИДІЇ ІНФОРМАЦІЙНИМ ВІЙНАМ В УКРАЇНІ 155.5 KB
  Незважаючи на надзвичайну важливість забезпечення належного функціонування всіх сфер життєдіяльності людини суспільства та держави необхідність ефективного забезпечення інформаційної безпеки держави зокрема шляхом вироблення надійного механізму протидії інформаційним війнам...
65740. СТАН АНТИОКСИДАНТНОЇ СИСТЕМИ ТА НЕСПЕЦИФІЧНА РЕЗИСТЕНТНІСТЬ У ТВАРИН ЗА ДІЇ ПРОБІОТИКІВ БПС 44 ТА БПС Л 227.5 KB
  Мета роботи: зясувати вплив пробіотичних препаратів БПС44 та БПСЛ на стан антиоксидантної системи та неспецифічну резистентність молодняку великої рогатої худоби ВРХ та свиней; встановити фактори антагоністичної дії штамів бактерій компонентів пробіотиків.
65741. ЗАБЕЗПЕЧЕННЯ ЯКОСТІ ПОСЛУГ ПЕРЕДАЧІ МУЛЬТИМЕДІА МЕРЕЖАМИ НОВОГО ПОКОЛІННЯ 1.25 MB
  Даний процес може сприяти виникненню проблем які пов’язані із гарантуванням рівня якості обслуговування мереж передачі мультимедійної інформації. Передплатники цих систем передачі мультимедійної інформації вимагають надання нових послуг які можуть бути доступними в будь якому місці...
65742. КІНЕМАТИЧНІ ПАРАМЕТРИ ГАЛАКТИКИ ЗА ДАНИМИ СУЧАСНИХ АСТРОМЕТРИЧНИХ КАТАЛОГІВ 3.19 MB
  Оскільки масових визначень променевих швидкостей поки що недостатньо для детальних кінематичних досліджень Галактики власні рухи зір є єдиним численним джерелом даних для таких досліджень. При цьому як зазначалось ще Дю Монтом дуже важливо мати...
65743. РАННЯ ДIАГНОСТИКА ТА ПРОГНОЗУВАННЯ БРОНХОЛЕГЕНЕВОЇ ДИСПЛАЗІЇ У НЕДОНОШЕНИХ НОВОНАРОДЖЕНИХ 356.5 KB
  Упровадження сучасних технологій виходжування недоношених новонароджених високотехнологічних методик ШВЛ використання сурфактанту призвело до збільшення виживаності недоношених новонароджених що у свою чергу вплинуло на збільшення частоти БЛД. На сьогоднішній день існує безліч суперечок і питань у профілактиці та лікуванні БЛД.