39600

Нейронные сети

Научная статья

Коммуникация, связь, радиоэлектроника и цифровые приборы

Рост популярности обучающихся алгоритмов обусловлен тем что для подавляющего большинства практических проблем невозможно определить строгую конечную последовательность действий которая бы привела к оптимальному решению поставленных задач. Искусственные нейронные сети ИНС – это математические модели а также их программные или аппаратные реализации построенные по принципу организации и функционирования биологических нейронных сетей – сетей нервных клеток живого организма. В виду большого разнообразия типов ИНС приведенных в [Хайкин] для...

Русский

2013-10-07

545.86 KB

3 чел.

 Теоретическая часть

 

В соответствии с [Mitchell] машинное обучение (МО, machine learning) – это обширный подраздел теории искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Благодаря прогрессу в области информационных технологий обучающиеся программы на данный момент применяются для решения широкого круга задач во многих сферах науки и техники.

Рост популярности обучающихся алгоритмов обусловлен тем, что для подавляющего большинства практических проблем невозможно определить строгую конечную последовательность действий, которая бы привела к оптимальному решению поставленных задач. Например, как указано в [Золотых], методы МО нашли применение в таких областях, как распознавание рукописного текста и речи, управление транспортными средствами без участия человека, обработка статистических данных и др. Также представляется возможным использование обучающихся программ с целью диагностики электрических машин.

Обучающийся алгоритм предоставляет пользователю ответы определенного типа. По типу ответов, предоставляемых обучающейся системой, все задачи МО можно разделить на две группы:

– Задачи регрессии, в которых допустимым ответом системы является вещественное число или числовой вектор.

– Задачи классификации, в которых имеется конечное множество допустимых ответов.

Проблема определения типа повреждения ротора может быть отнесена к задаче классификации, т.к. в этом контексте требуется определить наличие повреждения и/или тип повреждения (рис. 1). Возможные ответы системы l1, l2,…,ln называют метками (labels). Каждой метке соответствует некоторое значение возможного диагноза: «повреждений нет», «витковое замыкание», «эксцентриситет» и т.д.

Рисунок 1 – Обобщенная схема задачи классификации

Как и другие алгоритмы МО методы, применяемые в задачах классификации, могут быть разделены на две основные категории – методы обучения с учителем и без учителя. Для реализации системы диагностики использовались методы первой группы, т.к. они являются более удобными, гибкими и адекватными в контексте диагностических проблем. Согласно [Энджи, Воронцов], к ним относятся методы логистической регрессии, искусственные  нейронные сети и ряд других.

Рассмотрим алгоритм двухклассовой логистической регрессии одной переменной. Он имеет два типа выходного значения - «да» и «нет», «1» и «0», т.е. два класса ответов. Такой тип регрессионной задачи в диагностике роторов может быть интерпретирован, как алгоритм определения наличия повреждения с двумя значениями возможного результата – «имеется повреждение» и «повреждение отсутствует».

Пусть Х – матрица, включающая набор входных данных, размера [m×n], где m – количество экспериментов, в которых наличие повреждения ротора считается известным, n – количество признаков обучения (например, гармоник разложения)

   (1)

Матрица y включает в себя ответы учителя и имеет размер [1×m]. Ответами являются правильные диагнозы для входных данных, представляющие собой набор нулей и единиц. Условимся, что единичное значение элемента матрицы y будет соответствовать наличию повреждения, а нулевое – его отсутствию.

В логистической регрессионной задаче вводится гипотеза, зависимая от вектора параметров регрессионной модели θ размера [n×1] и текущего набора экспериментальных данных x – вектора размера [n×1]. Представление гипотезы в виде линейной функции в задачах классификации не является лучшим решением из-за дискретного характера предсказываемых значений. Согласно [Энджи] в задачах классификации нашло широкое применение сигмоидное преобразование (2).

    (2)

График сигмоидного преобразования g(z) показан на рис. 2.

Сигмоидная функция обладает рядом важных особенностей, которые обеспечили её широкое применение в задачах МО. При положительных значениях аргумента z значение сигмоидной функции принимает значения от 0,5 до 1, а при отрицательном аргументе значение функции лежит в пределах от 0 до 0,5. Сигмоидная функция является симметричной относительно точки (0; 0,5). Вышеуказанные свойства позволяют разделить область её значений на два равнозначных класса. Условно считают, что при hθ(x)<0.5 набор входных данных х соответствует классу «0». В противном случае, набор соответствует классу «1». Таким образом, при оптимально вычисленных значениях параметров модели θ выражение (2) позволяет классифицировать входные данные, в том числе по наличию или отсутствию повреждений ротора.

Рисунок 2  – График сигмоидной функции

Важной и полезной особенностью сигмоидного преобразования также является его гладкость, т.е. дифференцируемость во всей области определения, т.к. производная от функции активации используется во многих алгоритмах обучения.

Функция цели для логистической регрессии определяется выражением

  (3)

Минимизация значения выражения (3) обеспечивается подбор оптимальных параметров модели θ. Подбор требуемых параметров может быть произведен по методу градиентного спуска по аналогии с линейной регрессией.

Помимо указанного метода существуют и другие способы минимизировать целевую функцию, подобрав оптимальные параметры регрессионной модели. Согласно [Аврил, Энджи] часто для этих целей используют такие методы, как CG (метод сопряженных градиентов), BFGS (метод Бройдена-Флэтчера-Гольдфарба-Шанно) и L-BFGS (ограниченный по памяти BFGS алгоритм). Все вышеуказанные методы обладают рядом преимуществ по сравнению с методом градиентного спуска. В частности, они не зависят от скорости обучения α и, как правило, при равных объемах входной информации эффективнее минимизируют целевую функцию. К недостаткам указанных алгоритмов стоит отнести их более высокую сложность по сравнению с методом градиентного спуска.

Традиционная реализация логистической регрессии позволяет классифицировать входные данные по двум различным классам. При необходимости рассмотрения большего количества классов и более сложных зависимостей между параметрами модели и входными данными используются более сложные классификационные структуры, например, искусственные нейронные сети.

Искусственные нейронные сети (ИНС) – это математические модели, а также их программные или аппаратные реализации, построенные по принципу организации и функционирования биологических нейронных сетей – сетей нервных клеток живого организма. В виду большого разнообразия типов ИНС, приведенных в [Хайкин], для дальнейших исследований была выбрана модель многослойного перцептрона Румельхарта, которая согласно [Энджи] также зарекомендовала себя в практических задачах распознавания образов.

Рисунок 3 – Образец структуры ИНС с одним выходом

На рис. 3 представлен пример многослойного перцептрона. Он состоит из входного слоя, образуемого нейронами  x1, x2 и x3, скрытого слоя с нейронами a1(2), a2(2) и a3(2) и выходного слоя с одним нейроном. Также для улучшения обучающихся свойств ИНС в каждый слой кроме выходного добавляются нейроны смещения (bias unit), которые всегда несут единичное значение.

Количество слоев может быть иным. В частности, можно построить перцептрон с большим количеством скрытых слоев либо полностью без них.

Все нейроны взаимосвязаны между собой однонаправленными связями. Каждой связи соответствует свое значение весового коэффициента. Нейроны входного слоя принимают сигналы извне и передают их последующему слою. Передача сигналов происходит следующим образом. Значения нейронов входного слоя умножаются на значения весовых коэффициентов связей, подвергаются сигмоидному преобразованию и присваиваются значениям нейронов последующего слоя. Для перцептрона на рис. 3 передача значений будет происходить в соответствии с соотношениями

   (4)

           (5)

В выражениях (4) и (5) верхний индекс в скобках соответствует номеру слоя. Соотношения также можно представить в матричной форме

             (6)

,     (7)

где x – вектор строка входных значений (например, амплитуд одного опыта);

 θ(1) – матрица весовых коэффициентов связей между первым и вторым слоями;

 θ(2) – матрица весовых коэффициентов связей между вторым и третьим слоями;

 a(2) – матрица значений активации нейронов второго слоя;

 a(3) – матрица значений активации нейронов третьего слоя (в данном случае состоит из одного элемента – выходного значения ИНС).

Важным преимуществом ИНС является относительно простое решение задачи с несколькими выходными классами (рис. 4).

 

Рисунок 4 – ИНС с несколькими выходными нейронами

В данном случае сигналы выходных нейронов формируются по принципу «один против всех». Гипотеза представляет собой вектор-столбец, состоящий из 4 элементов. Матрица ответов Y, включающая информацию учителя, будет иметь размер [m×4]. Каждая строка матрицы Y представляет собой ответ учителя, записанный в форме нулей и единиц. Например, запись первой строки матрицы означает, что в первом опыте входные данные относятся ко второму классу. В каждой строке может быть только одна единица, существование одновременно двух правильных классов не допускается.

Критерием правильного выбора весовых коэффициентов связей для ИНС, также как и в регрессионных задачах, служит целевая функция

, (8)

где K – количество нейронов выходного слоя.

Минимизация выражений (8) способствует выбору оптимальных значений весовых коэффициентов.  Метод градиентного спуска применяется для поиска оптимальных параметров матриц θ(i) в ИНС, однако вместо аналитического расчета производных целевой функции используют метод обратного распространения ошибки. Суть метода заключается в вычислении разностей между ответами ИНС и учителя, называемых ошибками, с последующим распространением этих разностей от выхода ИНС ко входу одновременно с уменьшением или увеличением весовых коэффициентов в зависимости от величины ошибок.

В диагностических целях было решено использовать ИНС со структурой, показанной на рис. 5.

Рисунок 5 – Структура ИНС, реализованная для целей диагностики

 Программная часть

Интерфейс программы, реализующий обучающуюся модель ИНС, показан на рис. 6.

Рисунок 6 – Интерфейс главного окна программы

Панель управления ИНС находится в правом нижнем углу экрана.

Рисунок 7 – Панель управления нейронной сетью

Индикатор напротив надписи «Состояние сети» сообщает о занятости сети, если происходит обучение, о готовности к обучению, а также об отсутствии сети, если она не была инициализирована. Если сеть не инициализирована, то можно создать новую сеть, щелкнув по кнопке «СОЗДАТЬ НЕЙРОННУЮ СЕТЬ», либо загрузить уже готовые весовые коэффициенты из ранее сохраненного файла, щелкнув по кнопке «Загрузить нейронную сеть».

Если сеть готова к работе, то можно приступать к обучению. Для управления ИНС используются кнопки «Прогноз по текущим данным» и «Использовать данные эксперимента для обучения», а также поле для ввода числового значения «Скорость обучения».

Для обучения ИНС необходимо наличие осциллограмм двигателей с известным диагнозом. Обучение ИНС осуществляется по прецедентам, т.е. вводом осциллограмм с указанием того, какая из них соответствует поврежденному или целому двигателю.

После открытия осциллограммы и нажатия на кнопку «Начать» происходит разложения сигнала в ряд Фурье и запись необходимых диагностических данных в первый слой ИНС. Пользователь может увидеть значение амплитуды каждой гармоники не только на спектрограмме, но и в списке слева.

Для обучения нейронной сети с использованием текущей спектрограммы необходимо нажать на кнопку «Использовать данные эксперимента для обучения». Программа выдаст сообщение с вопросом, соответствуют ли текущие данные поврежденному двигателю. После ответа пользователя ИНС запоминает набор данных и ответ учителя, изменяя соответствующим образом весовые коэффициенты связей и вычисляя целевую функцию для проверки алгоритма на сходимость. Чем ближе значение целевой функции к нулю, тем выше степень сходимости алгоритма.

Пользователь также должен задать скорость обучения в предназначенном для этого поле для ввода. Следует отметить, что универсального правила выбора конкретного значения скорости нет. Признаком чересчур малого значения скорости обучения является медленная сходимость алгоритма. Слишком большое значение может привести к резким скачкам гипотезы ИНС и полному отсутствию сходимости. В виду вышесказанного [Энджи] рекомендует использовать значение скорости, равное единице, и при необходимости изменять его до достижения оптимального значения в плане сходимости.

После обучения ИНС можно использовать для данных с неизвестным диагнозом. Для этого нужно воспользоваться кнопкой «Прогноз по текущим данным», после нажатия на которую программа выдаст ответ о состоянии двигателя.

Обученную ИНС можно сохранить нажатием на кнопку «Сохранить нейронную сеть». Сохраненные весовые коэффициенты впоследствии могут быть успешно загружены для непосредственной диагностики или дальнейшего обучения.

 Результаты обучения и рекомендации по использованию системы диагностики

Обучение ИНС по осциллограммам фазного тока двигателя АО-31-4 на основе амплитуд гармоник с номерами 25, 75, 125 и 175 обеспечило сходимость после 20 обучающих экспериментов при скорости обучения 0,3. При этом осциллограммы, соответствующие фазному току двигателя с единичным эксцентриситетом и полной нагрузкой, не диагностировались корректно.

Обучение ИНС по осциллограммам фазного тока двигателя АО-31-4 на основе амплитуд гармоник с номерами 24, 25, 26, 74, 75, 76, 124, 125, 126 и 175 обеспечило сходимость после 10 обучающих экспериментов при скорости обучения 1. В результате обучения ИНС правильно диагностирует все повреждения по всем имеющимся осциллограммам.


 

А также другие работы, которые могут Вас заинтересовать

51278. Теплотехника и теплоэнергетика. Лабораторные работы 5.76 MB
  Вентиляторы – это воздуходувные машины создающие определенное давление и служащие для перемещения воздуха при потерях давления в вентиляционной сети не более 12кПа. Вентиляторы высокого давления используют в основном для технологических целей например для дутья в вагранки в агломерационных установках для подачи воздуха к форсункам в фильтроочистительных системах и в системах пневмопочты. При вращении рабочего колеса 1 частицы воздуха увлекаются лопатками 2 во вращательное движение при этом на частицы воздуха действуют центробежные...
51279. Настройка параметров Windows 127 KB
  Microsoft Windows хранит информацию о конфигурации в двух местах: реестре и службе каталогов ctive Directory. Модификации реестра или ctive Directory приводят к изменению конфигурации Windows. Для настройки среды Windows прежде всего просматривает файл utoexec.
51283. ОПРЕДЕЛЕНИЕ ОСНОВНЫХ ХАРАКТЕРИСТИК СИСТЕМЫ ТОНКИХ ЛИНЗ 1.01 MB
  Линза называется тонкой если толщина линзы мала по сравнению с размерами сферических поверхностей ограничивающих линзу. Линзы бывают собирающими см. Оптический центр линзы точка через которую лучи идут не преломляясь. Фокусов у линзы два: задний и передний.
51284. Основные режимы движения механизма 907 KB
  При установившемся режиме скорость начального звена изменяется периодически. Причиной является периодический характер действия сил и моментов, приложенных к механизму, а также периодические изменения приведенного момента инерции механизма
51285. Изучение явления интерференции света с помощью бипризмы Френеля 82 KB
  Цель работы: Изучение поляризованного света явлений вращения плоскости поляризации в оптически активных растворах и магнитных полях определение постоянной вращения постоянной Верде и концентрация оптически активных растворов. Приборы и принадлежности: круговые поляриметры трубки с оптически активными соленоид выпрямитель миллиметровка Определение постоянной вращения сахарных растворов.5 По формуле вычислим концентрацию: Вывод: в ходе работы изучили: излучение поляризованного света явление вращения плоскости поляризации в...
51286. исследование дисперсии стеклянной призмы 74 KB
  Цель работы: Наблюдение линейных спектров испускания определение показателя преломления оптического стекла для различных длин волн и построение кривой дисперсии этого стекла определение дисперсионных характеристик призмы. Определение зависимости Преломляющий угол...