39600

Нейронные сети

Научная статья

Коммуникация, связь, радиоэлектроника и цифровые приборы

Рост популярности обучающихся алгоритмов обусловлен тем что для подавляющего большинства практических проблем невозможно определить строгую конечную последовательность действий которая бы привела к оптимальному решению поставленных задач. Искусственные нейронные сети ИНС – это математические модели а также их программные или аппаратные реализации построенные по принципу организации и функционирования биологических нейронных сетей – сетей нервных клеток живого организма. В виду большого разнообразия типов ИНС приведенных в [Хайкин] для...

Русский

2013-10-07

545.86 KB

3 чел.

 Теоретическая часть

 

В соответствии с [Mitchell] машинное обучение (МО, machine learning) – это обширный подраздел теории искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться. Благодаря прогрессу в области информационных технологий обучающиеся программы на данный момент применяются для решения широкого круга задач во многих сферах науки и техники.

Рост популярности обучающихся алгоритмов обусловлен тем, что для подавляющего большинства практических проблем невозможно определить строгую конечную последовательность действий, которая бы привела к оптимальному решению поставленных задач. Например, как указано в [Золотых], методы МО нашли применение в таких областях, как распознавание рукописного текста и речи, управление транспортными средствами без участия человека, обработка статистических данных и др. Также представляется возможным использование обучающихся программ с целью диагностики электрических машин.

Обучающийся алгоритм предоставляет пользователю ответы определенного типа. По типу ответов, предоставляемых обучающейся системой, все задачи МО можно разделить на две группы:

– Задачи регрессии, в которых допустимым ответом системы является вещественное число или числовой вектор.

– Задачи классификации, в которых имеется конечное множество допустимых ответов.

Проблема определения типа повреждения ротора может быть отнесена к задаче классификации, т.к. в этом контексте требуется определить наличие повреждения и/или тип повреждения (рис. 1). Возможные ответы системы l1, l2,…,ln называют метками (labels). Каждой метке соответствует некоторое значение возможного диагноза: «повреждений нет», «витковое замыкание», «эксцентриситет» и т.д.

Рисунок 1 – Обобщенная схема задачи классификации

Как и другие алгоритмы МО методы, применяемые в задачах классификации, могут быть разделены на две основные категории – методы обучения с учителем и без учителя. Для реализации системы диагностики использовались методы первой группы, т.к. они являются более удобными, гибкими и адекватными в контексте диагностических проблем. Согласно [Энджи, Воронцов], к ним относятся методы логистической регрессии, искусственные  нейронные сети и ряд других.

Рассмотрим алгоритм двухклассовой логистической регрессии одной переменной. Он имеет два типа выходного значения - «да» и «нет», «1» и «0», т.е. два класса ответов. Такой тип регрессионной задачи в диагностике роторов может быть интерпретирован, как алгоритм определения наличия повреждения с двумя значениями возможного результата – «имеется повреждение» и «повреждение отсутствует».

Пусть Х – матрица, включающая набор входных данных, размера [m×n], где m – количество экспериментов, в которых наличие повреждения ротора считается известным, n – количество признаков обучения (например, гармоник разложения)

   (1)

Матрица y включает в себя ответы учителя и имеет размер [1×m]. Ответами являются правильные диагнозы для входных данных, представляющие собой набор нулей и единиц. Условимся, что единичное значение элемента матрицы y будет соответствовать наличию повреждения, а нулевое – его отсутствию.

В логистической регрессионной задаче вводится гипотеза, зависимая от вектора параметров регрессионной модели θ размера [n×1] и текущего набора экспериментальных данных x – вектора размера [n×1]. Представление гипотезы в виде линейной функции в задачах классификации не является лучшим решением из-за дискретного характера предсказываемых значений. Согласно [Энджи] в задачах классификации нашло широкое применение сигмоидное преобразование (2).

    (2)

График сигмоидного преобразования g(z) показан на рис. 2.

Сигмоидная функция обладает рядом важных особенностей, которые обеспечили её широкое применение в задачах МО. При положительных значениях аргумента z значение сигмоидной функции принимает значения от 0,5 до 1, а при отрицательном аргументе значение функции лежит в пределах от 0 до 0,5. Сигмоидная функция является симметричной относительно точки (0; 0,5). Вышеуказанные свойства позволяют разделить область её значений на два равнозначных класса. Условно считают, что при hθ(x)<0.5 набор входных данных х соответствует классу «0». В противном случае, набор соответствует классу «1». Таким образом, при оптимально вычисленных значениях параметров модели θ выражение (2) позволяет классифицировать входные данные, в том числе по наличию или отсутствию повреждений ротора.

Рисунок 2  – График сигмоидной функции

Важной и полезной особенностью сигмоидного преобразования также является его гладкость, т.е. дифференцируемость во всей области определения, т.к. производная от функции активации используется во многих алгоритмах обучения.

Функция цели для логистической регрессии определяется выражением

  (3)

Минимизация значения выражения (3) обеспечивается подбор оптимальных параметров модели θ. Подбор требуемых параметров может быть произведен по методу градиентного спуска по аналогии с линейной регрессией.

Помимо указанного метода существуют и другие способы минимизировать целевую функцию, подобрав оптимальные параметры регрессионной модели. Согласно [Аврил, Энджи] часто для этих целей используют такие методы, как CG (метод сопряженных градиентов), BFGS (метод Бройдена-Флэтчера-Гольдфарба-Шанно) и L-BFGS (ограниченный по памяти BFGS алгоритм). Все вышеуказанные методы обладают рядом преимуществ по сравнению с методом градиентного спуска. В частности, они не зависят от скорости обучения α и, как правило, при равных объемах входной информации эффективнее минимизируют целевую функцию. К недостаткам указанных алгоритмов стоит отнести их более высокую сложность по сравнению с методом градиентного спуска.

Традиционная реализация логистической регрессии позволяет классифицировать входные данные по двум различным классам. При необходимости рассмотрения большего количества классов и более сложных зависимостей между параметрами модели и входными данными используются более сложные классификационные структуры, например, искусственные нейронные сети.

Искусственные нейронные сети (ИНС) – это математические модели, а также их программные или аппаратные реализации, построенные по принципу организации и функционирования биологических нейронных сетей – сетей нервных клеток живого организма. В виду большого разнообразия типов ИНС, приведенных в [Хайкин], для дальнейших исследований была выбрана модель многослойного перцептрона Румельхарта, которая согласно [Энджи] также зарекомендовала себя в практических задачах распознавания образов.

Рисунок 3 – Образец структуры ИНС с одним выходом

На рис. 3 представлен пример многослойного перцептрона. Он состоит из входного слоя, образуемого нейронами  x1, x2 и x3, скрытого слоя с нейронами a1(2), a2(2) и a3(2) и выходного слоя с одним нейроном. Также для улучшения обучающихся свойств ИНС в каждый слой кроме выходного добавляются нейроны смещения (bias unit), которые всегда несут единичное значение.

Количество слоев может быть иным. В частности, можно построить перцептрон с большим количеством скрытых слоев либо полностью без них.

Все нейроны взаимосвязаны между собой однонаправленными связями. Каждой связи соответствует свое значение весового коэффициента. Нейроны входного слоя принимают сигналы извне и передают их последующему слою. Передача сигналов происходит следующим образом. Значения нейронов входного слоя умножаются на значения весовых коэффициентов связей, подвергаются сигмоидному преобразованию и присваиваются значениям нейронов последующего слоя. Для перцептрона на рис. 3 передача значений будет происходить в соответствии с соотношениями

   (4)

           (5)

В выражениях (4) и (5) верхний индекс в скобках соответствует номеру слоя. Соотношения также можно представить в матричной форме

             (6)

,     (7)

где x – вектор строка входных значений (например, амплитуд одного опыта);

 θ(1) – матрица весовых коэффициентов связей между первым и вторым слоями;

 θ(2) – матрица весовых коэффициентов связей между вторым и третьим слоями;

 a(2) – матрица значений активации нейронов второго слоя;

 a(3) – матрица значений активации нейронов третьего слоя (в данном случае состоит из одного элемента – выходного значения ИНС).

Важным преимуществом ИНС является относительно простое решение задачи с несколькими выходными классами (рис. 4).

 

Рисунок 4 – ИНС с несколькими выходными нейронами

В данном случае сигналы выходных нейронов формируются по принципу «один против всех». Гипотеза представляет собой вектор-столбец, состоящий из 4 элементов. Матрица ответов Y, включающая информацию учителя, будет иметь размер [m×4]. Каждая строка матрицы Y представляет собой ответ учителя, записанный в форме нулей и единиц. Например, запись первой строки матрицы означает, что в первом опыте входные данные относятся ко второму классу. В каждой строке может быть только одна единица, существование одновременно двух правильных классов не допускается.

Критерием правильного выбора весовых коэффициентов связей для ИНС, также как и в регрессионных задачах, служит целевая функция

, (8)

где K – количество нейронов выходного слоя.

Минимизация выражений (8) способствует выбору оптимальных значений весовых коэффициентов.  Метод градиентного спуска применяется для поиска оптимальных параметров матриц θ(i) в ИНС, однако вместо аналитического расчета производных целевой функции используют метод обратного распространения ошибки. Суть метода заключается в вычислении разностей между ответами ИНС и учителя, называемых ошибками, с последующим распространением этих разностей от выхода ИНС ко входу одновременно с уменьшением или увеличением весовых коэффициентов в зависимости от величины ошибок.

В диагностических целях было решено использовать ИНС со структурой, показанной на рис. 5.

Рисунок 5 – Структура ИНС, реализованная для целей диагностики

 Программная часть

Интерфейс программы, реализующий обучающуюся модель ИНС, показан на рис. 6.

Рисунок 6 – Интерфейс главного окна программы

Панель управления ИНС находится в правом нижнем углу экрана.

Рисунок 7 – Панель управления нейронной сетью

Индикатор напротив надписи «Состояние сети» сообщает о занятости сети, если происходит обучение, о готовности к обучению, а также об отсутствии сети, если она не была инициализирована. Если сеть не инициализирована, то можно создать новую сеть, щелкнув по кнопке «СОЗДАТЬ НЕЙРОННУЮ СЕТЬ», либо загрузить уже готовые весовые коэффициенты из ранее сохраненного файла, щелкнув по кнопке «Загрузить нейронную сеть».

Если сеть готова к работе, то можно приступать к обучению. Для управления ИНС используются кнопки «Прогноз по текущим данным» и «Использовать данные эксперимента для обучения», а также поле для ввода числового значения «Скорость обучения».

Для обучения ИНС необходимо наличие осциллограмм двигателей с известным диагнозом. Обучение ИНС осуществляется по прецедентам, т.е. вводом осциллограмм с указанием того, какая из них соответствует поврежденному или целому двигателю.

После открытия осциллограммы и нажатия на кнопку «Начать» происходит разложения сигнала в ряд Фурье и запись необходимых диагностических данных в первый слой ИНС. Пользователь может увидеть значение амплитуды каждой гармоники не только на спектрограмме, но и в списке слева.

Для обучения нейронной сети с использованием текущей спектрограммы необходимо нажать на кнопку «Использовать данные эксперимента для обучения». Программа выдаст сообщение с вопросом, соответствуют ли текущие данные поврежденному двигателю. После ответа пользователя ИНС запоминает набор данных и ответ учителя, изменяя соответствующим образом весовые коэффициенты связей и вычисляя целевую функцию для проверки алгоритма на сходимость. Чем ближе значение целевой функции к нулю, тем выше степень сходимости алгоритма.

Пользователь также должен задать скорость обучения в предназначенном для этого поле для ввода. Следует отметить, что универсального правила выбора конкретного значения скорости нет. Признаком чересчур малого значения скорости обучения является медленная сходимость алгоритма. Слишком большое значение может привести к резким скачкам гипотезы ИНС и полному отсутствию сходимости. В виду вышесказанного [Энджи] рекомендует использовать значение скорости, равное единице, и при необходимости изменять его до достижения оптимального значения в плане сходимости.

После обучения ИНС можно использовать для данных с неизвестным диагнозом. Для этого нужно воспользоваться кнопкой «Прогноз по текущим данным», после нажатия на которую программа выдаст ответ о состоянии двигателя.

Обученную ИНС можно сохранить нажатием на кнопку «Сохранить нейронную сеть». Сохраненные весовые коэффициенты впоследствии могут быть успешно загружены для непосредственной диагностики или дальнейшего обучения.

 Результаты обучения и рекомендации по использованию системы диагностики

Обучение ИНС по осциллограммам фазного тока двигателя АО-31-4 на основе амплитуд гармоник с номерами 25, 75, 125 и 175 обеспечило сходимость после 20 обучающих экспериментов при скорости обучения 0,3. При этом осциллограммы, соответствующие фазному току двигателя с единичным эксцентриситетом и полной нагрузкой, не диагностировались корректно.

Обучение ИНС по осциллограммам фазного тока двигателя АО-31-4 на основе амплитуд гармоник с номерами 24, 25, 26, 74, 75, 76, 124, 125, 126 и 175 обеспечило сходимость после 10 обучающих экспериментов при скорости обучения 1. В результате обучения ИНС правильно диагностирует все повреждения по всем имеющимся осциллограммам.


 

А также другие работы, которые могут Вас заинтересовать

26806. Линейное программирование. Рассмотрим основные понятия, характеризующие строение и функционирование систем 101 KB
  Для организационных систем и ИС удобно в определении системы учитывать цели и планы внешние и внутренние ресурсы исполнителей непосредственно процесс помехи контроль управление и эффект. Интегративное свойство системы обеспечивает ее целостность качественно новое образование по сравнению с составляющими ее частями. Под элементом принято понимать простейшую неделимую часть системы. Это часть системы обладающая внутренней структурой.
26807. Методы отделения корней уравнения 81 KB
  Если уравнение y = fx получено из практических инженерных нужд а не является выдумкой ради того чтобы подловить студента то составитель уравнения наверное знает приблизительно в каком интервале [a b] лежит корень и имеет основания думать что корень в этом интервале один. В тот момент когда окажется fаifbi 0 можно считать что корень отделён. А если в какойто точке в процессе этих вычислений fx окажется равной нулю то это значит что вам повезло и вы уже наткнулись на корень Методы отделения корней уравнения. Во многих...
26808. Уточнение корней уравнения. Метод деления отрезка пополам, метод секущих 115 KB
  В общем случае типовые программные компоненты ИС включают: диалоговый вводвывод логику диалога прикладную логику обработки данных логику управления данными операции с файлами и или БД. развитие сетевых технологий и систем передачи данных; 4. Основными из этих принципов являются следующие: принцип абстрагирования заключается в выделении существенных аспектов системы и отвлечения от несущественных; принцип непротиворечивости заключается в обоснованности и согласованности элементов; принцип структурирования данных ...
26809. Уточнение корней уравнения. Методы касательных (Ньютона) 160.5 KB
  Для групповых и корпоративных ИС существенно повышаются требования к надежности функционирования и сохранности данных. Эти свойства обеспечиваются поддержкой целостности данных ссылок и транзакций в серверах БД. Классификация по сфере применения Системы обработки транзакций по оперативности обработки данных делятся на пакетные ИС и оперативные ИС. Системы поддержки принятия решений представляют собой тип ИС в которых с помощью довольно сложных запросов производится отбор и анализ данных в различных разрезах: временных географических и по др.
26810. Аппроксимация функций. Основные задачи протокола IP 159 KB
  Архитектура файлсервер имеет существенный недостаток: при выполнении некоторых запросов к БД клиенту могут передаваться большие объемы данных что загружает сеть и приводит к непредсказуемости времени реакции. средний уровень представляет собой сервер приложений на котором выполняется прикладная логика BL и с которого логика обработки данных DL вызывает операции с БД DS; верхний уровень представляет собой специализированный сервер БД выделенный для услуг обработки данных DS и файловых операций FS без риска использования хранимых...
26811. Квадратичная аппроксимация (МНК). Методология IDEF 1 80.5 KB
  Нужно найти уравнение либо прямой линии либо кривой второй степени параболы либо еще более высокой степени полином алгебраический многочлен который лучше всего передавал бы на чертеже наиболее характерные свойства расположения заданных экспериментальных точек. Управление маркетингом подразумевает сбор и анализ данных о фирмахконкурентах их продукции и ценовой политике а также моделирование параметров внешнего окружения для определения оптимального уровня цен прогнозирования прибыли и планирования рекламных кампаний.Методология IDEF...
26812. Системный подход, системные исследования и системный анализ 21.87 KB
  Системный подход системные исследования и системный анализ Для анализа сложных объектов и процессов применяются системный подход системные исследования и системный анализ. Системный подход к исследованиям предполагает необходимость исследования объекта с разных сторон комплексно в отличие от ранее принятого разделения исследований на физические химические и другие. Однако заимствованные при таком подходе понятия теории систем вводились не строго не исследовался вопрос каким классом систем лучше отобразить объект какие свойства и...
26813. Методы и модели описания систем. Качественные методы описания систем 175.47 KB
  Однако позднее обязательное требование явно выраженных временных координат было снято и сценарием стали называть любой документ содержащий анализ рассматриваемой проблемы или предложения по ее решению по развитию системы независимо от того в какой форме он представлен. Таким образом сценарий помогает составить представление о проблеме а затем приступить к более формализованному представлению системы в виде графиков таблиц для проведения экспертного опроса и других методов системного анализа. Основная идея морфологических методов –...
26814. Модели систем. Алгоритм разрешения имен в службе DNS 73.86 KB
  Журнализация и буферизация Журнализация изменений тесно связана не только с управлением транзакциями но и с буферизацией страниц базы данных в оперативной памяти. Если бы запись об изменении базы данных которая должна поступить в журнал при выполнении любой операции модификации базы данных реально немедленно записывалась бы во внешнюю память это привело бы к существенному замедлению работы системы. Проблема состоит в выработке некоторой общей политики выталкивания которая обеспечивала бы возможность восстановления состояния базы данных...