45433

Модель обучения на примере автоматов с линейной тактикой. Автомат с переменной структурой

Доклад

Коммуникация, связь, радиоэлектроника и цифровые приборы

Автомат с переменной структурой. Рациональность поведения автомата в детерминированной стохастической стационарной и нестационарной среде. Автомат с линейной тактикой рис.

Русский

2013-11-17

124.5 KB

9 чел.

  1.  Модель обучения на примере автоматов с линейной тактикой. Автомат с переменной структурой. Рациональность поведения автомата в детерминированной, стохастической стационарной и нестационарной среде. Программная реализация

Механизмы обучения

           Цель - построить техническую систему, реализующую механизм обучения и  самообучения. Система должна реализовать не худшую способность к обучению,  чем живое существо. Для этого требуется исследовать, как обучаются живые существа.

Естественные объекты

      

     рис.3.1

           Рассмотрим T - образный лабиринт (рисунок 3.1). В него заводится  зверюшка. Заранее она не знает, что ожидает в каждой из сторон лабиринта, пища или удар электрического тока (поощрение или наказание). Опыт повторяется многократно. Сначала справа всегда была пища, а слева ток.  Зверюшка бежала случайно только первые несколько раз, затем она обучалась и шла к пище. Опыт усложнили: теперь еда и наказание были в обеих частях лабиринта, но выбирались они с определенной постоянной вероятностью.

      Справа Р = 0.4, слева - 0.9, где Р - вероятность штрафа. Вмест  детерминированной среды зверюшка попадала в вероятностную  детерминированную среду. В результате опыта зверюшка шла направо – она улавливала как рационально поступать в новых условиях. Затем её поместили  вероятностную недетерминированную среду, т.е. в вероятность штрафа стал изменяться во времени.

     P(t). Зверюшка переучивалась и здесь.

      

     рис.3.2

           Для нерационального поведения характерно то, что выбор направления осуществляется случайно. С равными вероятностями зверюшка может убежать и направо, и налево: M = 0.5*0.9 + 0.5*0.4 = 0.65 Для рационального поведения: M = 0*0.9 + 1*0.4 = 0.4 Способность к обучению можно измерят   рациональностью поведения. E = (Pл,Pп), где E -среда, Pл,Pп - вероятности  наказания средой при действиях d1,d2 соответственно. В нашем случае d1 -  пойти налево, d2 - пойти направо. Среда двухкомпонентная, т.к. возможны  только два действия.

      Задача: спроектировать техническое устройство, с целесообразным поведением

     в заранее неизвестной среде.

Автомат с линейной тактикой

      

     рис.3.3

          

Автомат реализует три действия d1,d2, d3. Трехкомпонентная среда.   Пусть среда ведет себя следующим образом: E = (0.9, 0.0001, 0.8). Если  среда штрафует, то мы всплываем (из глубины лепестка), если поощряет, то уходим в глубь лепестка. Пусть первоначальным состоянием автомата было  одно из состоянии в лепестке d1. Т.к. вероятность штрафа здесь довольно велика (0.9), то спустя некоторое время автомат перейдет в состояние,  находящееся в d3, и будет оставаться там продолжительное время. То есть  автомат ведет себя наилучшим образом в заранее неизвестной среде.

Автомат описывается парой чисел. Первое - количество действий автомата, и второе - глубина лепесткa (q). Приведенный автомат описывается как (3,4).  q - базовый параметр, аналог инертности. Чем q больше, тем целесообразнее   ведет себя автомат. У человека q находится в пределах от 3 до 5. Чем q  больше, тем хуже объект приспосабливается к часто меняющейся среде. Для нестационарной среды лучше аппараты с меньшим q, для стационарной с  большим q.

Доверчивый автомат (автомат Кринского)

     рис.3.4

          Введен нюанс темперамента. Действует так же, как предыдущий.

Осторожный автомат Крылова

           Автомат с линейной тактикой, но при поощрениях доверяет не сразу, а с вероятностью 0.5 определяет верить или нет поощрению. Можно построить нецелесообразный автомат. Например, "Иван-дурак" - автомат с двумя действиями (плакать и смеяться) и глубиной - 1.

      

     рис.3.5

Какая глубина лучше?

На рисунке 3.6 показан график зависимости целесообразности от глубин с учетом частоты изменения среды. Лучше всего настраивать величину q в   зависимости от среды.

      

     рис.3.6

Коллектив автоматов

      

     рис.3.7

           Дано поле ресурсов. В каждой клетке - автомат с линейной тактикой (4,4). Для определенности оставим 10 автоматов. Автомат может   реализовывать следующие действия: остаться на месте, пойти вправо, пойти влево, пойти вверх (вниз).

      1) Если автоматы останутся, как были, то вместе получат 1*100 + 9*40 = 460 единиц. Цена игры:

         460/10 = 46 ед. Но т.к. один получает 100, а другие по 40, то это   заставит автоматы перебегать с одного     места в другое. Состояние неустойчивое.

      2) Другая, более устойчивая конфигурация, когда два автомата сидят на "хлебной" клетке. Все вместе     получат: 2*50 + 8*40 = 420; цена игры 420/10 = 42 ед;

           С точки зрения общественной выгоды - лучше первая ситуация, т.к. в среднем "на душу населения" получен более высокий результат. Но с точки  зрения индивидуальной выгоды - лучше вторая ситуация. Первая получил название игры Мора, вторая - игры Нэша. Устойчивый коллектив тот, где каждый руководствуется собственной выгодой.

           Но можно ли сыграть в устойчивую игру Мора? Т.е. получитьмаксимальную общественную выгоду, при этом сохраняя устойчивое состояние.  Для этого требуется сыграть в игру с общей кассой: все играют в игру Мора,  но затем всё делится поровну.

           Если автоматы имеют большой q, то им выгоднее играть в игру Мора,  т.к. они более инерционные; и наоборот - если q низкий, то в игру Нэша т.к. они более активные.

      

     рис.3.8

          Но все ли среды имеют подобные свойства? Есть среды, которые не    подчиняются вышеприведенным выводам.

            


           рис.3.9                                                    рис.3.10

          На рисунке 3.9 - сбор грибов. На рисунке 3.10 - охота на лося.

           Пример: Имеется 2 производственных участка, на которых занято 100 рабочих. Задача - разместить их по участкам наилучшим образом, т.е. найти  соотношение x : y. Экономическая ситуация на 1 участке: 400x - 0,02x2 =  Sx; на втором - 280y - 0,4y2= Sy, где x - количество рабочих на первом участке, y - на втором, Sx,y - получаемый доход с участков.

           Пояснение: Отрицательный член символизирует ограничение на фронт работ, много индивидуумов мешают друг другу. Коэффициент при x и y показывает на возможности заработка одним индивидуумом и зависит от свойств среды (участка).

          Рассмотрим варианты:

          Вариант A {80,20}

           Участок                         1                2

           Количество рабочих  x=80         y=20

           Заработанная сумма Sx=21760 Sy=5440

           Общая заработанная сумма S=27200

           Средняя зарплата 276276

           Т.к. средняя заработная плата на участках одинакова, рабочие не будут  переходить с одного участка на другой. Мы будем иметь устойчивое  состояние. Игра Нэша.

          B -{51,49}

           Участок                         1              2

           Количество рабочих  x=51        y=49

           Заработанная сумма Sx=17748  Sy=12740

           Общая заработанная сумма S=30488

           Средняя зарплата 348260

           Эта ситуация более выгодна в общественном смысле (денег получено больше). Но из-за того, что средняя заработная плата неодинакова (при   переходе со второго участка на первый индивидуум получит дополнительно за туже работу 88 рублей), то ситуация не будет устойчивой. Игра Мора.   Цетлин: "Неравенство в оплате эквивалентно выгоде общественного интереса."

           Но если нужно одновременно совместить максимум общественного дохода игры Мора и устойчивость игры Неша, то требуется следовать правилам игры с  общей кассой: все играют в игру Мора, но затем всё собирается в общую  кассу и делится на всех.

Aвтомат с переменной структурой

           В автомате с линейной структурой одним из основных параметров  является глубина лепестка - q. В нестационнарной среде q должно быть    небольшим; в стационарной - наоборот. Требуется построить автомат, который   бы сам определял для себя величину q.

            

           рис.4.1

            

           рис.4.2

            

           рис.4.3

            

           рис.4.4

            

           рис.4.5

На рисунке 4.1 изображен автомат с линейной тактикой (2;2). Сплошными стрелками изображены переходы при поощрениях, штрих  пунктирными - при штрафах. Автомат детерминированный. Матрицы его  переходов показаны на рисунке 4.2. На рисунке 4.3 необученный, недетерминированный автомат. В нем переходы от одного состояния в другое случайны и равновероятны. Процесс перехода от недерминированнного автомата к детерминированному и есть процесс обучения.  Пусть автомат случайно перешел из состояния 1 в состояние 4, и среда его поощрила. В этом случае он увеличивает вероятность такого перехода. На рисунке 4.4 показана матрица переходов в начальном  состоянии и после первого воздействия. Первоначально матрица переходов имеет равные значения вероятностей переходов (по 0,25). Но  далее у невыгодного перехода вероятность уменьшается, а других  вариантов перехода вероятности увеличивают за его счет. То есть автомат уменьшает вероятность перехода, когда среда его оштрафовала и увеличивает в обратном случае. Через некоторое время автомат от недетерминированного перейдет к детерминированному. Сам собой определится параметр q. Автомат сам настроится. Если среда поменяет  условия игры, то автомат перенастроится. На рисунке 4.5 показан  процесс настройки автомата.

Самообучение

           Пример, показывающий, что автомат, первоначально необученный начинает играть лучше учителя. Игра "крестики-нолики". Для удобства примем, что учитель играет ноликами и всегда делает первый ход. Соответственно, крестиками играет автомат. Допустим, что в первый раз автомат проиграл.Поэтому вероятность всех переходов ведущих к проигрышу уменьшается. На поле 3x3, через 20-30 партий, автомат будет, как минимум, сводить все игры к ничьей. Подробнее

Характер обучения

           Можно ли придать характер обучению, т.е. придать автоматам некоторые индивидуальные черты, внести разнообразие. Допустим, автомат хочет    жениться и главными критериями его решения является такие параметры как  наличие квартиры и умение готовить. x = f ( y1; y2 ), где x – выходное решение, y1,y2 - входные сигналы (пусть y1 - наличие квартиры, y2 - умение готовить). Все переменные принимают одно из трех значений {0, 0.5, 1},   т.е. "нет", "вроде да, а может быть и нет", "да".

 y1                       

y2

                     x

0

0

0

0

0

0

0

0.5

0

0

0

1

0

1

0

0

0

1

0.5

0

0

0

0

1

0.5

0.5

0.5

0

0

1

0.5

1

0.5

0

0

1

1

0

0

0

0

1

1

0.5

0.5

0

0.5

1

1

1

1

1

1

1

min(y1,y2)

крайний

пессимист

умеренный

пессимист

оптимист

           Самое устойчивое общество: 40% бесстрастных; 40% умеренных пессимистов; 20% умеренных оптимистов.

      

     рис.4.6

     


 

А также другие работы, которые могут Вас заинтересовать

42946. Розрахунок витрат води 39.27 KB
  Визначення розрахункових добових витрат води Розрахункову добову витрату води на господарськопитні потреби населення обчислюємо за формулою: Qдоб.1 Розрахункові витрати води на господарськопитні потреби населення за добу найбільшого і найменьшого водоспоживання визначаються: Qдоб. Витрати води на виробничі потреби підприємст визначаємо виходячи з кількості продукції що випускається на кожну зміну роботи та питомої витрати води на технологічні потреби згідно завдання. зміну Qв м3 зміну Хлібозавод...
42947. Экономическое обоснование освоения выпуска новой продукции 87.82 KB
  Необходимо определить экономическую целесообразность перехода на выпуск нового вида продукции, ориентируясь на показатели рентабельности продукции и производства. Для этого необходимо разработать план работы предприятия на ближайшие 3 года, определить инвестиционные потребности, доходы и расходы, связанные с выпуском и реализацией новой продукции, выявить потребность в заемных источниках финансирования (кредитах), определить чистую прибыль предприятия и показатели эффективности.
42948. Расчет выпуска новой продукции 85.91 KB
  Дополнительным преимуществом для предприятия является возможность при изготовлении нового изделия максимально полно использовать имеющийся парк оборудования станков который использовался для выпуска продукции.
42949. Расчет коленчатого вала двигателя ЗМЗ - 53 376.33 KB
  ПЗ РАЗРАБОТКА МАРШРУТНОГО ТЕХНОЛОГИЧЕСКОГО ПРОЦЕССА Коленчатый вал двигателя ЗМЗ 53 рисунок 1 поступающие в ремонт может иметь следующие дефекты: обломы и трещины любого характера и расположения 1 изгиб вала 2 увеличение длины передней коренной шейки 3 износ шатунных шеек по длине 4 износ шатунных 5 и коренных 6 шеек износ шпоночной канавки под шпонки шестерни 7 и ступицы шкива коленчатого вала 8 биение шейки под шестерню коленчатого вала 9 износ шейки по шестерню коленчатого вала 10 износ шейки под ступицу шкива...
42950. Исследование QR метода на основе преобразований вращения и отражения 194.67 KB
  Рассмотрим два метода исключение обладающих в отличие от метода Гаусса гарантированной хорошей обусловленностью метод вращений и метод отражений. Оба эти метода позволяют получить представление исходной матрицы в вид произведения ортогональной матрицы Q на верхнюю треугольную матрицу R: =QR. 1 Теория метода вращения Пусть дана система линейных алгебраических уравнений содержащая n уравнений с n неизвестными. Идея метода заключается в том что матрицу А приводим к верхней треугольной умножая ее на коэффициенты c и s а потом с помощью...
42952. Організації передачі повідомлень на базі нових мережевих технологій 54.45 KB
  Завантаження однієї абонентської лінії телефонною розмовою складає в середньому 002 Ерланга в годину у годину пік – у 5 разів більше. Для спрощення розрахунків думаємо що динаміка росту кількості абонентів описується лінійним законом; завантаження однієї абонентської лінії телефонною розмовою складає в середньому 002 Ерланга в годину у годину пік – у 5 разів більше; середній трафик мови визначаємо по формулі: Тм сер = 002 Nб Тм сер = 002 13=026 Тм сер = 002 15=030 Тм сер = 002 16=032 Тм сер = 002 17=034 Тм сер = 002...
42953. Физические основы рентгеноспектрального и рентгенофлуоресцентного методов анализа 1.05 MB
  Свойства тонкоплёночных твёрдотельных объектов (электрические, магнитные, оптические и др.) зависят от их химического состава и толщины. Поэтому определение химического состава, толщины и других физико-химических характеристик твёрдотельных плёнок и покрытий для получения материалов с уникальными физическими свойствами является важной задачей