45433

Модель обучения на примере автоматов с линейной тактикой. Автомат с переменной структурой

Доклад

Коммуникация, связь, радиоэлектроника и цифровые приборы

Автомат с переменной структурой. Рациональность поведения автомата в детерминированной стохастической стационарной и нестационарной среде. Автомат с линейной тактикой рис.

Русский

2013-11-17

124.5 KB

9 чел.

  1.  Модель обучения на примере автоматов с линейной тактикой. Автомат с переменной структурой. Рациональность поведения автомата в детерминированной, стохастической стационарной и нестационарной среде. Программная реализация

Механизмы обучения

           Цель - построить техническую систему, реализующую механизм обучения и  самообучения. Система должна реализовать не худшую способность к обучению,  чем живое существо. Для этого требуется исследовать, как обучаются живые существа.

Естественные объекты

      

     рис.3.1

           Рассмотрим T - образный лабиринт (рисунок 3.1). В него заводится  зверюшка. Заранее она не знает, что ожидает в каждой из сторон лабиринта, пища или удар электрического тока (поощрение или наказание). Опыт повторяется многократно. Сначала справа всегда была пища, а слева ток.  Зверюшка бежала случайно только первые несколько раз, затем она обучалась и шла к пище. Опыт усложнили: теперь еда и наказание были в обеих частях лабиринта, но выбирались они с определенной постоянной вероятностью.

      Справа Р = 0.4, слева - 0.9, где Р - вероятность штрафа. Вмест  детерминированной среды зверюшка попадала в вероятностную  детерминированную среду. В результате опыта зверюшка шла направо – она улавливала как рационально поступать в новых условиях. Затем её поместили  вероятностную недетерминированную среду, т.е. в вероятность штрафа стал изменяться во времени.

     P(t). Зверюшка переучивалась и здесь.

      

     рис.3.2

           Для нерационального поведения характерно то, что выбор направления осуществляется случайно. С равными вероятностями зверюшка может убежать и направо, и налево: M = 0.5*0.9 + 0.5*0.4 = 0.65 Для рационального поведения: M = 0*0.9 + 1*0.4 = 0.4 Способность к обучению можно измерят   рациональностью поведения. E = (Pл,Pп), где E -среда, Pл,Pп - вероятности  наказания средой при действиях d1,d2 соответственно. В нашем случае d1 -  пойти налево, d2 - пойти направо. Среда двухкомпонентная, т.к. возможны  только два действия.

      Задача: спроектировать техническое устройство, с целесообразным поведением

     в заранее неизвестной среде.

Автомат с линейной тактикой

      

     рис.3.3

          

Автомат реализует три действия d1,d2, d3. Трехкомпонентная среда.   Пусть среда ведет себя следующим образом: E = (0.9, 0.0001, 0.8). Если  среда штрафует, то мы всплываем (из глубины лепестка), если поощряет, то уходим в глубь лепестка. Пусть первоначальным состоянием автомата было  одно из состоянии в лепестке d1. Т.к. вероятность штрафа здесь довольно велика (0.9), то спустя некоторое время автомат перейдет в состояние,  находящееся в d3, и будет оставаться там продолжительное время. То есть  автомат ведет себя наилучшим образом в заранее неизвестной среде.

Автомат описывается парой чисел. Первое - количество действий автомата, и второе - глубина лепесткa (q). Приведенный автомат описывается как (3,4).  q - базовый параметр, аналог инертности. Чем q больше, тем целесообразнее   ведет себя автомат. У человека q находится в пределах от 3 до 5. Чем q  больше, тем хуже объект приспосабливается к часто меняющейся среде. Для нестационарной среды лучше аппараты с меньшим q, для стационарной с  большим q.

Доверчивый автомат (автомат Кринского)

     рис.3.4

          Введен нюанс темперамента. Действует так же, как предыдущий.

Осторожный автомат Крылова

           Автомат с линейной тактикой, но при поощрениях доверяет не сразу, а с вероятностью 0.5 определяет верить или нет поощрению. Можно построить нецелесообразный автомат. Например, "Иван-дурак" - автомат с двумя действиями (плакать и смеяться) и глубиной - 1.

      

     рис.3.5

Какая глубина лучше?

На рисунке 3.6 показан график зависимости целесообразности от глубин с учетом частоты изменения среды. Лучше всего настраивать величину q в   зависимости от среды.

      

     рис.3.6

Коллектив автоматов

      

     рис.3.7

           Дано поле ресурсов. В каждой клетке - автомат с линейной тактикой (4,4). Для определенности оставим 10 автоматов. Автомат может   реализовывать следующие действия: остаться на месте, пойти вправо, пойти влево, пойти вверх (вниз).

      1) Если автоматы останутся, как были, то вместе получат 1*100 + 9*40 = 460 единиц. Цена игры:

         460/10 = 46 ед. Но т.к. один получает 100, а другие по 40, то это   заставит автоматы перебегать с одного     места в другое. Состояние неустойчивое.

      2) Другая, более устойчивая конфигурация, когда два автомата сидят на "хлебной" клетке. Все вместе     получат: 2*50 + 8*40 = 420; цена игры 420/10 = 42 ед;

           С точки зрения общественной выгоды - лучше первая ситуация, т.к. в среднем "на душу населения" получен более высокий результат. Но с точки  зрения индивидуальной выгоды - лучше вторая ситуация. Первая получил название игры Мора, вторая - игры Нэша. Устойчивый коллектив тот, где каждый руководствуется собственной выгодой.

           Но можно ли сыграть в устойчивую игру Мора? Т.е. получитьмаксимальную общественную выгоду, при этом сохраняя устойчивое состояние.  Для этого требуется сыграть в игру с общей кассой: все играют в игру Мора,  но затем всё делится поровну.

           Если автоматы имеют большой q, то им выгоднее играть в игру Мора,  т.к. они более инерционные; и наоборот - если q низкий, то в игру Нэша т.к. они более активные.

      

     рис.3.8

          Но все ли среды имеют подобные свойства? Есть среды, которые не    подчиняются вышеприведенным выводам.

            


           рис.3.9                                                    рис.3.10

          На рисунке 3.9 - сбор грибов. На рисунке 3.10 - охота на лося.

           Пример: Имеется 2 производственных участка, на которых занято 100 рабочих. Задача - разместить их по участкам наилучшим образом, т.е. найти  соотношение x : y. Экономическая ситуация на 1 участке: 400x - 0,02x2 =  Sx; на втором - 280y - 0,4y2= Sy, где x - количество рабочих на первом участке, y - на втором, Sx,y - получаемый доход с участков.

           Пояснение: Отрицательный член символизирует ограничение на фронт работ, много индивидуумов мешают друг другу. Коэффициент при x и y показывает на возможности заработка одним индивидуумом и зависит от свойств среды (участка).

          Рассмотрим варианты:

          Вариант A {80,20}

           Участок                         1                2

           Количество рабочих  x=80         y=20

           Заработанная сумма Sx=21760 Sy=5440

           Общая заработанная сумма S=27200

           Средняя зарплата 276276

           Т.к. средняя заработная плата на участках одинакова, рабочие не будут  переходить с одного участка на другой. Мы будем иметь устойчивое  состояние. Игра Нэша.

          B -{51,49}

           Участок                         1              2

           Количество рабочих  x=51        y=49

           Заработанная сумма Sx=17748  Sy=12740

           Общая заработанная сумма S=30488

           Средняя зарплата 348260

           Эта ситуация более выгодна в общественном смысле (денег получено больше). Но из-за того, что средняя заработная плата неодинакова (при   переходе со второго участка на первый индивидуум получит дополнительно за туже работу 88 рублей), то ситуация не будет устойчивой. Игра Мора.   Цетлин: "Неравенство в оплате эквивалентно выгоде общественного интереса."

           Но если нужно одновременно совместить максимум общественного дохода игры Мора и устойчивость игры Неша, то требуется следовать правилам игры с  общей кассой: все играют в игру Мора, но затем всё собирается в общую  кассу и делится на всех.

Aвтомат с переменной структурой

           В автомате с линейной структурой одним из основных параметров  является глубина лепестка - q. В нестационнарной среде q должно быть    небольшим; в стационарной - наоборот. Требуется построить автомат, который   бы сам определял для себя величину q.

            

           рис.4.1

            

           рис.4.2

            

           рис.4.3

            

           рис.4.4

            

           рис.4.5

На рисунке 4.1 изображен автомат с линейной тактикой (2;2). Сплошными стрелками изображены переходы при поощрениях, штрих  пунктирными - при штрафах. Автомат детерминированный. Матрицы его  переходов показаны на рисунке 4.2. На рисунке 4.3 необученный, недетерминированный автомат. В нем переходы от одного состояния в другое случайны и равновероятны. Процесс перехода от недерминированнного автомата к детерминированному и есть процесс обучения.  Пусть автомат случайно перешел из состояния 1 в состояние 4, и среда его поощрила. В этом случае он увеличивает вероятность такого перехода. На рисунке 4.4 показана матрица переходов в начальном  состоянии и после первого воздействия. Первоначально матрица переходов имеет равные значения вероятностей переходов (по 0,25). Но  далее у невыгодного перехода вероятность уменьшается, а других  вариантов перехода вероятности увеличивают за его счет. То есть автомат уменьшает вероятность перехода, когда среда его оштрафовала и увеличивает в обратном случае. Через некоторое время автомат от недетерминированного перейдет к детерминированному. Сам собой определится параметр q. Автомат сам настроится. Если среда поменяет  условия игры, то автомат перенастроится. На рисунке 4.5 показан  процесс настройки автомата.

Самообучение

           Пример, показывающий, что автомат, первоначально необученный начинает играть лучше учителя. Игра "крестики-нолики". Для удобства примем, что учитель играет ноликами и всегда делает первый ход. Соответственно, крестиками играет автомат. Допустим, что в первый раз автомат проиграл.Поэтому вероятность всех переходов ведущих к проигрышу уменьшается. На поле 3x3, через 20-30 партий, автомат будет, как минимум, сводить все игры к ничьей. Подробнее

Характер обучения

           Можно ли придать характер обучению, т.е. придать автоматам некоторые индивидуальные черты, внести разнообразие. Допустим, автомат хочет    жениться и главными критериями его решения является такие параметры как  наличие квартиры и умение готовить. x = f ( y1; y2 ), где x – выходное решение, y1,y2 - входные сигналы (пусть y1 - наличие квартиры, y2 - умение готовить). Все переменные принимают одно из трех значений {0, 0.5, 1},   т.е. "нет", "вроде да, а может быть и нет", "да".

 y1                       

y2

                     x

0

0

0

0

0

0

0

0.5

0

0

0

1

0

1

0

0

0

1

0.5

0

0

0

0

1

0.5

0.5

0.5

0

0

1

0.5

1

0.5

0

0

1

1

0

0

0

0

1

1

0.5

0.5

0

0.5

1

1

1

1

1

1

1

min(y1,y2)

крайний

пессимист

умеренный

пессимист

оптимист

           Самое устойчивое общество: 40% бесстрастных; 40% умеренных пессимистов; 20% умеренных оптимистов.

      

     рис.4.6

     


 

А также другие работы, которые могут Вас заинтересовать

43982. Цифровая система видеонаблюдения 2.38 MB
  С развитием цифровых технологий эта задача может быть решена внедрением системы видеонаблюдения английская аббревиатура CCTV Closed Circuit TeleVision Системы замкнутого телевидения. В зависимости от типа используемого оборудования системы видеонаблюдения делят на аналоговые и цифровые. Аналоговые системы видеонаблюдения используют там где необходимо организовать видеонаблюдение в небольшом числе помещений и информацию с видеокамер записывать на видеомагнитофон. Для обеспечения безопасности особо ответственных или...
43983. Организация автоматизированного учета и контроля деятельности религиозных организаций с использованием ПЭВМ (на примере администрации Октябрьского р-на г. Минска) 12.1 MB
  Данная активизация устанавливает определенные проблемы по традиционному учету деятельности религиозных организаций. Целью данной дипломной работы является организация автоматизированного учета и контроля деятельности религиозных организаций с использованием ПЭВМ на примере администрации Октябрьского рна г. Целью данной дипломной работы является организация автоматизированного учета и контроля за деятельностью религиозных организаций на примере администрации Октябрьского рна г. В связи с поставленной целью были намечены следующие задачи: ...
43984. Кредитование во внешнеторговой деятельности 288.5 KB
  Средства для международного кредита мобилизуются на международном рынке ссудных капиталов, на национальных рынках ссудного капитала, а также за счет использования ресурсов государственных, региональных и международных организаций. Размер кредита и условия его представления фиксируются в кредитном соглашении (договоре) между кредитором и заемщиком
43985. Банковская система. Банковские риски и методы их регулировани 701 KB
  В первом случае речь идет о шансах получения прибыли а во втором о рисках. Предоставляя ссуды коммерческий банк исходит прежде всего из рыночных критериев прибыльности риска и ликвидности. Значение посреднической функции коммерческих банков для успешного развития рыночной экономики состоит в том что они своей деятельностью уменьшают степень риска и неопределенности в экономической системе. Именно такая неопределенность и повышенный уровень риска это плата за полученную экономическую свободу хотя имеющаяся экономическая свобода еще...
43986. Разработка методику проведения контроля с использованием заданий нестандартной формы по теме «Логарифмическая функция» 1.82 MB
  Обилие литературы по проблеме мотивации и мотивов сопровождается и многообразием точек зрения на их природу что вынуждает некоторых психологов впадать в излишний пессимизм и говорить о практической неразрешимости проблемы. Общим недостатком существующих точек зрения и теорий является отсутствие системного подхода к рассмотрению процесса мотивации
43987. Основы обеспечения нравственного становления личности старшеклассников средствами литературы 237.5 KB
  Теоретические основы становления и современного состояния теории нравственного воспитания. Становление теории нравственного воспитания в истории педагогики Анализ современного состояния теории нравственного воспитания. Факторы или условия совершенствования нравственного воспитания в школе
43988. Выбор и обоснование структуры данных для алгоритма построения красно-черного дерева 15.01 KB
  Красно-черные деревья - один из способов балансировки деревьев. Название происходит от стандартной раскраски узлов таких деревьев в красный и черный цвета. Цвета узлов используются при балансировке дерева
43989. Праздник для Несмеяны 158 KB
  Есть очень хорошая восточная пословица: До семи лет ребенок ваш царь до четырнадцати ваш раб после четырнадцати ваш друг. Царь страдает мачеха злится но колесо шантажа запущено уже давно. Ревнует она к Несмеяне к служанкам а так же боится что царь может влюбиться в кого ни будь помоложе. Отец Царь в данной ситуации выступает в роли жертвы и сильно страдает.
43990. Строительство автомобильной дороги в Хабаровском крае 2.31 MB
  Параметры воздействия на окружающую среду при выполнении подготовительных работ работ по сооружению земляного полотна устройству дорожной одежды разработке карьеров и резервов добыче и транспортировании минеральных материалов и соответствующие их коэффициенты значимости приведены на листе. Лист Дата ДП: Строительство автомобильной дороги III технической категории в Хабаровском крае. Лист Изм.