45433

Модель обучения на примере автоматов с линейной тактикой. Автомат с переменной структурой

Доклад

Коммуникация, связь, радиоэлектроника и цифровые приборы

Автомат с переменной структурой. Рациональность поведения автомата в детерминированной стохастической стационарной и нестационарной среде. Автомат с линейной тактикой рис.

Русский

2013-11-17

124.5 KB

9 чел.

  1.  Модель обучения на примере автоматов с линейной тактикой. Автомат с переменной структурой. Рациональность поведения автомата в детерминированной, стохастической стационарной и нестационарной среде. Программная реализация

Механизмы обучения

           Цель - построить техническую систему, реализующую механизм обучения и  самообучения. Система должна реализовать не худшую способность к обучению,  чем живое существо. Для этого требуется исследовать, как обучаются живые существа.

Естественные объекты

      

     рис.3.1

           Рассмотрим T - образный лабиринт (рисунок 3.1). В него заводится  зверюшка. Заранее она не знает, что ожидает в каждой из сторон лабиринта, пища или удар электрического тока (поощрение или наказание). Опыт повторяется многократно. Сначала справа всегда была пища, а слева ток.  Зверюшка бежала случайно только первые несколько раз, затем она обучалась и шла к пище. Опыт усложнили: теперь еда и наказание были в обеих частях лабиринта, но выбирались они с определенной постоянной вероятностью.

      Справа Р = 0.4, слева - 0.9, где Р - вероятность штрафа. Вмест  детерминированной среды зверюшка попадала в вероятностную  детерминированную среду. В результате опыта зверюшка шла направо – она улавливала как рационально поступать в новых условиях. Затем её поместили  вероятностную недетерминированную среду, т.е. в вероятность штрафа стал изменяться во времени.

     P(t). Зверюшка переучивалась и здесь.

      

     рис.3.2

           Для нерационального поведения характерно то, что выбор направления осуществляется случайно. С равными вероятностями зверюшка может убежать и направо, и налево: M = 0.5*0.9 + 0.5*0.4 = 0.65 Для рационального поведения: M = 0*0.9 + 1*0.4 = 0.4 Способность к обучению можно измерят   рациональностью поведения. E = (Pл,Pп), где E -среда, Pл,Pп - вероятности  наказания средой при действиях d1,d2 соответственно. В нашем случае d1 -  пойти налево, d2 - пойти направо. Среда двухкомпонентная, т.к. возможны  только два действия.

      Задача: спроектировать техническое устройство, с целесообразным поведением

     в заранее неизвестной среде.

Автомат с линейной тактикой

      

     рис.3.3

          

Автомат реализует три действия d1,d2, d3. Трехкомпонентная среда.   Пусть среда ведет себя следующим образом: E = (0.9, 0.0001, 0.8). Если  среда штрафует, то мы всплываем (из глубины лепестка), если поощряет, то уходим в глубь лепестка. Пусть первоначальным состоянием автомата было  одно из состоянии в лепестке d1. Т.к. вероятность штрафа здесь довольно велика (0.9), то спустя некоторое время автомат перейдет в состояние,  находящееся в d3, и будет оставаться там продолжительное время. То есть  автомат ведет себя наилучшим образом в заранее неизвестной среде.

Автомат описывается парой чисел. Первое - количество действий автомата, и второе - глубина лепесткa (q). Приведенный автомат описывается как (3,4).  q - базовый параметр, аналог инертности. Чем q больше, тем целесообразнее   ведет себя автомат. У человека q находится в пределах от 3 до 5. Чем q  больше, тем хуже объект приспосабливается к часто меняющейся среде. Для нестационарной среды лучше аппараты с меньшим q, для стационарной с  большим q.

Доверчивый автомат (автомат Кринского)

     рис.3.4

          Введен нюанс темперамента. Действует так же, как предыдущий.

Осторожный автомат Крылова

           Автомат с линейной тактикой, но при поощрениях доверяет не сразу, а с вероятностью 0.5 определяет верить или нет поощрению. Можно построить нецелесообразный автомат. Например, "Иван-дурак" - автомат с двумя действиями (плакать и смеяться) и глубиной - 1.

      

     рис.3.5

Какая глубина лучше?

На рисунке 3.6 показан график зависимости целесообразности от глубин с учетом частоты изменения среды. Лучше всего настраивать величину q в   зависимости от среды.

      

     рис.3.6

Коллектив автоматов

      

     рис.3.7

           Дано поле ресурсов. В каждой клетке - автомат с линейной тактикой (4,4). Для определенности оставим 10 автоматов. Автомат может   реализовывать следующие действия: остаться на месте, пойти вправо, пойти влево, пойти вверх (вниз).

      1) Если автоматы останутся, как были, то вместе получат 1*100 + 9*40 = 460 единиц. Цена игры:

         460/10 = 46 ед. Но т.к. один получает 100, а другие по 40, то это   заставит автоматы перебегать с одного     места в другое. Состояние неустойчивое.

      2) Другая, более устойчивая конфигурация, когда два автомата сидят на "хлебной" клетке. Все вместе     получат: 2*50 + 8*40 = 420; цена игры 420/10 = 42 ед;

           С точки зрения общественной выгоды - лучше первая ситуация, т.к. в среднем "на душу населения" получен более высокий результат. Но с точки  зрения индивидуальной выгоды - лучше вторая ситуация. Первая получил название игры Мора, вторая - игры Нэша. Устойчивый коллектив тот, где каждый руководствуется собственной выгодой.

           Но можно ли сыграть в устойчивую игру Мора? Т.е. получитьмаксимальную общественную выгоду, при этом сохраняя устойчивое состояние.  Для этого требуется сыграть в игру с общей кассой: все играют в игру Мора,  но затем всё делится поровну.

           Если автоматы имеют большой q, то им выгоднее играть в игру Мора,  т.к. они более инерционные; и наоборот - если q низкий, то в игру Нэша т.к. они более активные.

      

     рис.3.8

          Но все ли среды имеют подобные свойства? Есть среды, которые не    подчиняются вышеприведенным выводам.

            


           рис.3.9                                                    рис.3.10

          На рисунке 3.9 - сбор грибов. На рисунке 3.10 - охота на лося.

           Пример: Имеется 2 производственных участка, на которых занято 100 рабочих. Задача - разместить их по участкам наилучшим образом, т.е. найти  соотношение x : y. Экономическая ситуация на 1 участке: 400x - 0,02x2 =  Sx; на втором - 280y - 0,4y2= Sy, где x - количество рабочих на первом участке, y - на втором, Sx,y - получаемый доход с участков.

           Пояснение: Отрицательный член символизирует ограничение на фронт работ, много индивидуумов мешают друг другу. Коэффициент при x и y показывает на возможности заработка одним индивидуумом и зависит от свойств среды (участка).

          Рассмотрим варианты:

          Вариант A {80,20}

           Участок                         1                2

           Количество рабочих  x=80         y=20

           Заработанная сумма Sx=21760 Sy=5440

           Общая заработанная сумма S=27200

           Средняя зарплата 276276

           Т.к. средняя заработная плата на участках одинакова, рабочие не будут  переходить с одного участка на другой. Мы будем иметь устойчивое  состояние. Игра Нэша.

          B -{51,49}

           Участок                         1              2

           Количество рабочих  x=51        y=49

           Заработанная сумма Sx=17748  Sy=12740

           Общая заработанная сумма S=30488

           Средняя зарплата 348260

           Эта ситуация более выгодна в общественном смысле (денег получено больше). Но из-за того, что средняя заработная плата неодинакова (при   переходе со второго участка на первый индивидуум получит дополнительно за туже работу 88 рублей), то ситуация не будет устойчивой. Игра Мора.   Цетлин: "Неравенство в оплате эквивалентно выгоде общественного интереса."

           Но если нужно одновременно совместить максимум общественного дохода игры Мора и устойчивость игры Неша, то требуется следовать правилам игры с  общей кассой: все играют в игру Мора, но затем всё собирается в общую  кассу и делится на всех.

Aвтомат с переменной структурой

           В автомате с линейной структурой одним из основных параметров  является глубина лепестка - q. В нестационнарной среде q должно быть    небольшим; в стационарной - наоборот. Требуется построить автомат, который   бы сам определял для себя величину q.

            

           рис.4.1

            

           рис.4.2

            

           рис.4.3

            

           рис.4.4

            

           рис.4.5

На рисунке 4.1 изображен автомат с линейной тактикой (2;2). Сплошными стрелками изображены переходы при поощрениях, штрих  пунктирными - при штрафах. Автомат детерминированный. Матрицы его  переходов показаны на рисунке 4.2. На рисунке 4.3 необученный, недетерминированный автомат. В нем переходы от одного состояния в другое случайны и равновероятны. Процесс перехода от недерминированнного автомата к детерминированному и есть процесс обучения.  Пусть автомат случайно перешел из состояния 1 в состояние 4, и среда его поощрила. В этом случае он увеличивает вероятность такого перехода. На рисунке 4.4 показана матрица переходов в начальном  состоянии и после первого воздействия. Первоначально матрица переходов имеет равные значения вероятностей переходов (по 0,25). Но  далее у невыгодного перехода вероятность уменьшается, а других  вариантов перехода вероятности увеличивают за его счет. То есть автомат уменьшает вероятность перехода, когда среда его оштрафовала и увеличивает в обратном случае. Через некоторое время автомат от недетерминированного перейдет к детерминированному. Сам собой определится параметр q. Автомат сам настроится. Если среда поменяет  условия игры, то автомат перенастроится. На рисунке 4.5 показан  процесс настройки автомата.

Самообучение

           Пример, показывающий, что автомат, первоначально необученный начинает играть лучше учителя. Игра "крестики-нолики". Для удобства примем, что учитель играет ноликами и всегда делает первый ход. Соответственно, крестиками играет автомат. Допустим, что в первый раз автомат проиграл.Поэтому вероятность всех переходов ведущих к проигрышу уменьшается. На поле 3x3, через 20-30 партий, автомат будет, как минимум, сводить все игры к ничьей. Подробнее

Характер обучения

           Можно ли придать характер обучению, т.е. придать автоматам некоторые индивидуальные черты, внести разнообразие. Допустим, автомат хочет    жениться и главными критериями его решения является такие параметры как  наличие квартиры и умение готовить. x = f ( y1; y2 ), где x – выходное решение, y1,y2 - входные сигналы (пусть y1 - наличие квартиры, y2 - умение готовить). Все переменные принимают одно из трех значений {0, 0.5, 1},   т.е. "нет", "вроде да, а может быть и нет", "да".

 y1                       

y2

                     x

0

0

0

0

0

0

0

0.5

0

0

0

1

0

1

0

0

0

1

0.5

0

0

0

0

1

0.5

0.5

0.5

0

0

1

0.5

1

0.5

0

0

1

1

0

0

0

0

1

1

0.5

0.5

0

0.5

1

1

1

1

1

1

1

min(y1,y2)

крайний

пессимист

умеренный

пессимист

оптимист

           Самое устойчивое общество: 40% бесстрастных; 40% умеренных пессимистов; 20% умеренных оптимистов.

      

     рис.4.6

     


 

А также другие работы, которые могут Вас заинтересовать

80315. Впровадження інновацій у сферу виробництва 111 KB
  Процес організації інноваційної діяльності на підприємстві стосується як споживачів інвесторів державних і місцевих органів влади наукових та науковотехнічних організацій постачальників працівників підприємства тощо так і забезпечує вирішення основних завдань підприємства. Сучасне підприємство за певних умов може власними силами розробляти нові вироби здійснювати науководослідні та проектно-конструкторські роботи якщо вони відносно нескладні. Для розробки досить складних виробів проведення довгострокових що потребують значних...
80316. Організація нормування праці 117 KB
  Класифікація витрат робочого часу та склад норми часу. Вивчення затрат робочого часу спостереженням. ЗМІСТ ЛЕКЦІЇ Сутність і завдання нормування праці Необхідною умовою організації праці та виробничих процесів на підприємстві є встановлення точних витрат часу на всі роботи що виконуються на робочих місцях бригад дільниць та цехів. На ефективно працюючих підприємствах норми часу регулюють всі основні технологічні процеси роботи і операції та більшість обслуговуючих.
80317. Організація наукових досліджень та проектних робіт 132 KB
  Планування фінансування і звітність про виконання науководослідних та проектноконструкторських робіт. Види методи й етапи виконання наукових досліджень Основна спрямованість науковотехнічної діяльності одержання нових знань використання їх для створення і вдосконалення засобів знарядь предметів та умов праці й життя людини духовного та культурного розвитку суспільства. Згідно з чинним законодавством держава забезпечує: соціальноекономічні організаційні правові умови для формування та ефективного використання науковотехнічного...
80318. Підприємство в сучасних умовах господарювання 90 KB
  Господарський комплекс, або, інакше кажучи, національна економіка країни, являє собою сукупність взаємопов’язаних галузей, які відрізняють її національне господарство від господарства інших країн. Економіка країни має особливу структуру, формування і розвиток якої відбувається залежно від суспільних потреб
80319. Капітал і виробничі фонди підприємства 319 KB
  Загальна характеристика капіталу та виробничих фондів. Класифікація структура облік та оцінка основних фондів підприємства. Амортизація основних фондів. Загальна характеристика капіталу та виробничих фондів Слово капітал має німецьке походження і означає вартість яка внаслідок використання найманої робочої сили дає додану вартість .
80320. Нематеріальні ресурси та активи підприємства 95 KB
  Якщо йдеться про нематеріальні активи рідкісні за своєю природою, то вони утворюються не в результаті вкладення коштів, а завдяки привласненню рідкісності (наприклад, права на користування природними ресурсами). Але і в цьому разі доступ до обмежених дефіцитних ресурсів також захищено відповідними правами.
80321. Персонал підприємства та продуктивність праці 487 KB
  Продуктивність праці показники та методи її вимірювання. Слід відрізняти трудові ресурси реальні ті люди які вже працюють та потенційні ті що можуть бути залучені до конкретної праці. На рівні окремого підприємства для характеристики усієї сукупності працівників частіше застосовують терміни персонал кадри трудовий колектив.
80322. РАХУНКИ БУХГАЛТЕРСЬКОГО ОБЛІКУ І ПОДВІЙНИЙ ЗАПИС 242.5 KB
  Систематизація і групування господарських операцій на рахунках забезпечує безперервну інформацію про їх здійснення і результати діяльності необхідну для оперативного керівництва контролю й аналізу. Залежно від характеру облікованих обєктів записи на рахунках можуть здійснюватися у різних вимірниках натуральних трудових але з обовязковим використанням грошового вимірника з метою узагальнення різнорідних засобів і процесів. Збільшення і зменшення господарських засобів та їхніх джерел в результаті господарських операцій відображається на...
80323. КЛАСИФІКАЦІЯ І ПЛАН РАХУНКІВ БУХГАЛТЕРСЬКОГО ОБЛІКУ 190.5 KB
  Різнобічні завдання господарського керівництва та контролю потребують своєчасної і всебічної інформації про склад засобів підприємства і джерел їх формування, господарські процеси і фінансові результати діяльності.