45433

Модель обучения на примере автоматов с линейной тактикой. Автомат с переменной структурой

Доклад

Коммуникация, связь, радиоэлектроника и цифровые приборы

Автомат с переменной структурой. Рациональность поведения автомата в детерминированной стохастической стационарной и нестационарной среде. Автомат с линейной тактикой рис.

Русский

2013-11-17

124.5 KB

4 чел.

  1.  Модель обучения на примере автоматов с линейной тактикой. Автомат с переменной структурой. Рациональность поведения автомата в детерминированной, стохастической стационарной и нестационарной среде. Программная реализация

Механизмы обучения

           Цель - построить техническую систему, реализующую механизм обучения и  самообучения. Система должна реализовать не худшую способность к обучению,  чем живое существо. Для этого требуется исследовать, как обучаются живые существа.

Естественные объекты

      

     рис.3.1

           Рассмотрим T - образный лабиринт (рисунок 3.1). В него заводится  зверюшка. Заранее она не знает, что ожидает в каждой из сторон лабиринта, пища или удар электрического тока (поощрение или наказание). Опыт повторяется многократно. Сначала справа всегда была пища, а слева ток.  Зверюшка бежала случайно только первые несколько раз, затем она обучалась и шла к пище. Опыт усложнили: теперь еда и наказание были в обеих частях лабиринта, но выбирались они с определенной постоянной вероятностью.

      Справа Р = 0.4, слева - 0.9, где Р - вероятность штрафа. Вмест  детерминированной среды зверюшка попадала в вероятностную  детерминированную среду. В результате опыта зверюшка шла направо – она улавливала как рационально поступать в новых условиях. Затем её поместили  вероятностную недетерминированную среду, т.е. в вероятность штрафа стал изменяться во времени.

     P(t). Зверюшка переучивалась и здесь.

      

     рис.3.2

           Для нерационального поведения характерно то, что выбор направления осуществляется случайно. С равными вероятностями зверюшка может убежать и направо, и налево: M = 0.5*0.9 + 0.5*0.4 = 0.65 Для рационального поведения: M = 0*0.9 + 1*0.4 = 0.4 Способность к обучению можно измерят   рациональностью поведения. E = (Pл,Pп), где E -среда, Pл,Pп - вероятности  наказания средой при действиях d1,d2 соответственно. В нашем случае d1 -  пойти налево, d2 - пойти направо. Среда двухкомпонентная, т.к. возможны  только два действия.

      Задача: спроектировать техническое устройство, с целесообразным поведением

     в заранее неизвестной среде.

Автомат с линейной тактикой

      

     рис.3.3

          

Автомат реализует три действия d1,d2, d3. Трехкомпонентная среда.   Пусть среда ведет себя следующим образом: E = (0.9, 0.0001, 0.8). Если  среда штрафует, то мы всплываем (из глубины лепестка), если поощряет, то уходим в глубь лепестка. Пусть первоначальным состоянием автомата было  одно из состоянии в лепестке d1. Т.к. вероятность штрафа здесь довольно велика (0.9), то спустя некоторое время автомат перейдет в состояние,  находящееся в d3, и будет оставаться там продолжительное время. То есть  автомат ведет себя наилучшим образом в заранее неизвестной среде.

Автомат описывается парой чисел. Первое - количество действий автомата, и второе - глубина лепесткa (q). Приведенный автомат описывается как (3,4).  q - базовый параметр, аналог инертности. Чем q больше, тем целесообразнее   ведет себя автомат. У человека q находится в пределах от 3 до 5. Чем q  больше, тем хуже объект приспосабливается к часто меняющейся среде. Для нестационарной среды лучше аппараты с меньшим q, для стационарной с  большим q.

Доверчивый автомат (автомат Кринского)

     рис.3.4

          Введен нюанс темперамента. Действует так же, как предыдущий.

Осторожный автомат Крылова

           Автомат с линейной тактикой, но при поощрениях доверяет не сразу, а с вероятностью 0.5 определяет верить или нет поощрению. Можно построить нецелесообразный автомат. Например, "Иван-дурак" - автомат с двумя действиями (плакать и смеяться) и глубиной - 1.

      

     рис.3.5

Какая глубина лучше?

На рисунке 3.6 показан график зависимости целесообразности от глубин с учетом частоты изменения среды. Лучше всего настраивать величину q в   зависимости от среды.

      

     рис.3.6

Коллектив автоматов

      

     рис.3.7

           Дано поле ресурсов. В каждой клетке - автомат с линейной тактикой (4,4). Для определенности оставим 10 автоматов. Автомат может   реализовывать следующие действия: остаться на месте, пойти вправо, пойти влево, пойти вверх (вниз).

      1) Если автоматы останутся, как были, то вместе получат 1*100 + 9*40 = 460 единиц. Цена игры:

         460/10 = 46 ед. Но т.к. один получает 100, а другие по 40, то это   заставит автоматы перебегать с одного     места в другое. Состояние неустойчивое.

      2) Другая, более устойчивая конфигурация, когда два автомата сидят на "хлебной" клетке. Все вместе     получат: 2*50 + 8*40 = 420; цена игры 420/10 = 42 ед;

           С точки зрения общественной выгоды - лучше первая ситуация, т.к. в среднем "на душу населения" получен более высокий результат. Но с точки  зрения индивидуальной выгоды - лучше вторая ситуация. Первая получил название игры Мора, вторая - игры Нэша. Устойчивый коллектив тот, где каждый руководствуется собственной выгодой.

           Но можно ли сыграть в устойчивую игру Мора? Т.е. получитьмаксимальную общественную выгоду, при этом сохраняя устойчивое состояние.  Для этого требуется сыграть в игру с общей кассой: все играют в игру Мора,  но затем всё делится поровну.

           Если автоматы имеют большой q, то им выгоднее играть в игру Мора,  т.к. они более инерционные; и наоборот - если q низкий, то в игру Нэша т.к. они более активные.

      

     рис.3.8

          Но все ли среды имеют подобные свойства? Есть среды, которые не    подчиняются вышеприведенным выводам.

            


           рис.3.9                                                    рис.3.10

          На рисунке 3.9 - сбор грибов. На рисунке 3.10 - охота на лося.

           Пример: Имеется 2 производственных участка, на которых занято 100 рабочих. Задача - разместить их по участкам наилучшим образом, т.е. найти  соотношение x : y. Экономическая ситуация на 1 участке: 400x - 0,02x2 =  Sx; на втором - 280y - 0,4y2= Sy, где x - количество рабочих на первом участке, y - на втором, Sx,y - получаемый доход с участков.

           Пояснение: Отрицательный член символизирует ограничение на фронт работ, много индивидуумов мешают друг другу. Коэффициент при x и y показывает на возможности заработка одним индивидуумом и зависит от свойств среды (участка).

          Рассмотрим варианты:

          Вариант A {80,20}

           Участок                         1                2

           Количество рабочих  x=80         y=20

           Заработанная сумма Sx=21760 Sy=5440

           Общая заработанная сумма S=27200

           Средняя зарплата 276276

           Т.к. средняя заработная плата на участках одинакова, рабочие не будут  переходить с одного участка на другой. Мы будем иметь устойчивое  состояние. Игра Нэша.

          B -{51,49}

           Участок                         1              2

           Количество рабочих  x=51        y=49

           Заработанная сумма Sx=17748  Sy=12740

           Общая заработанная сумма S=30488

           Средняя зарплата 348260

           Эта ситуация более выгодна в общественном смысле (денег получено больше). Но из-за того, что средняя заработная плата неодинакова (при   переходе со второго участка на первый индивидуум получит дополнительно за туже работу 88 рублей), то ситуация не будет устойчивой. Игра Мора.   Цетлин: "Неравенство в оплате эквивалентно выгоде общественного интереса."

           Но если нужно одновременно совместить максимум общественного дохода игры Мора и устойчивость игры Неша, то требуется следовать правилам игры с  общей кассой: все играют в игру Мора, но затем всё собирается в общую  кассу и делится на всех.

Aвтомат с переменной структурой

           В автомате с линейной структурой одним из основных параметров  является глубина лепестка - q. В нестационнарной среде q должно быть    небольшим; в стационарной - наоборот. Требуется построить автомат, который   бы сам определял для себя величину q.

            

           рис.4.1

            

           рис.4.2

            

           рис.4.3

            

           рис.4.4

            

           рис.4.5

На рисунке 4.1 изображен автомат с линейной тактикой (2;2). Сплошными стрелками изображены переходы при поощрениях, штрих  пунктирными - при штрафах. Автомат детерминированный. Матрицы его  переходов показаны на рисунке 4.2. На рисунке 4.3 необученный, недетерминированный автомат. В нем переходы от одного состояния в другое случайны и равновероятны. Процесс перехода от недерминированнного автомата к детерминированному и есть процесс обучения.  Пусть автомат случайно перешел из состояния 1 в состояние 4, и среда его поощрила. В этом случае он увеличивает вероятность такого перехода. На рисунке 4.4 показана матрица переходов в начальном  состоянии и после первого воздействия. Первоначально матрица переходов имеет равные значения вероятностей переходов (по 0,25). Но  далее у невыгодного перехода вероятность уменьшается, а других  вариантов перехода вероятности увеличивают за его счет. То есть автомат уменьшает вероятность перехода, когда среда его оштрафовала и увеличивает в обратном случае. Через некоторое время автомат от недетерминированного перейдет к детерминированному. Сам собой определится параметр q. Автомат сам настроится. Если среда поменяет  условия игры, то автомат перенастроится. На рисунке 4.5 показан  процесс настройки автомата.

Самообучение

           Пример, показывающий, что автомат, первоначально необученный начинает играть лучше учителя. Игра "крестики-нолики". Для удобства примем, что учитель играет ноликами и всегда делает первый ход. Соответственно, крестиками играет автомат. Допустим, что в первый раз автомат проиграл.Поэтому вероятность всех переходов ведущих к проигрышу уменьшается. На поле 3x3, через 20-30 партий, автомат будет, как минимум, сводить все игры к ничьей. Подробнее

Характер обучения

           Можно ли придать характер обучению, т.е. придать автоматам некоторые индивидуальные черты, внести разнообразие. Допустим, автомат хочет    жениться и главными критериями его решения является такие параметры как  наличие квартиры и умение готовить. x = f ( y1; y2 ), где x – выходное решение, y1,y2 - входные сигналы (пусть y1 - наличие квартиры, y2 - умение готовить). Все переменные принимают одно из трех значений {0, 0.5, 1},   т.е. "нет", "вроде да, а может быть и нет", "да".

 y1                       

y2

                     x

0

0

0

0

0

0

0

0.5

0

0

0

1

0

1

0

0

0

1

0.5

0

0

0

0

1

0.5

0.5

0.5

0

0

1

0.5

1

0.5

0

0

1

1

0

0

0

0

1

1

0.5

0.5

0

0.5

1

1

1

1

1

1

1

min(y1,y2)

крайний

пессимист

умеренный

пессимист

оптимист

           Самое устойчивое общество: 40% бесстрастных; 40% умеренных пессимистов; 20% умеренных оптимистов.

      

     рис.4.6

     


 

А также другие работы, которые могут Вас заинтересовать

82837. Вооруженные силы РФ на современном этапе 162.5 KB
  Конфронтация между Востоком и Западом уступила место партнерству. Наметилась важная позитивная тенденция создания европейской системы коллективной безопасности. Произошли и другие положительные сдвиги.
82838. Функціоналізм в американській психології 112.5 KB
  На відміну від структуралізму, який виник в Європі та поширилася на Сполучені Штати, функціоналізм виник на американському грунті. Однією з передумов його виникнення була дарвінівська теорія еволюції, що опанувала розумами як у Європі, так і в Америці в кінці XIX ст.
82839. Вода в організмі людини: роль і вміст 61 KB
  Кожна жива клітка організму людини містить цілющий водний розчин різних живильних речовин. В цілому організм людини перебуває на 86–50 з води 86 у новонародженого і 50 у старого. Значення води в житті людини визначається тими функціями і тією величезною часткою яку вона займає в загальній...
82840. Медицина в средние века 34.72 KB
  В течении всего средневекового периода природа оставалась закрытой книгой. Как доказательство, приводят совершенное отсутствие в средние века гигиены, как в частных жилищах, так и вообще в городах, а так же свирепствования в течение всего этого периода убийственных эпидемии чумы...
82841. Стан природи і настрій людини в поезіях Лесі Українки. Розповідь про життя і творчість поетеси. Вірш «Давня весна» 49 KB
  Розширити поглибити й узагальнити знання учнів про дитячі роки поетеси її творчість; викликати емоційне сприйняття; розкрити вплив природи на настрій і почуття поетеси удосконалювати вміння порівнювати; знаходити і пояснювати метафори; розвивати виразність читання; образне мислення уяву.
82842. Леся Українка (стаття). Леся Українка. Вірш «Мамо, іде вже зима» 71 KB
  Тип уроку: комбінований. Обладнання: портрет Лесі Українки виставка видань її книжок підручник картки із завданнями магнітофон проектор мультимедійна дошка презентація до уроку. До уроку додається слайдова презентація яка стимулює пізнавальну активність учнів.
82843. Развитие речи. Толерантность. Деформированный текст с творческим заданием 36.5 KB
  Какие три слова стали законом в семье где царили мир и согласие Любовь прощение терпение Всё это можно назвать одним словом Толерантность запишем его Толерантность II. Наверно это слово было вам незнакомо но в современном мире вы не раз его услышите поэтому сегодня на уроке мы познакомимся...
82844. Склонение имен существительных 37 KB
  Цель: Закреплять умения склонять существительные по падежам; познакомить учащихся с несклонеяемыми именами существительными; развивать внимание, мышление, орфографическую зоркость, память; воспитывать интерес к изучению русского языка, любовь к природе, трудолюбие.