45433

Модель обучения на примере автоматов с линейной тактикой. Автомат с переменной структурой

Доклад

Коммуникация, связь, радиоэлектроника и цифровые приборы

Автомат с переменной структурой. Рациональность поведения автомата в детерминированной стохастической стационарной и нестационарной среде. Автомат с линейной тактикой рис.

Русский

2013-11-17

124.5 KB

10 чел.

  1.  Модель обучения на примере автоматов с линейной тактикой. Автомат с переменной структурой. Рациональность поведения автомата в детерминированной, стохастической стационарной и нестационарной среде. Программная реализация

Механизмы обучения

           Цель - построить техническую систему, реализующую механизм обучения и  самообучения. Система должна реализовать не худшую способность к обучению,  чем живое существо. Для этого требуется исследовать, как обучаются живые существа.

Естественные объекты

      

     рис.3.1

           Рассмотрим T - образный лабиринт (рисунок 3.1). В него заводится  зверюшка. Заранее она не знает, что ожидает в каждой из сторон лабиринта, пища или удар электрического тока (поощрение или наказание). Опыт повторяется многократно. Сначала справа всегда была пища, а слева ток.  Зверюшка бежала случайно только первые несколько раз, затем она обучалась и шла к пище. Опыт усложнили: теперь еда и наказание были в обеих частях лабиринта, но выбирались они с определенной постоянной вероятностью.

      Справа Р = 0.4, слева - 0.9, где Р - вероятность штрафа. Вмест  детерминированной среды зверюшка попадала в вероятностную  детерминированную среду. В результате опыта зверюшка шла направо – она улавливала как рационально поступать в новых условиях. Затем её поместили  вероятностную недетерминированную среду, т.е. в вероятность штрафа стал изменяться во времени.

     P(t). Зверюшка переучивалась и здесь.

      

     рис.3.2

           Для нерационального поведения характерно то, что выбор направления осуществляется случайно. С равными вероятностями зверюшка может убежать и направо, и налево: M = 0.5*0.9 + 0.5*0.4 = 0.65 Для рационального поведения: M = 0*0.9 + 1*0.4 = 0.4 Способность к обучению можно измерят   рациональностью поведения. E = (Pл,Pп), где E -среда, Pл,Pп - вероятности  наказания средой при действиях d1,d2 соответственно. В нашем случае d1 -  пойти налево, d2 - пойти направо. Среда двухкомпонентная, т.к. возможны  только два действия.

      Задача: спроектировать техническое устройство, с целесообразным поведением

     в заранее неизвестной среде.

Автомат с линейной тактикой

      

     рис.3.3

          

Автомат реализует три действия d1,d2, d3. Трехкомпонентная среда.   Пусть среда ведет себя следующим образом: E = (0.9, 0.0001, 0.8). Если  среда штрафует, то мы всплываем (из глубины лепестка), если поощряет, то уходим в глубь лепестка. Пусть первоначальным состоянием автомата было  одно из состоянии в лепестке d1. Т.к. вероятность штрафа здесь довольно велика (0.9), то спустя некоторое время автомат перейдет в состояние,  находящееся в d3, и будет оставаться там продолжительное время. То есть  автомат ведет себя наилучшим образом в заранее неизвестной среде.

Автомат описывается парой чисел. Первое - количество действий автомата, и второе - глубина лепесткa (q). Приведенный автомат описывается как (3,4).  q - базовый параметр, аналог инертности. Чем q больше, тем целесообразнее   ведет себя автомат. У человека q находится в пределах от 3 до 5. Чем q  больше, тем хуже объект приспосабливается к часто меняющейся среде. Для нестационарной среды лучше аппараты с меньшим q, для стационарной с  большим q.

Доверчивый автомат (автомат Кринского)

     рис.3.4

          Введен нюанс темперамента. Действует так же, как предыдущий.

Осторожный автомат Крылова

           Автомат с линейной тактикой, но при поощрениях доверяет не сразу, а с вероятностью 0.5 определяет верить или нет поощрению. Можно построить нецелесообразный автомат. Например, "Иван-дурак" - автомат с двумя действиями (плакать и смеяться) и глубиной - 1.

      

     рис.3.5

Какая глубина лучше?

На рисунке 3.6 показан график зависимости целесообразности от глубин с учетом частоты изменения среды. Лучше всего настраивать величину q в   зависимости от среды.

      

     рис.3.6

Коллектив автоматов

      

     рис.3.7

           Дано поле ресурсов. В каждой клетке - автомат с линейной тактикой (4,4). Для определенности оставим 10 автоматов. Автомат может   реализовывать следующие действия: остаться на месте, пойти вправо, пойти влево, пойти вверх (вниз).

      1) Если автоматы останутся, как были, то вместе получат 1*100 + 9*40 = 460 единиц. Цена игры:

         460/10 = 46 ед. Но т.к. один получает 100, а другие по 40, то это   заставит автоматы перебегать с одного     места в другое. Состояние неустойчивое.

      2) Другая, более устойчивая конфигурация, когда два автомата сидят на "хлебной" клетке. Все вместе     получат: 2*50 + 8*40 = 420; цена игры 420/10 = 42 ед;

           С точки зрения общественной выгоды - лучше первая ситуация, т.к. в среднем "на душу населения" получен более высокий результат. Но с точки  зрения индивидуальной выгоды - лучше вторая ситуация. Первая получил название игры Мора, вторая - игры Нэша. Устойчивый коллектив тот, где каждый руководствуется собственной выгодой.

           Но можно ли сыграть в устойчивую игру Мора? Т.е. получитьмаксимальную общественную выгоду, при этом сохраняя устойчивое состояние.  Для этого требуется сыграть в игру с общей кассой: все играют в игру Мора,  но затем всё делится поровну.

           Если автоматы имеют большой q, то им выгоднее играть в игру Мора,  т.к. они более инерционные; и наоборот - если q низкий, то в игру Нэша т.к. они более активные.

      

     рис.3.8

          Но все ли среды имеют подобные свойства? Есть среды, которые не    подчиняются вышеприведенным выводам.

            


           рис.3.9                                                    рис.3.10

          На рисунке 3.9 - сбор грибов. На рисунке 3.10 - охота на лося.

           Пример: Имеется 2 производственных участка, на которых занято 100 рабочих. Задача - разместить их по участкам наилучшим образом, т.е. найти  соотношение x : y. Экономическая ситуация на 1 участке: 400x - 0,02x2 =  Sx; на втором - 280y - 0,4y2= Sy, где x - количество рабочих на первом участке, y - на втором, Sx,y - получаемый доход с участков.

           Пояснение: Отрицательный член символизирует ограничение на фронт работ, много индивидуумов мешают друг другу. Коэффициент при x и y показывает на возможности заработка одним индивидуумом и зависит от свойств среды (участка).

          Рассмотрим варианты:

          Вариант A {80,20}

           Участок                         1                2

           Количество рабочих  x=80         y=20

           Заработанная сумма Sx=21760 Sy=5440

           Общая заработанная сумма S=27200

           Средняя зарплата 276276

           Т.к. средняя заработная плата на участках одинакова, рабочие не будут  переходить с одного участка на другой. Мы будем иметь устойчивое  состояние. Игра Нэша.

          B -{51,49}

           Участок                         1              2

           Количество рабочих  x=51        y=49

           Заработанная сумма Sx=17748  Sy=12740

           Общая заработанная сумма S=30488

           Средняя зарплата 348260

           Эта ситуация более выгодна в общественном смысле (денег получено больше). Но из-за того, что средняя заработная плата неодинакова (при   переходе со второго участка на первый индивидуум получит дополнительно за туже работу 88 рублей), то ситуация не будет устойчивой. Игра Мора.   Цетлин: "Неравенство в оплате эквивалентно выгоде общественного интереса."

           Но если нужно одновременно совместить максимум общественного дохода игры Мора и устойчивость игры Неша, то требуется следовать правилам игры с  общей кассой: все играют в игру Мора, но затем всё собирается в общую  кассу и делится на всех.

Aвтомат с переменной структурой

           В автомате с линейной структурой одним из основных параметров  является глубина лепестка - q. В нестационнарной среде q должно быть    небольшим; в стационарной - наоборот. Требуется построить автомат, который   бы сам определял для себя величину q.

            

           рис.4.1

            

           рис.4.2

            

           рис.4.3

            

           рис.4.4

            

           рис.4.5

На рисунке 4.1 изображен автомат с линейной тактикой (2;2). Сплошными стрелками изображены переходы при поощрениях, штрих  пунктирными - при штрафах. Автомат детерминированный. Матрицы его  переходов показаны на рисунке 4.2. На рисунке 4.3 необученный, недетерминированный автомат. В нем переходы от одного состояния в другое случайны и равновероятны. Процесс перехода от недерминированнного автомата к детерминированному и есть процесс обучения.  Пусть автомат случайно перешел из состояния 1 в состояние 4, и среда его поощрила. В этом случае он увеличивает вероятность такого перехода. На рисунке 4.4 показана матрица переходов в начальном  состоянии и после первого воздействия. Первоначально матрица переходов имеет равные значения вероятностей переходов (по 0,25). Но  далее у невыгодного перехода вероятность уменьшается, а других  вариантов перехода вероятности увеличивают за его счет. То есть автомат уменьшает вероятность перехода, когда среда его оштрафовала и увеличивает в обратном случае. Через некоторое время автомат от недетерминированного перейдет к детерминированному. Сам собой определится параметр q. Автомат сам настроится. Если среда поменяет  условия игры, то автомат перенастроится. На рисунке 4.5 показан  процесс настройки автомата.

Самообучение

           Пример, показывающий, что автомат, первоначально необученный начинает играть лучше учителя. Игра "крестики-нолики". Для удобства примем, что учитель играет ноликами и всегда делает первый ход. Соответственно, крестиками играет автомат. Допустим, что в первый раз автомат проиграл.Поэтому вероятность всех переходов ведущих к проигрышу уменьшается. На поле 3x3, через 20-30 партий, автомат будет, как минимум, сводить все игры к ничьей. Подробнее

Характер обучения

           Можно ли придать характер обучению, т.е. придать автоматам некоторые индивидуальные черты, внести разнообразие. Допустим, автомат хочет    жениться и главными критериями его решения является такие параметры как  наличие квартиры и умение готовить. x = f ( y1; y2 ), где x – выходное решение, y1,y2 - входные сигналы (пусть y1 - наличие квартиры, y2 - умение готовить). Все переменные принимают одно из трех значений {0, 0.5, 1},   т.е. "нет", "вроде да, а может быть и нет", "да".

 y1                       

y2

                     x

0

0

0

0

0

0

0

0.5

0

0

0

1

0

1

0

0

0

1

0.5

0

0

0

0

1

0.5

0.5

0.5

0

0

1

0.5

1

0.5

0

0

1

1

0

0

0

0

1

1

0.5

0.5

0

0.5

1

1

1

1

1

1

1

min(y1,y2)

крайний

пессимист

умеренный

пессимист

оптимист

           Самое устойчивое общество: 40% бесстрастных; 40% умеренных пессимистов; 20% умеренных оптимистов.

      

     рис.4.6

     


 

А также другие работы, которые могут Вас заинтересовать

29497. ЧЕЛОВЕК, ТОЛПА И МАССА В ОБЩЕСТВЕННОМ МНЕНИИ 104.5 KB
  В частности это относится к пугающему одних и ободряющему других в зависимости от позиции представлению о всемогуществе масскоммуникативного влияния на массовую аудиторию на массового человека. В конечном счете это приводит к одной из граней извечной проблемы общественного человека: как и насколько может и желает человек поддаваться давлению коммуникативных средств массового поражения. О генезисе массового общества С.
29498. ВОЗВРАЩАЯСЬ К ПРОБЛЕМЕ СОЦИАЛЬНОЙ ЭЛИТЫ 141.5 KB
  Но каждое время то есть каждая социальная ситуация выбирает поддерживает пестует продвигает подходящий для нее тип человека. Если на поверхности советской системы находился человек послушнокарьерный то с ее распадом на переднем плане в политической жизни бизнесе медиа социальнонаучной сфере и около них оказался человек ловкий ориентированный на ближайший успех и не связанный ни ценностными ни социальногрупповыми рамками ответственности. Массовый человек ориентируется практически не на те звездные образцы политкумиров...
29499. «СРЕДНИЙ ЧЕЛОВЕК»: ФИКЦИЯ ИЛИ РЕАЛЬНОСТЬ 102 KB
  В соответствии с такой исследовательской ориентацией предметом рассмотрения прежде всего становится человек как респондент массового исследования а лишь затем возникает проблема социальногрупповой типологии. в рамках исследовательской программы Советский человек. Средний показатель I высшая 1 1 1 1 1 1 1 II 1 1 1 1 1 1 1 III 3 4 3 2 3 3 3 IV 6 5 6 4 7 6 5 V 21 20 24 21 19 19 20 VI 17 11 15 14 13 13 12 VII 18 13 14 16 16 15 15 VIII 12 16 15 15 16 18 15 IX 9 11 10 10 10 10 9 X низшая 8 17 13 16 15 14 14 Средний статус 626 697 675...
29500. ИНДИКАТОРЫ И ПАРАДИГМЫ КУЛЬТУРЫ В ОБЩЕСТВЕННОМ МНЕНИИ 109 KB
  Нужен какойто переход к теоретическому уровню анализа построению работоспособных гипотез и моделей культуры или как было предложено Т. Исходное предположение состоит в том что получаемые исследователями в массовых опросах глубоких интервью статистике данные относятся к состоянию видимых терминалов скрытого от невооруженного глаза сложного и в определенном смысле целостного механизма культуры. Перемены социальные и культурные: разные шкалы времени Понятно что все феномены и процессы культуры могут существовать реально только в...
29501. ФЕНОМЕН ВЛАСТИ В ОБЩЕСТВЕННОМ МНЕНИИ: ПАРАДОКСЫ И СТЕРЕОТИПЫ ВОСПРИЯТИЯ 123.5 KB
  При этом за пределами внимания остаются особенности представлений о природе и функциях власти присущие массовому сознанию современного общества. Необходимые разграничения В нашем общественном мнении обычно слабо различаются механизмы и функции власти структура властных институтов роли и действия конкретных лиц наделенных властью. Многочисленные опросные данные относительно доверия к социальным институтам регулярно публикуемые в журнале Мониторинг показывают существенные различия в отношении населения к власти федерального центра и...
29502. ИНДЕКСЫ СОЦИАЛЬНЫХ НАСТРОЕНИЙ В «НОРМЕ» И В КРИЗИСЕ 164 KB
  В последнее время большую международную известность приобрел индекс потребительских настроений который в нашей стране разрабатывается группой ИПНРоссия на основе регулярных мониторинговых исследований ВЦИОМ; его результаты широко освещаются в периодической печати в том числе в журнале Мониторинге общественного мнения2. По аналогичным методикам могут быть построены как частные так и сводный индексы социальных настроений и установок. По своей методологической природе любой сконструированный индекс величина искусственно полученная в...
29503. ПРОБЛЕМА ЭМОЦИОНАЛЬНОГО БАЛАНСА ОБЩЕСТВА 182.5 KB
  Высказанные им соображения о методологической слабости психологической трактовки распространенных в исследованиях общественного мнения в том числе и проведенных ВЦИОМ перечней различных страхов представляются вполне правомерными. Представляется полезным обсудить особенности природы и функций социальных страхов различных типов в их соотношении с другими компонентами эмоционального поля общества например интересами радостями позитивными оценками и переживаниями. Первое и важнейшее различение с которым приходится сталкиваться при...
29504. «ЧЕЛОВЕК СОВЕТСКИЙ» ПЯТЬ ЛЕТ СПУСТЯ: 1989-1994 (Предварительные итоги сравнительного исследования) 86 KB
  ВЦИОМ провел обширное исследование Советский человек результаты которого составили основу коллективной монографии2. было осуществлено новое исследование направленное на выявление изменений в установках ценностях нормативных структурах поведения человека в условиях социальных перемен и потрясений прошедшего периода. В первом исследовании было опрошено 2700 человек в нескольких республиках СССР в том числе 1325 человек в России во втором 3000 человек в различных регионах России.
29505. ВОЗВРАЩАЯСЬ К ФЕНОМЕНУ «ЧЕЛОВЕКА СОВЕТСКОГО»: проблемы методологии анализа 89 KB
  Все это совершенно новые типы ориентаций не имеющие аналогов и корней в советской реальности или в традиционных характеристиках человека советского. В условиях продолжающегося кризиса государственно-политических институтов общества не только важнейшими показателями его состояния но в значительной мере и условием социального выживания являются именно те нормативные и ценностные структуры которые действуют на уровне социального человека то есть те которые интериоризированы в структуре усвоенных им ориентаций и рамок восприятия...