8139

Обучение с подкреплением. Пассивное обучение. Активное обучение.

Лекция

Информатика, кибернетика и программирование

Обучение с подкреплением. Пассивное обучение. Активное обучение. Задача обучения с подкреплением состоит в том, чтобы обеспечить использование наблюдаемых вознаграждений для определения в процессе обучения оптимальной стратегии для данной среды. Пре...

Русский

2013-02-04

41 KB

8 чел.

Обучение с подкреплением.

Пассивное обучение. Активное обучение.

Задача обучения с подкреплением состоит в том, чтобы обеспечить использование наблюдаемых вознаграждений для определения в процессе обучения оптимальной стратегии для данной среды.

Предполагается, что среда является полностью наблюдаемой, поэтому информация о текущем состоянии поступает с результатами каждого восприятия. Обычно рассматривают три проекта агентов:

  •  Агент, действующий с учетом полезности, определяет с помощью обучения функцию полезности состояния и использует ее для выбора действий, которые максимизируют ожидаемую полезность результата;
  •  Агент, действующий по принципу Q-обучения, определяет с помощью обучения функцию “действие-значение”, или Q-функцию, получая сведения об ожидаемой полезности выполнения данного конкретного действия в данном конкретном состоянии.
  •  Рефлексный агент определяет с помощью обучения стратегию, которая непосредственно отображает состояния в действия.

Пассивное обучение с подкреплением

При таком виде обучения стратегия агента остается неизменной, а задача состоит в том, чтобы определить с помощью обучения полезности состояний (или пар “состояние-действие”). Для этого может также потребоваться определение с помощью обучения модели среды. Задача пассивного обучения аналогична задаче оценки стратегии, которая является частью алгоритма итерации по стратегиям. Пассивный обучающийся агент не знает модели перехода T(s,a,s), которая определяет вероятность достижения состояния s из состояния s после выполнения действия a; он также не знает функцию вознаграждения R(s), которая задает вознаграждение для каждого состояния.

Существует простой метод непосредственной оценки полезности, идея которого состоит в том, что полезностью данного конкретного состояния является ожидаемое суммарное вознаграждение, связанное с действиями, выполняемыми, начиная с этого состояния, а каждая попытка представляет собой выборку этого значения для каждого посещенного состояния. Таким образом, в конце каждой последовательности алгоритм вычисляет наблюдаемое будущее вознаграждение для каждого состояния и обновляет соответствующим образом оценку полезности для этого состояния путем ведения текущего среднего значения для каждого состояния. В пределе, после выполнения бесконечного количества попыток, среднее по выборкам сходится к значению истинного ожидания.

Очевидно, что непосредственная оценка полезности представляет собой один из видов контролируемого обучения, в котором каждый пример задает состояние в качестве входных данных, а наблюдаемое будущее вознаграждение – в качестве выходных. Это означает, что данный метод позволяет свести обучение с подкреплением к стандартной задаче индуктивного обучения. Однако в этом методе не учитывается тот факт, что полезности состояний не являются независимыми. Дело в том, что полезность каждого состояния равна сумме его собственного вознаграждения и ожидаемой полезности его состояний-преемников. Данный метод можно рассматривать как поиск в пространстве гипотез, которое имеет размеры намного большие, чем необходимо, поскольку включает также много функций, которые нарушают уравнения Беллмана. По этой причине данный алгоритм часто сходится очень медленно.

Активное обучение с подкреплением

Пассивный обучающийся агент руководствуется постоянно заданной стратегией, которая определяет его поведение, а активный агент должен сам принимать решение о том, какие действия следует предпринять. Прежде всего, агенту потребуется определить с помощью обучения полную модель с вероятностями результатов для всех действий, а не просто модель для заданной стратегии. Затем необходимо принять в расчет тот факт, что агент должен осуществлять выбор из целого ряда действий. Полезности, которые ему потребуются для обучения, определяются оптимальной стратегией и подчиняются уравнениям Беллмана:

U(s) = R(s) + maxs    U(s’)

Эти уравнения могут быть решены для получения функции полезности U с помощью алгоритмов итерации по значениям или итерации по стратегиям. Последняя задача состоит в определении того, что делать на каждом этапе. Получив функцию полезности U, оптимальную для модели, определяемой с помощью обучения, агент может извлечь информацию об оптимальном действии, составляя одношаговый прогноз для максимизации ожидаемой полезности. Еще один вариант состоит в том, что если используется итерация по стратегиям, то оптимальная стратегия уже известна, поэтому агент должен просто выполнить действие, рекомендуемое согласно оптимальной стратегии.

Однако может оказаться, что выбор оптимального действия приводит к неоптимальным результатам. Причиной этого может быть то, что модель, определяемая с помощью обучения, не является такой же, как истинная среда; поэтому то, что оптимально в модели, определяемой с помощью обучения, может оказаться неоптимальным в истинной среде. Поэтому агент должен искать компромисс между потреблением полученных результатов для максимизации своего вознаграждения (что отражается в его текущих оценках полезностей) и исследованием среды для максимизации своего долговременного благосостояния.


 

А также другие работы, которые могут Вас заинтересовать

39881. Разработка web-сайта ОАО Алейскзернопродукт имени С.Н. старовойтова 3.11 MB
  Выполняя дипломную работу я разобрался в том, что необходимо знать и уметь для создания Web-сайта, какое программное обеспечение является инструментарием создания Web-сайта и как эффективно его использовать. Мною изучен язык Web-программирования – HTML, который является общепринятым стандартом WWW.
39882. Разработка сайта ГОУ СПО Краснодарского торгово-экономического колледжа 11.59 MB
  При помощи сайта можно: передать всю необходимую информацию о колледже и о специальностях в том числе самые последние новости; наладить прямой контакт с абитуриентами и студентами например в форуме и с помощью блицопросов; современно разрекламировать колледж так чтобы иметь одновременно зрелищность телевизионной рекламы и информативность буклета. Таким образом целью дипломного проектирования является разработка сайта для Краснодарского торговоэкономического колледжа. Назначение и цели создания сайта В основе дипломной работы лежат...
39883. Создание Web-страниц 625.5 KB
  Объект исследования: наиболее подходящая программа для создания Webстраниц. Цель работы: создание Webстраниц. В дипломной работе выполнено: обзор программ для создания Webстраниц; сравнительный анализ Macromedia Dreamweaver и Front Page; описан процесс создания и разработки современного сайта; оценка экономической целесообразности использования персонального компьютера; правила охраны труда на рабочем месте оператора компьютерного набора и верстки. Webсайт Htmlпрограммирование ДИЗАЙН САЙТА FRONT PAGE MACROMEDIA DREAMWEAVER.
39884. Разработать принципиальную схему и текст программы контроллера на основе микропроцессора КР580 42 KB
  Алгоритмическое проектирование Процесс Основной Начало подается 0 на Селектор считывания температуры в основной камере Считывается значение температуры с Заданная температура в основной камере под 1 на Селектор считывания температуры в основной камере М1: сравнивается Заданное значение температуры в основной камере и Значение температуры в основной камере если больше то прыг на М2 иначе подается 0 на Включение основной камеры прыг на М1 М2: ожидаем 2 мин.5 часа то Авария М3: сравнивается Заданное значение температуры в морозильной...
39885. ОФОРМЛЕНИЕ ОБЯЗАТЕЛЬНЫХ УЧЕБНЫХ ДОКУМЕНТОВ 636.5 KB
  2 Примечания следует помещать непосредственно после текстового графического материала или таблицы к которым относятся эти примечания и печатать с прописной буквы с абзаца. Примечание к таблице помещают в конце таблицы над линией обозначающей окончание таблицы. Ссылки на подразделы пункты таблицы и иллюстрации не допускаются за исключением подразделов пунктов таблиц и иллюстраций данного документа Ссылка заключается в квадратные скобки [ ] содержит порядковой номер документа в СПИСКЕ ЛИТЕРАТУРЫ указание страниц. Сноски помещают с...
39886. Разработка программного обеспечения для ведения финансовой отчетности Кировской территориальной избирательной комиссии 309 KB
  Во всех территориальных избирательных комиссиях на постоянной штатной основе работают председатели в Мурманской территориальной избирательной комиссии в связи с большим числом избирателей на штатной основе работает и секретарь главные бухгалтеры. Кроме того для обеспечения передачи данных о ходе проводимых избирательных кампаний в вышестоящие избирательные комиссии председателям территориальных избирательных комиссий оперативно подчиняются системные администраторы ГАС Выборы работающие в аппарате Комиссии области. Для обеспечения...
39887. Разработать на основе МПК I8085 контроллер управления, обеспечивающий и поддерживающий определенную температуру (точность: плюс/минус 0.1 С) в холодильной камере, в зависимости от вида продукции для хранения 204.08 KB
  3 Постановка задачи4 Структурная схема устройства5 Общая схема алгоритма.6 Функциональная схема8 Детальная схема алгоритма. Структурная организация устройства Общая схема алгоритма Основная программа Х1: 1 значение с датчиков равно значению с переключателей; 0 не равно; Х2: 1 значение датчика больше чем значение переключателей; 0 меньше: Рис. Общая схема алгоритма работы устройства.
39888. Прохождение практики на Предприятии ОАО «Апатит» 177.73 KB
  Служба эксплуатации контрольноизмерительных приборов и автоматики КИП и А выполняет следующие функции: метрологический надзор; техническое обслуживание; ремонт и настройку контрольноизмерительных приборов и приборов автоматического управления. Цех КИП и А выполняет такие наиболее ответственные работы как ремонт и поверка приборов эксплуатация сложных систем автоматики и др. Внедряет новые системы автоматики осуществляет техническое руководство группами эксплуатации приборов КИП и А в других цехах предприятия организует...
39889. ОПРЕДЕЛЕНИЕ РАВНОВЕСНОЙ ТЕМПЕРАТУРЫ ВОЗДУХА В ОХЛАЖДАЕМОМ ПОМЕЩЕНИИ (НА ПРИМЕРЕ НИЗКОТЕМПЕРАТУРНЫХ ПРИЛАВКОВ И ШКАФОВ) 6.31 MB
  При включении холодильной машины в охлаждаемом помещении устанавливается температура ниже температуры наружного окружающего помещение воздуха. при балансе: При наступлении равновесия между теплопритоками и теплоотводом в камере установится определенная температура называемая равновесной температурой. Не будет теплопритока от грузов и в случае если это камера длительного хранения куда грузы заложены уже давно и их температура стала равна температуре в охлаждаемом помещении. Для ограждения не подверженного действию солнечной радиации:...