8139

Обучение с подкреплением. Пассивное обучение. Активное обучение.

Лекция

Информатика, кибернетика и программирование

Обучение с подкреплением. Пассивное обучение. Активное обучение. Задача обучения с подкреплением состоит в том, чтобы обеспечить использование наблюдаемых вознаграждений для определения в процессе обучения оптимальной стратегии для данной среды. Пре...

Русский

2013-02-04

41 KB

8 чел.

Обучение с подкреплением.

Пассивное обучение. Активное обучение.

Задача обучения с подкреплением состоит в том, чтобы обеспечить использование наблюдаемых вознаграждений для определения в процессе обучения оптимальной стратегии для данной среды.

Предполагается, что среда является полностью наблюдаемой, поэтому информация о текущем состоянии поступает с результатами каждого восприятия. Обычно рассматривают три проекта агентов:

  •  Агент, действующий с учетом полезности, определяет с помощью обучения функцию полезности состояния и использует ее для выбора действий, которые максимизируют ожидаемую полезность результата;
  •  Агент, действующий по принципу Q-обучения, определяет с помощью обучения функцию “действие-значение”, или Q-функцию, получая сведения об ожидаемой полезности выполнения данного конкретного действия в данном конкретном состоянии.
  •  Рефлексный агент определяет с помощью обучения стратегию, которая непосредственно отображает состояния в действия.

Пассивное обучение с подкреплением

При таком виде обучения стратегия агента остается неизменной, а задача состоит в том, чтобы определить с помощью обучения полезности состояний (или пар “состояние-действие”). Для этого может также потребоваться определение с помощью обучения модели среды. Задача пассивного обучения аналогична задаче оценки стратегии, которая является частью алгоритма итерации по стратегиям. Пассивный обучающийся агент не знает модели перехода T(s,a,s), которая определяет вероятность достижения состояния s из состояния s после выполнения действия a; он также не знает функцию вознаграждения R(s), которая задает вознаграждение для каждого состояния.

Существует простой метод непосредственной оценки полезности, идея которого состоит в том, что полезностью данного конкретного состояния является ожидаемое суммарное вознаграждение, связанное с действиями, выполняемыми, начиная с этого состояния, а каждая попытка представляет собой выборку этого значения для каждого посещенного состояния. Таким образом, в конце каждой последовательности алгоритм вычисляет наблюдаемое будущее вознаграждение для каждого состояния и обновляет соответствующим образом оценку полезности для этого состояния путем ведения текущего среднего значения для каждого состояния. В пределе, после выполнения бесконечного количества попыток, среднее по выборкам сходится к значению истинного ожидания.

Очевидно, что непосредственная оценка полезности представляет собой один из видов контролируемого обучения, в котором каждый пример задает состояние в качестве входных данных, а наблюдаемое будущее вознаграждение – в качестве выходных. Это означает, что данный метод позволяет свести обучение с подкреплением к стандартной задаче индуктивного обучения. Однако в этом методе не учитывается тот факт, что полезности состояний не являются независимыми. Дело в том, что полезность каждого состояния равна сумме его собственного вознаграждения и ожидаемой полезности его состояний-преемников. Данный метод можно рассматривать как поиск в пространстве гипотез, которое имеет размеры намного большие, чем необходимо, поскольку включает также много функций, которые нарушают уравнения Беллмана. По этой причине данный алгоритм часто сходится очень медленно.

Активное обучение с подкреплением

Пассивный обучающийся агент руководствуется постоянно заданной стратегией, которая определяет его поведение, а активный агент должен сам принимать решение о том, какие действия следует предпринять. Прежде всего, агенту потребуется определить с помощью обучения полную модель с вероятностями результатов для всех действий, а не просто модель для заданной стратегии. Затем необходимо принять в расчет тот факт, что агент должен осуществлять выбор из целого ряда действий. Полезности, которые ему потребуются для обучения, определяются оптимальной стратегией и подчиняются уравнениям Беллмана:

U(s) = R(s) + maxs    U(s’)

Эти уравнения могут быть решены для получения функции полезности U с помощью алгоритмов итерации по значениям или итерации по стратегиям. Последняя задача состоит в определении того, что делать на каждом этапе. Получив функцию полезности U, оптимальную для модели, определяемой с помощью обучения, агент может извлечь информацию об оптимальном действии, составляя одношаговый прогноз для максимизации ожидаемой полезности. Еще один вариант состоит в том, что если используется итерация по стратегиям, то оптимальная стратегия уже известна, поэтому агент должен просто выполнить действие, рекомендуемое согласно оптимальной стратегии.

Однако может оказаться, что выбор оптимального действия приводит к неоптимальным результатам. Причиной этого может быть то, что модель, определяемая с помощью обучения, не является такой же, как истинная среда; поэтому то, что оптимально в модели, определяемой с помощью обучения, может оказаться неоптимальным в истинной среде. Поэтому агент должен искать компромисс между потреблением полученных результатов для максимизации своего вознаграждения (что отражается в его текущих оценках полезностей) и исследованием среды для максимизации своего долговременного благосостояния.


 

А также другие работы, которые могут Вас заинтересовать

21485. ПОКАЗАНИЯ К НЕОТЛОЖНОЙ ПОМОЩИ У ОБОЖЖЕННЫХ 187 KB
  положительных высевов из крови вторичных септических очагов что подтверждает примат метаболических нарушений в патогенезе развития осложнений при тяжелом ожоговом поражении.ЛЕЧЕНИЕ ОЖОГОВОГО ШОКА Принципиальным направлением в лечении гиповолемического ожогового шока в первые часы является двуединая задача: восполнение объема циркулирующей крови с одновременной регидратацией интерстициального пространства что достигается интенсивным введением глюкозосолевых растворов. На фоне проводимой инфузионной терапии должна выполняться базовая...
21486. Категорії моральної свідомості і моральної самосвідомості 97.5 KB
  Вони виражають особливість моральнісного життя суспільства, особистості і виступають критерієм оцінки самих різноманітних вчинків, оскільки синтезують знання про реальність моральнісного життя з одного боку і бажане й належне з іншого. В історії філософії першу систему категорій запропонував Аристотель. Категорії тлумачились ним, як форми і структури упорядкування буття і найзагальніші ідеї
21487. Правовые и этические проблемы анестезиологии и реанимации 35 KB
  Для осущетсвления своевременной и полной коррекции метаболических сдвигов необходимы следующие мероприятия: общий анализ крови и мочи определение ЦВД исследование сыворотки крови на калий натрий хлориды осмотичность цельной крови на рО2 рСО2 рН азот мочевины гематокрит глюкозу. Из обычных лабораторных показателей наиболее показательны данные красной крови Эр Нв Нt и показатели общего белка. Если показатели красной крови свидетельствуют о явлениях гемоконцентрации необходимо стремиться к снижению этих показателей то уровень...
21488. ПРАКТИЧЕСКИЕ РЕКОМЕНДАЦИИ ДЛЯ ПРОВЕДЕНИЯ СЕАНСОВ ГБО ПРИ НЕКОТОРЫХ КРИТИЧЕСКИХ СОСТОЯНИЯХ 46.8 KB
  В процессе проведения компрессии обычно наблюдается увеличение сукровичного пятна на повязках связанное с усилением оттока раневого отделяемого. Для осущетсвления своевременной и полной коррекции метаболических сдвигов необходимы следующие мероприятия: общий анализ крови и мочи определение ЦВД исследование сыворотки крови на калий натрий хлориды осмотичность цельной крови на рО2 рСО2 рН азот мочевины гематокрит глюкозу. Из обычных лабораторных показателей наиболее показательны данные красной крови Эр Нв Нt и показатели...
21489. ПРОЕКТ ПРОТОКОЛА ЛЕЧЕНИЯ БОЛЬНЫХ С ЧЕРЕПНО-МОЗГОВОЙ ТРАВМОЙ 56.5 KB
  Основной Целью данного протокола является улучшение результатов лечения больных с ЧМТ за счет внедрения в практику наиболее эффективных методик лечения данной категории больных. Одним из основных критериев адекватности терапии является качество жизни (уровень социальной адаптации) пациента после выписки из стационара. Параллельно с основной цепью предполагается решение следующих задач...
21490. Побудова і технологічне планування приміщень магазинів 55.69 KB
  Торгові приміщення є основними в магазині. До таких приміщень відносяться: торгові зали магазинів; відділ замовлень; зал кафетерію; приміщення або площі додаткового обслуговування покупців (місця відпочинку покупців, приміщення для розкрою тканин і ін.).
21491. Реаниматологическая помощь при термической травме 21 KB
  При комбинированной травме показаниями к проведению ВЧВВ легких через микротрахеостому у таких пострадавших должны быть: 1) поражение дыхательных путей продуктами горения легкой степени + ожог верхних дыхательных путей
21492. СЕПСИС И СЕПТИЧЕСКИЙ ШОК 120 KB
  Кандидат медицинских наук старший преподаватель подполковник медицинской службы Журавлев В.:Медицина1991. 5 2Введение Сепсис остается сложной медицинской проблемой и на се годняшний день продолжает быть одной из ведущих причин ле тальности несмотря на современные открытия в патогенезе этого заболевания и принципах его лечения.
21493. СОДЕРЖАНИЕ ЭЛЕКТРОЛИТОВ И ОСМОТИЧЕСКАЯ КОНЦЕНТРАЦИЯ НЕКО 31.5 KB
  Например Американская коллегия врачей и общество критической медицины США придер живаются терминологии выработанной на совместной конферен ции по определению общих критериев при различных формах те чения сепсиса слайд N1: 1Определения сепсиса и связанных с ним нарушений ┌─────────────────┬───────────────────────────────────────────┐ │Термин │ Определение │ ├─────────────────┼───────────────────────────────────────────┤ │Септициемия...