8138

Статистические методы обучения. Обучение с полными данными. Метод максимального правдоподобия. Обучение байесовских сетей

Лекция

Информатика, кибернетика и программирование

Статистические методы обучения. Обучение с полными данными. Метод максимального правдоподобия. Обучение байесовских сетей. Основными понятиями при использовании статистических методов обучения продолжают оставаться данные и гипотезы, но данные рассм...

Русский

2013-02-04

65.5 KB

15 чел.

Статистические методы обучения. Обучение с полными данными. Метод максимального правдоподобия.

Обучение байесовских сетей.

Основными понятиями при использовании статистических методов обучения продолжают оставаться данные и гипотезы, но данные рассматриваются как свидетельства, то есть конкретизации случайных переменных, описывающих проблемную область, а гипотезы представляют собой вероятностные теории того, как функционирует проблемная область.

Рассмотрим простой пример. На кондитерской фабрике выпускаются леденцы двух разновидностей –  вишневые и лимонные, которые заворачиваются в одинаковые фантики и упаковываются в очень большие внешне неразличимые пакеты, относящиеся к следующим пяти типам:

h1: 100% вишневых леденцов,

h2: 75% вишневых + 25% лимонных леденцов,

h3: 50% вишневых + 50% лимонных леденцов,

h4: 25% вишневых + 75% лимонных леденцов,

h5: 100% лимонных леденцов.

Работник ОТК должен определить, к какому типу относится предоставленный на контроль пакет, которому соответствует случайная переменная H, принимающая значение от h1 до h5. По мере развертывания конфет регистрируются данные о них D1, D2, …. Dn, где Di – случайная переменная, принимающая значение из множества {cherry, lime}. Работник ОТК должен предсказать к какой разновидности относится следующая выбираемая конфета.

В баесовском обучении исходя из полученных данных вычисляется вероятность каждой гипотезы и делается предсказание. Пусть переменная D представляет все данные с наблюдаемым значением d, тогда вероятность каждой гипотезы может быть определена с помощью правила Байеса:

P(hi|d) = P(d|hi) P(hi)

Пусть необходимо сделать предсказание в отношении неизвестного количества X. В таком случае применяется следующее уравнение:

P(X|d) = =

где предполагается, что каждая гипотеза определяет распределение вероятностей по X. Это уравнение показывает, что предсказания представляют собой взвешенные средние по предсказаниям отдельных гипотез. Сами гипотезы, по сути, являются “посредниками” между фактическими данными и предсказаниями. Основными количественными показателями в байесовском подходе являются распределение априорных вероятностей гипотезы P(hi) и правдоподобие данных согласно каждой гипотезе P(d|hi).

Предположим, что изготовитель объявил о наличии распределения априорных вероятностей по значениям h1, …,h5, которое задано вектором {0.1, 0.2, 0.4, 0.2, 0.1). Правдоподобие данных рассчитывается в соответствии с предположением, что наблюдения являются независимыми и одинаково распределенными, поэтому соблюдается следующее уравнение:

P(d|hi) =

Например, если в действительности пакет содержит только лимонные леденцы (h5) и все первые 10 конфет являются лимонными леденцами, то значение P(d|h3) равно 0.510, поскольку в пакете типа h3 половина конфет – лимонные леденцы. Априори наиболее вероятным вариантом является гипотеза h3 и остается таковой после развертывания 1 конфеты с лимонным леденцом. После развертывания 2 конфет с лимонными леденцами наиболее вероятной становится гипотеза h4, а после обнаружения 3 или больше лимонных леденцов наиболее вероятной становится гипотеза h5. баесовская вероятность того, что следующий леденец будет лимонным, согласно уравнению для P(X|d) монотонно увеличивается до 1.

Данный пример показывает, что истинная гипотеза в конечном итоге будет доминировать над байесовским предсказанием. При любом заданном распределении априорных вероятностей, которое не исключает с самого начала истинную гипотезу, апостериорная вероятность любой сложной гипотезы в конечном итоге полностью исчезает.

В реальных задачах обучения пространство гипотез обычно является очень большим или бесконечным, поэтому приходится вместо прямого вычисления суммы для P(x|d) (или, в непрерывном случае, интегрирования) приходится прибегать к приближенным или упрощенным методам.

Упрощение может быть достигнуто путем предсказаний на основе единственной наиболее вероятной гипотезы, т.е. той гипотезы hi, которая максимизирует значение P(hi|d). Такую гипотезу hmap называют максимально апостериорной. Предсказания, сделанные на основе такой гипотезы, являются приближенно байесовскими до такой степени, что P(X|d) = P(X|hmap). В примере hmap = h5 после обнаружения 3 лимонных леденцов подряд.

Упрощение может быть также достигнуто, например, путем принятия предположения о равномерном распределении априорных вероятностей по пространству гипотез. В этом случае обучение с помощью максимально апостериорной гипотезы сводится к выбору гипотезы hi, которая максимизирует значение P(d|hi). Такая гипотеза называется гипотезой с максимальным правдоподобием. Это – приемлемый подход, применяемый в тех обстоятельствах, когда нет оснований априорно отдавать предпочтение одной гипотезе перед другой. Такой метод обучения становится хорошей аппроксимацией байесовского обучения и обучения с помощью максимально апостериорной гипотезы, когда набор данных имеет большие размеры, поскольку сами данные исправляют распределение априорных вероятностей по гипотезам, но связан с возникновением определенных проблем при использовании небольших наборов данных.


 

А также другие работы, которые могут Вас заинтересовать

33848. Характеристика западной философии 16.81 KB
  Эти же вопросы являются предметом исследования и других форм общественного сознания в частности и философии. Теология как одна из форм выражения религиозного сознания имеет ряд специфических черт которые отличают ее от философии. Проблема соотношения философии и теологии возникла в первые века существования христианства и несостоятельная своей актуальности до наших дней.
33849. Особенности развития русской философии 20.54 KB
  В качестве самостоятельного духовного явления о русской философии может идти речь начиная с конца XVIII начала XIX в. Первые известные за пределами России представители русской православной философии В. Дальнейшее развитие русской философии связано с тремя основными направлениями: психологическим рефлексология Бехтерева и Павлова теософскомистическим в лице русского космизма Е.
33850. Профессиональные заболевания медицинских работников 64.94 KB
  Медицинские работники занимают пятое место по распространенности профессиональной заболеваемости, опережая даже работников химической промышленности. Данные исследований, проведенных десятки лет назад и в последние десятилетия, убедительно свидетельствуют о том, что многие заболевания у медицинских работников являются профессиональными...
33851. ФИЛОСОФИЯ РУССКОГО КОСМИЗМА 13.87 KB
  Именно в космизме ставятся проблемы о космосе и человеке выдвигается положение о том что конец этого мира конец истории зависит и от творческого акта человека. необходимости нового сознательного развития мира когда человечество направляет его в ту сторону в какую диктует ему разум и нравственное чувство. Речь по существу идет о расширении прав сознательнодуховных сил об управлении духом материи об одухотворении мира и человека.
33852. Диалектика — учение о всеобщей связи и развитии 15.96 KB
  Они всегда влияют определенным образом друг на друга завцЬят друг от друга то есть находятся во взаимной связи и обусловленности. В поле зрения каждой из них находятся определенные предметы и явления а следовательно и определенные связи между ними. В социальных науках раскрываются разнообразные связи и зависимости различных общественных явлений например связь политики и экономики государства интересов различных классов и их экономического положения воздействие географической среды плотности населения и других явлений на темпы развития...
33853. Многозначность понятия природы 15.47 KB
  Природа может пониматься либо как абстракция либо как потенция либо как акт. Всякий раз следует обращать внимание на указанные обстоятельства при рассмотрении того или иного значения термина природа. Концепции природы до множества ипостасей одного вида: природаобразец и логос природы: 1 Природаобразец реально существующая до множества ипостасей данного вида а после их появления отдельно от нихт. Тождественна платоновской идееОтметим что в данном значении термин природа не имел скольнибудь распространённого применения в...
33854. Духовные ценности и их роль в воспитании и образовании 14.12 KB
  Если предметные ценности выступают как объекты потребностей и интересов человека то ценности сознания выполняют двоякую функцию: они суть самостоятельная сфера ценностей и основание критерий оценки предметных ценностей. Особенностью высших ценностей выступает также и то что они составляют стержень культуры определенного народа фундаментальные отношения и потребности людей: общечеловеческие мир жизнь человечества ценности общения дружба любовь доверие семья социальные ценности представления о социальной справедливости свободе...
33855. Человечество 15.75 KB
  Человечество становится единым целым в ходе отношений в эпоху открытия мирового рынка. повсеместные охватывают все челво; от решения этих проблем зависит существование челва; решение требует усилий больва челва.Угрозы: Экологические катастрофы; Деградация челва; Мировая война. Человек биологический вид и ему необходимы привычные условия обитания.
33856. Системный анализ общества и исторического процесса 14.58 KB
  Философия была бы неполной и односторонней если бы она абстрагировалась от человека а значит и от общества ограничивая свои интересы исследованием ненаселенной людьми природы. Все это превращает системное философскосоциологическое осмысление общества и исторического процесса в абсолютно необходимую и притом органически составную часть философии. Сегодня ясно что без природы как базиса у общества нет будущего.