23602

Автоматический морфологический анализ. Соотношение словаря и анализа

Доклад

Иностранные языки, филология и лингвистика

Автоматический морфологический анализ. Соотношение словаря и анализа. Автоматический морфологический анализ АМА анализ отдельно взятой словоформы и всех тех сведений которые из нее можно извлечь безотносительно к тому относятся ли эти сведения к морфологии или нет. АМА определяется двумя факторами: 1 тип ЕЯ подвергаемого анализу 2 тип алгоритма авт.

Русский

2013-08-16

12.5 KB

9 чел.

2. Автоматический морфологический анализ.  Соотношение словаря и анализа.

Автоматический морфологический анализ (АМА)- анализ отдельно взятой словоформы и всех тех сведений, которые из нее можно извлечь безотносительно к тому, относятся ли эти сведения к морфологии или нет.

АМА определяется двумя факторами:

1) тип ЕЯ, подвергаемого анализу

2) тип алгоритма авт. обработки текста

МА начинается с поиска входного слова в словаре и с членения словоформы на составляющие ее морфемы.

Общая схема морфологического анализа:

1. Общие правила (управляющий алгоритм

2. Список (таблицы) суффиксов

3. Список (таблицы) информации к суффиксам

4. Список нестандартных операций (нестандартная запись)

5. Обработка омонимичных основ

Важен тип входного словаря. Учитывая  связь МА со словарем можно выделить следующие группы МА:

1. морфологический анализ со словарем словоформ: каждой словоформе приписывается определенная информация (слово отыскивается. информация извлекается)

2. морфологический анализ со словарем основ (проблемы: анализ найденных в словаре форм, как отождествить разные словоформы одного и того же слова)

сравнение словоформы на полное совпадение  -> нет -> словоформа = основа + окончание. В задачу МА входит разрешение синонимии и омонимии основ

3. МА методом логического умножения (Варга)

Каждой морфеме сопоставляется информация, полученная в результате объединения информации о словоформах, в которые входит данная морфема. Информация о словоформе получается как пересечение или логическая конъюнкция (&) информации о морфемах. входящих в данную словоформу.  Тем самым функция. определенная на множестве словоформ. заменяется на функцию, определенную на множестве морфем.  Такой анализ производится при наличии словаря основ и применяется к флективным языкам. каждой букве соответствует булевый вектор (есть 1, нет 0).  перемножая эти векторы выходят на категорию.

4. независимый МА без словаря словоформ.

Максимальное использование информации о флексиях во флективных языках. выделяются грамматические морфемы (флексии, предлоги, союзы, знаки препинания между словами - все элементы. передающие связи слов во фразе.

Группа флексий, характеризующаяся одинаковым набором грамм. отношений. которые они могут передавать, образует морфему.

флексии, входящие в одну морфему, называются алломорфами, т.е. морфемными синонимами.  Задача алгоритма состоит в том, чтобы по взаимному расположению алломорфов отнести каждую флексию к ее морфеме.  С этой целью строятся специальные словари: словари флексий, словари слов, не несущих грамм. инф. (наречий и т.п.).  Способ имеет ограниченной применение.


 

А также другие работы, которые могут Вас заинтересовать

80411. СОВЕРШЕНСТВОВАНИЕ КОРПОРАТИВНОЙ КУЛЬТУРЫ ОГАНИЗАЦИИ (НА ПРИМЕРЕ ООО «СТАРЫЙ СОЛДАТ») 353 KB
  Актуальность темы исследования. Корпоративная культура - это междисциплинарное направление исследований, которое находится на стыке нескольких областей знания, таких как менеджмент, управление персоналом, организационное поведение, социология, психология, культурология.
80412. Фандрейзинг как приоритет деятельности Отдела развития театра 1.1 MB
  В связи с ростом дефицита бюджета последовательно проводится политика сокращения («защищенных статей» сметы театров. Предусмотренный в законе порядок финансирования государственных и муниципальных театров на практике не соблюдается, государственное финансирование организаций культуры...
80413. Система видеонаблюдения пространственно разнесенных объектов 2.27 MB
  Цель работы - спроектировать линейную часть системы видеонаблюдения пространственно разнесённых объектов. Проанализированы различные сетевые модели систем видеонаблюдения разработана структурная схема системы видеонаблюдения пространственно разнесенных объектов рассчитаны основные параметры разработанной системы.
80414. Становление отечественной оперы во II половине XVIII века 279.5 KB
  Среди всех отраслей русского искусства XVIII столетия именно музыка оказалась надолго и прочно забытой. Огромным препятствием здесь было прежде всего отсутствие многих музыкальных памятников и общее состояние музыкальных архивов.
80415. Уголовно-правовая характеристика незаконного оборота наркотиков в России и зарубежных странах 296 KB
  В 2003 г. в России употребляли наркотики около 4 млн человек. Только около 500 тысяч человек обратились в медучреждения за помощью. На учете в медучреждениях находилось только 15-20% от числа людей, употребляющих наркотики. 80% употребляющих наркотики – это люди в возрасте 18-39 лет.
80416. Разработка технологии сборки и сварки кольцевых швов кожуха газификационной установки 1.23 MB
  Сварочная техника и технология занимает одно из ведущих мест в современном производстве. Развитие техники и технологии предъявляет все новые требования к способам производства и, в частности к технологии сварки. Сегодня свариваются материалы, которые еще относительно недавно считались экзотическими.
80418. Теоретико-методичні підходи і практичні рекомендацій щодо удосконалення системи управління капіталом ТОВ «ПАО» 1.64 MB
  Розвиток ринкових відносин та інтеграція України у світове економічне співтовариство потребують нових підходів до управління економікою як на макрорівні, так і на рівні окремих підприємств. Особливого значення набувають проблеми створення таких механізмів управління фінансами підприємств...