23602

Автоматический морфологический анализ. Соотношение словаря и анализа

Доклад

Иностранные языки, филология и лингвистика

Автоматический морфологический анализ. Соотношение словаря и анализа. Автоматический морфологический анализ АМА анализ отдельно взятой словоформы и всех тех сведений которые из нее можно извлечь безотносительно к тому относятся ли эти сведения к морфологии или нет. АМА определяется двумя факторами: 1 тип ЕЯ подвергаемого анализу 2 тип алгоритма авт.

Русский

2013-08-16

12.5 KB

9 чел.

2. Автоматический морфологический анализ.  Соотношение словаря и анализа.

Автоматический морфологический анализ (АМА)- анализ отдельно взятой словоформы и всех тех сведений, которые из нее можно извлечь безотносительно к тому, относятся ли эти сведения к морфологии или нет.

АМА определяется двумя факторами:

1) тип ЕЯ, подвергаемого анализу

2) тип алгоритма авт. обработки текста

МА начинается с поиска входного слова в словаре и с членения словоформы на составляющие ее морфемы.

Общая схема морфологического анализа:

1. Общие правила (управляющий алгоритм

2. Список (таблицы) суффиксов

3. Список (таблицы) информации к суффиксам

4. Список нестандартных операций (нестандартная запись)

5. Обработка омонимичных основ

Важен тип входного словаря. Учитывая  связь МА со словарем можно выделить следующие группы МА:

1. морфологический анализ со словарем словоформ: каждой словоформе приписывается определенная информация (слово отыскивается. информация извлекается)

2. морфологический анализ со словарем основ (проблемы: анализ найденных в словаре форм, как отождествить разные словоформы одного и того же слова)

сравнение словоформы на полное совпадение  -> нет -> словоформа = основа + окончание. В задачу МА входит разрешение синонимии и омонимии основ

3. МА методом логического умножения (Варга)

Каждой морфеме сопоставляется информация, полученная в результате объединения информации о словоформах, в которые входит данная морфема. Информация о словоформе получается как пересечение или логическая конъюнкция (&) информации о морфемах. входящих в данную словоформу.  Тем самым функция. определенная на множестве словоформ. заменяется на функцию, определенную на множестве морфем.  Такой анализ производится при наличии словаря основ и применяется к флективным языкам. каждой букве соответствует булевый вектор (есть 1, нет 0).  перемножая эти векторы выходят на категорию.

4. независимый МА без словаря словоформ.

Максимальное использование информации о флексиях во флективных языках. выделяются грамматические морфемы (флексии, предлоги, союзы, знаки препинания между словами - все элементы. передающие связи слов во фразе.

Группа флексий, характеризующаяся одинаковым набором грамм. отношений. которые они могут передавать, образует морфему.

флексии, входящие в одну морфему, называются алломорфами, т.е. морфемными синонимами.  Задача алгоритма состоит в том, чтобы по взаимному расположению алломорфов отнести каждую флексию к ее морфеме.  С этой целью строятся специальные словари: словари флексий, словари слов, не несущих грамм. инф. (наречий и т.п.).  Способ имеет ограниченной применение.


 

А также другие работы, которые могут Вас заинтересовать

3815. Печать русской православной Церкви: традиции и перспективы 84.5 KB
  Печать русской православной Церкви: традиции и перспективы Конец 80-х – начало 90-х годов нашего столетия стало началом возрождения системы печати Русской православной церкви. Причем ее становление происходит с использованием богатого опыта изд...
3816. Цикличность развития рыночной экономики 125 KB
  Введение Цикличность экономического развития и ее причины Экономический рост — это не плавный, равномерно совершающийся подъём. В движении общественного производства есть годы, когда рост общего объема производства происходит очень быстро...
3817. Национальная модель социальной защиты Республики Беларусь 118 KB
  Введение Социальная защита населения является первоочередной задачей для большинства стран мира. В мировой практике насчитывается большое количество моделей социальной защиты, которые отличаются друг от друга источниками финансирования, способами по...
3818. Построение робототехнических и автоматизированных линий и комплексов на мебельном предприятии 1.05 MB
  Введение Успешное мебельное производство предполагает предварительный глубокий анализ всех его составных частей, современных тенденций и процессов. Не менее важно знать, в чем конкретно состоит влияние того или иного составляющего на весь комплекс в...
3819. Классификация тесных двойных систем. Алгоритм ZET 88 KB
  Введение Изучение фотометрических и абсолютных элементов тесных двойных систем, находящихся на разных стадиях эволюции, представляет большой интерес с точки зрения статистического исследования этих систем, изучения строения Галактики, а также теории...
3820. Теоретические основы экономического анализа инвестиционных проектов 392.5 KB
  Теоретические основы экономического анализа инвестиционных проектов. Прежде чем рассматривать вопросы анализа инвестиционных проектов необходимо дать краткое понятие инвестиций. Инвестиции- вложение капитала с целью его последующего увеличени...
3821. История и развитие радиотехники 45.5 KB
  История и развитие радиотехники Предметом электронной техники является теория и практика применения электронных, ионных и полупроводниковых приборов в устройствах, системах и установках для различных областей народного хозяйства. Гибкость электронно...
3822. Исследование обнаруживающей и исправляющей способности циклических кодов. 198.5 KB
  Исследование обнаруживающей и исправляющей способности циклических кодов. Цель работы. Ознакомление с методами построения корректирующих кодов. Экспериментальное исследование обнаруживающей и исправляющей способности циклических кодов. Описание лабо...
3823. Анализ эффективности работы современного коммерческого банка 394 KB
  Баланс, доходы и расходы банка На основе качественного распределения активов и использования метода сравнения определяются пропорции между счетами, выявляются тенденции в их изменении и оценивается, в какой мере эти динамические изменения и откло...