23597

Синтаксический анализ

Доклад

Иностранные языки, филология и лингвистика

При использовании синтаксического анализа происходит интерпретация отдельных частей высказывания а не всего высказывания в целом. Деревья анализа и свободноконтекстные грамматики. Большинство способов синтаксического анализа реализовано в виде деревьев. Свободноконтекстная грамматика широко используется в машинных языках и с ее помощью созданы высокоэффективные методы анализа.

Русский

2013-08-05

184 KB

1 чел.

Синтаксический анализ. При использовании синтаксического анализа происходит интерпретация отдельных частей высказывания, а не всего высказывания в целом. Обычно сначала производится полный синтаксический анализ, а затем строится внутренне представление введенного текста, либо производится интерпретация.

Деревья анализа и свободно-контекстные грамматики. Большинство способов синтаксического анализа реализовано в виде деревьев. Одна из простейших разновидностей - свободно-контекстная грамматика, состоящая из правил типа S=NP+VP или VP=V+NP и полагающая, что левая часть правила может быть заменена на правую без учета контекста. Свободно-контекстная грамматика широко используется в машинных языках, и с ее помощью созданы высокоэффективные методы анализа. Недостаток этого метода - отсутствие запрета на грамматически неправильные фразы, где, например, подлежащее не согласовано со сказуемым в числе. Для решения этой проблемы необходимо наличие двух отдельных, параллельно работающих грамматик: одной - для единственного, другой - для множественного числа. Кроме того, необходима своя грамматика для пассивных предложений и т.д. Семантически неправильное предложение может породить огромное количество вариантов разбора, из которых один будет превращен в семантическую запись. Всё это делает количество правил огромным и, в свою очередь, свободно-контекстные грамматики непригодными для NLP.

Трансформационная грамматика. Трансформационная грамматика была создана с учетом упомянутых выше недостатков и более рационального использования правил ЕЯ, но оказалась непригодной для NLP. Трансформационная грамматика создавалась Хомским как порождающая, что, следовательно, делало очень затруднительным обратное действие, т.е. анализ.

Расширенная сеть переходов. Расширенная сеть переходов была разработана Бобровым (Bobrow), Фрейзером (Fraser) и во многом Вудсом (Woods) как продолжение идей синтаксического анализа и свободно-контекстных грамматик в частности. Она представляет собой узлы и направленные стрелки, “расширенные” (т.е. дополненные) рядом тестов (правил), на основании которых выбирается путь для дальнейшего анализа. Промежуточные результаты записываются в ячейки (регистры). Ниже приводится пример такой сети, позволяющей анализировать простые предложения всех типов (включая пассив), состоящие из подлежащего, сказуемого и прямого дополнения, таких, как The rabbit nibbles the carrot (Кролик грызет морковь). Обозначения у стрелок означают номер теста, а также либо признаки, аналогичные применяемым в свободно-контекстных грамматиках (NP), либо конкретные слова (by). Тесты написаны на языке LISP и представляют собой правила типа если условие=истина, то присвоить анализируемому слову признак Х и записать его в соответствующую ячейку.

Разберем алгоритм работы сети на вышеприведенном примере. Анализ начинается слева, т. е. с первого слова в предложении. Словосочетание the rabbit проходит тест, который выясняет, что оно не является вспомогательным глаголом (Aux, стрелка 1), но является именной группой (NP, стрелка 2). Поэтому the rabbit кладется в ячейку Subj, и предложение получает признак TypeDeclarative, т.е. повествовательное, и система переходит ко второму узлу. Здесь дополнительный тест не требуется, поскольку он отсутствует в списке тестов, записанных на LISP. Следовательно, слово, стоящее после the rabbit - т. е. nibbles - глагол-сказуемое (обозначение V на стрелке), и nibbles записывается в ячейку с именем V. Перечеркнутый узел означает, что в нем анализ предложения может в принципе закончиться. Но в нашем примере имеется еще и дополнение the carrot, так что анализ продолжается по стрелке 6 (выбор между стрелками 5 и 6 осуществляется снова с помощью специального теста), и словосочетание the carrot кладется в ячейку с именем Obj. На этом анализ заканчивается (последний узел был бы использован в случае анализа такого пассивного предложения, как The carrot was nibbled by the rabbit). Таким образом, в результате заполнены регистры (ячейки) Subj, Type, V и Obj, используя которые, можно получить какое-либо представление (например, дерево).

Расширенная сеть переходов имеет свои недостатки:

немодульность;

сложность при модификации, вызывающая непредвиденные побочные эффекты;

хрупкость (когда единственная неграмматичность в предложении делает невозможным дальнейший правильный анализ);

неэффективность при переборе с возвратами, т.к. ошибки на промежуточных стадиях анализа не сохраняются;

неэффективность с точки зрения смысла, когда с помощью полученного синтаксического представления оказывается невозможным создать правильное семантическое представление.


 

А также другие работы, которые могут Вас заинтересовать

38705. МЕТОДЫ И СРЕДСТВА ПОРОЖДЕНИЯ СЕМАНТИЧЕСКИХ КОНСТРУКЦИЙ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ИНТЕРФЕЙСОВ ПРОГРАММНЫХ СИСТЕМ 2.35 MB
  Представление слов языка и проблема полисемии. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода. Проблемы создания языка описания семантики. ПРИНЦИП ОБЪЕКТНЫХ ОПРЕДЕЛЕНИЙ КАК ОСНОВА КЛАССИФИКАЦИИ ЕДИНИЦ ЯЗЫКА.
38706. ПСИХОЛОГИЧЕСКИЕ ОСОБЕННОСТИ ПРОФЕССИОНАЛЬНОГО ОТЧУЖДЕНИЯ ПЕДАГОГОВ 1.21 MB
  При этом известные в науке механизмы изменения и утраты профессиональной идентичности педагогов не отражают полностью реальных процессов, зависящих от всей совокупности социальных (а не только профессиональных склонностей и способностей) условий и собственного опыта профессионала, а также не описывают психологические особенности профессионально отчуждённой личности.
38707. Стратегия повышения конкурентоспособности ЗАО «Вемол» Верещагинского муниципального района Пермского края 9.86 MB
  3 Исследование мирового и российского рынка молочной продукции.2 Рынок молочной продукции Пермского края 67 2.3 Современные риски и угрозы в производстве молочной продукции. В настоящее время все большее количество исследователей уделяют внимание вопросам изучения конкурентоспособности продукции отдельных компаний городов регионов стран технологий работников и даже документов и нормативных актов.
38708. Построение обобщенных моделей Марковица, а также разработка методов оптимизации портфеля по этим моделям 1.48 MB
  Развитие математической модели нечеткой случайной величины для решения задач портфельного анализа. В первой главе диссертации развивается модель нечеткой случайной величины разработанная в работе [72]. Основное внимание направлено на представление нечеткой случайной величины и разработку исчисления позволяющего оценивать основные числовые характеристики нечеткой случайной величины: ожидаемое значение коэффициенты ковариации и дисперсию. Определение нечеткой случайной величины.
38709. ЛИНГВОСТАТИСТИЧЕСКОЕ ИССЛЕДОВАНИЕ И ЛЕКСИКОГРАФИЧЕСКОЕ ОПИСАНИЕ ЮРИДИЧЕСКОЙ ТЕРМИНОЛОГИИ В НЕСПЕЦИАЛЬНОЙ СФЕРЕ ИСПОЛЬЗОВАНИЯ 2.51 MB
  Грамматические категории юридических терминов и словосочетаний58 2. ПРИНЦИПЫ СОСТАВЛЕНИЯ ЧАСТОТНОГО СЛОВАРЯ ЮРИДИЧЕСКИХ ТЕРМИНОВ ИЗ ПРОИЗВЕДЕНИЙ ДЖ. О модели частотного словаря юридических терминов из произведений Дж.178 ПРИЛОЖЕНИЕ 2: Частотный словарь юридических терминов из произведений Дж.
38710. ДЕРМАТОСКОПИЯ В РАННЕЙ ДИАГНОСТИКЕ И СКРИНИНГЕ МЕЛАНОМЫ КОЖИ 401 KB
  Барсуков Актуальность темы Несмотря на то что частота МК составляет лишь 35 от всех первичных злокачественных опухолей кожи она относится к категории наиболее агрессивных опухолей метастазирующих как лимфогенным так и гематогенным путем Давыдов М. Нет четкого представления о дифференциальнодиагностических критериях доброкачественных и злокачественных пигментированных новообразований кожи. Цель исследования Разработка метода неинвазивной ранней диагностики МК на основе комплексного использования цифровой и Zoomфотографии кожи...
38711. ФОРМИРОВАНИЕ НАЛОГОВЫХ ДОХОДОВ ГОСУДАРСТВЕННОГО СЕКТОРА 743.5 KB
  Налоги — один из древнейших финансовых институтов. Их возникновение связано с возникновением и становлением государственности. Известно, что в VII—VI вв. до н. э. в Древней Греции уже были введены налоги на доходы в размере десятой или двадцатой части доходов. В понятии «налог» переплелись не только экономический и философский смысл, но и конкретная форма правовых взаимоотношений
38712. МЕТОД ТЕПЛОВОГО РАСЧЕТА БОЛЬШИХ КОСМИЧЕСКИХ ТЕЛЕСКОПОВ И ЕГО ПРОГРАММНАЯ РЕАЛИЗАЦИЯ 4.57 MB
  ЛЕБЕДЕВА На правах рукописи Шаенко Александр Юрьевич МЕТОД ТЕПЛОВОГО РАСЧЕТА БОЛЬШИХ КОСМИЧЕСКИХ ТЕЛЕСКОПОВ И ЕГО ПРОГРАММНАЯ РЕАЛИЗАЦИЯ Специальность 05.3] МЕТОД ТЕПЛОВОГО РАСЧЕТА [0. Существующие программные комплексы теплового расчета предназначены в основном для расчета космических аппаратов с небольшим разбросом температур. Прямая реализация расчета космических аппаратов с большим разбросом температур и сложной геометрической конфигурацией по классической вычислительной схеме приводит к необходимости использовать суперЭВМ в то время как...
38713. Определение биохимических и фармакокинетических свойств эритроцитов-переносчиков антрациклиновых антибиотиков 236.5 KB
  Преимущества использования нагруженных антрациклиновыми антибиотиками эритроцитов по сравнению со стандартными формами этих препаратов показаны в ряде экспериментов на культурах клеток и на животных [Zocchi 1988 1989 Bentti 1989 Gudreult 1989 tullkhnov 1992 1994]. Описаны случаи использования эритроцитов нагруженных доксорубицином в ветеринарии [Mtherne 1994] а также единичные случаи применения их в клинической практике [Tonetti 1992 tullkhnov 1997 Куликова 1998]. Однако несмотря на обнадеживающие результаты существует проблема...