23597

Синтаксический анализ

Доклад

Иностранные языки, филология и лингвистика

При использовании синтаксического анализа происходит интерпретация отдельных частей высказывания а не всего высказывания в целом. Деревья анализа и свободноконтекстные грамматики. Большинство способов синтаксического анализа реализовано в виде деревьев. Свободноконтекстная грамматика широко используется в машинных языках и с ее помощью созданы высокоэффективные методы анализа.

Русский

2013-08-05

184 KB

1 чел.

Синтаксический анализ. При использовании синтаксического анализа происходит интерпретация отдельных частей высказывания, а не всего высказывания в целом. Обычно сначала производится полный синтаксический анализ, а затем строится внутренне представление введенного текста, либо производится интерпретация.

Деревья анализа и свободно-контекстные грамматики. Большинство способов синтаксического анализа реализовано в виде деревьев. Одна из простейших разновидностей - свободно-контекстная грамматика, состоящая из правил типа S=NP+VP или VP=V+NP и полагающая, что левая часть правила может быть заменена на правую без учета контекста. Свободно-контекстная грамматика широко используется в машинных языках, и с ее помощью созданы высокоэффективные методы анализа. Недостаток этого метода - отсутствие запрета на грамматически неправильные фразы, где, например, подлежащее не согласовано со сказуемым в числе. Для решения этой проблемы необходимо наличие двух отдельных, параллельно работающих грамматик: одной - для единственного, другой - для множественного числа. Кроме того, необходима своя грамматика для пассивных предложений и т.д. Семантически неправильное предложение может породить огромное количество вариантов разбора, из которых один будет превращен в семантическую запись. Всё это делает количество правил огромным и, в свою очередь, свободно-контекстные грамматики непригодными для NLP.

Трансформационная грамматика. Трансформационная грамматика была создана с учетом упомянутых выше недостатков и более рационального использования правил ЕЯ, но оказалась непригодной для NLP. Трансформационная грамматика создавалась Хомским как порождающая, что, следовательно, делало очень затруднительным обратное действие, т.е. анализ.

Расширенная сеть переходов. Расширенная сеть переходов была разработана Бобровым (Bobrow), Фрейзером (Fraser) и во многом Вудсом (Woods) как продолжение идей синтаксического анализа и свободно-контекстных грамматик в частности. Она представляет собой узлы и направленные стрелки, “расширенные” (т.е. дополненные) рядом тестов (правил), на основании которых выбирается путь для дальнейшего анализа. Промежуточные результаты записываются в ячейки (регистры). Ниже приводится пример такой сети, позволяющей анализировать простые предложения всех типов (включая пассив), состоящие из подлежащего, сказуемого и прямого дополнения, таких, как The rabbit nibbles the carrot (Кролик грызет морковь). Обозначения у стрелок означают номер теста, а также либо признаки, аналогичные применяемым в свободно-контекстных грамматиках (NP), либо конкретные слова (by). Тесты написаны на языке LISP и представляют собой правила типа если условие=истина, то присвоить анализируемому слову признак Х и записать его в соответствующую ячейку.

Разберем алгоритм работы сети на вышеприведенном примере. Анализ начинается слева, т. е. с первого слова в предложении. Словосочетание the rabbit проходит тест, который выясняет, что оно не является вспомогательным глаголом (Aux, стрелка 1), но является именной группой (NP, стрелка 2). Поэтому the rabbit кладется в ячейку Subj, и предложение получает признак TypeDeclarative, т.е. повествовательное, и система переходит ко второму узлу. Здесь дополнительный тест не требуется, поскольку он отсутствует в списке тестов, записанных на LISP. Следовательно, слово, стоящее после the rabbit - т. е. nibbles - глагол-сказуемое (обозначение V на стрелке), и nibbles записывается в ячейку с именем V. Перечеркнутый узел означает, что в нем анализ предложения может в принципе закончиться. Но в нашем примере имеется еще и дополнение the carrot, так что анализ продолжается по стрелке 6 (выбор между стрелками 5 и 6 осуществляется снова с помощью специального теста), и словосочетание the carrot кладется в ячейку с именем Obj. На этом анализ заканчивается (последний узел был бы использован в случае анализа такого пассивного предложения, как The carrot was nibbled by the rabbit). Таким образом, в результате заполнены регистры (ячейки) Subj, Type, V и Obj, используя которые, можно получить какое-либо представление (например, дерево).

Расширенная сеть переходов имеет свои недостатки:

немодульность;

сложность при модификации, вызывающая непредвиденные побочные эффекты;

хрупкость (когда единственная неграмматичность в предложении делает невозможным дальнейший правильный анализ);

неэффективность при переборе с возвратами, т.к. ошибки на промежуточных стадиях анализа не сохраняются;

неэффективность с точки зрения смысла, когда с помощью полученного синтаксического представления оказывается невозможным создать правильное семантическое представление.


 

А также другие работы, которые могут Вас заинтересовать

39455. Создание качественных каналов связи на направлении Витебск – Браслав – Глубокое 217 KB
  В состав аппаратуры ИКМ120 входят аналогоцифровое оборудование формирования стандартных первичных цифровых потоков АЦО оборудование вторичного временного группообразования ВВГ оконечное оборудование линейного тракта ОЛТ необслуживаемые регенерационные пункты НРП. Оконечное оборудование линейного тракта обеспечивает согласование выхода оборудования ВВГ с линейным трактом дистанционное питание НРП телеконтроль и сигнализацию о состоянии линейного тракта служебную связь между оконечными и промежуточными...
39456. Цифровое представление и цифровая обработка информации с применением средств вычислительной техники 352 KB
  кабель прокладываемый вдоль данной автомобильной дороги и необслуживаемыерегенерационные пункты НРП.2 Расчет длин регенерационных участков Размещение необслуживаемых регенерационных пунктов НРП вдоль кабельной ЛП осуществляется в соответствии с номинальной длиной регенерационного участка РУ для проектируемой СП. блоки линейных регенераторов в НРП не содержат искусственных линий ИЛ. Подставляя числовые значения в формулы 3 и 4 и округляя результат до целого числа определяем количество регенерационных участков: на секции ОП1ПВ:...
39457. Создание качественных каналов передачи и связи по направлению МИНСК-Барановичи-Брест 425 KB
  Расчетная частота кГц 17186 Номинальное затухание участка регенерации дБ 65 Номинальное значение тока ДП мА 200 Допустимое отклонение тока ДП мА 10 Допустимые значения напряжения ДП В 1300В650В относительно земли Максимальное расстояние ОРПОРП 200 км Максимальное число НРП между ОРП 66 Максимальное число НРП в полу секции ДП 33 Комплекс аппаратуры третичной ЦСП ИКМ480 предназначен для организации на внутризоновых и магистральной сетях связи пучков каналов по кабелю МКТ4 с парами 12 46 мм.1 Стойка оборудования линейного...
39459. Разработка рекомендаций по улучшению и совершенствованию корпоративной культуры в ООО АКБ-Сервис 1 MB
  Культура фирмы - не синоним понятия “климат”. Культура сама предполагает климат, ценности, стиль, взаимоотношения в данной организации. В ее понятие входят: некие постоянно повторяющиеся характеристики поведения людей
39460. Опрос как один из видов социологического исследования. Виды опросов. Понятие выборки 16.67 KB
  Метод опроса очень популярен, так как его легко организовать, это дешево, информация всегда содержательна. Негативные факторы: личность опрашиваемого (он не всегда обладает хорошей памятью, высоким уровнем культуры), качества самого социолога (он может не найти контакт с опрашиваемым), присутствие посторонних, несоблюдение анонимности.
39461. ЦИФРОВЫЕ И МИКРОПРОЦЕССОРНЫЕ УСТРОЙСТВА. МЕТОДИЧЕСКИЕ УКАЗАНИЯ 10.72 MB
  Цифровые и микропроцессорные устройства : методические указания и задания к курсовому проекту для студентов специальностей 245 01 03 –Сети телекоммуникаций 245 01 02 –Системы радиосвязи радиовещания и телевидения. УДК ББК ISBN Учреждение образования Высший государственный колледж связи 2011 ВВЕДЕНИЕ Курсовой проект по дисциплине Цифровые и микропроцессорные устройства выполняется студентами специальностей 2–01 02 Системы радиосвязи радиовещания и телевидения 2–01 03 Сети телекоммуникаций...
39462. Процессы глобализации. Социальные последствия глобализации 17.18 KB
  Глобализация (в широком значении) – это объективный естественный процесс интеграции человечества в единое целое. Глобализация проявляется в том, что социальные процессы в одной части мира во все большей степени определяют происходящее в др. частях мираов НРП вдоль кабельной линии передачи осуществляется в соответствии с номинальной длиной регенерационного участка РУ для проектируемой ЦСП. При необходимости допускается проектирование укороченных относительно номинального значения РУ которые следует располагать прилегающими в ОП или ПВ так как блоки линейных регенераторов в НРП не содержат искусственных линий ИЛ. Количество НРП на секциях ОП1 ПВ и ОП2 ПВ определяется из выражений:...
39463. Полупроводниковые приборы, логические элементы, узлы ЭВМ 4.74 MB
  Электрическое поле. Напряженность и потенциал поля. Цепи постоянного тока, законы Ома и Кирхгофа. Цепи переменного синусоидального тока. Основные параметры. Мгновенное, действующее и среднее значение переменного тока. Резистивный и емкостной элементы в цепи переменного тока.