10758

Системы синтеза речи с использованием нейронных сетей

Курсовая

Информатика, кибернетика и программирование

Теоретическая часть Синтаксический анализатор Фундамент синтаксического анализа. Морфологический и предсинтаксический анализ Заключение Список литературы: Введение Первые говорящие машины пы...

Русский

2013-04-01

403.5 KB

27 чел.

[0.1] Теоретическая часть

[0.1.1] Синтаксический анализатор

[0.1.2] Фундамент синтаксического анализа.

[0.1.3] Морфологический и предсинтаксический анализ

[0.2]
Заключение

[0.3] Список литературы:


Введение

Первые «говорящие машины» пытались делать еще в XII-XIII веках, однако в Европе тех времен подобная деятельность рассматривалась как еретическая, все опытные образцы безжалостно уничтожались, и ни одно достоверное описание подобной машины до наших дней не дожило. Тем не менее молва широко разнесла слухи об успешных экспериментах Альберта Великого и Роджера Бекона, спровоцировав создание фальшивых «говорящих голов». Такие устройства представляли собой хитроумные механизмы, «отвечающие» на вопросы слушателей (на самом деле, на вопросы отвечал человек, который был либо спрятан в самом устройстве, либо находился в соседней комнате).

В конце XVIII века  конструкторы научились делать настоящие «говорящие машины», механически имитируя человеческий голосовой аппарат. Правда, считать издаваемыми им звуки «речью» можно с натяжкой. Так, представленный в 1970 году Санкт-Петербургской Академии резонаторы Кранценштайна могли произносить лишь пять гласных звуков. В арсенале построенной спустя 20 лет машины фон Кемпелена было уже 20 согласных, что теоретически позволяло оператору произносить целые фразы. Но вот понимал ли их кто-то кроме изобретателя, вопрос. Даже по чертежам этого не определишь. Но даже электронный синтезатор Voder, показанный на Нью-Йоркской торговой выставке «говорил» крайне не внятно.

Если оператор Voder должен был управлять устройством в реальном времени, то сегодняшние системы синтеза речи в операторе не нуждаются, поскольку читают заранее подготовленные тексты. Такие системы называют TTS (text-to-speech).

Любая современная система синтеза речи состоит из двух блоков. Первый отвечает за преобразование орфографического представление в фонетическое – ведь, как правило, слова пишутся не так как слышатся, и больше того: зачастую прочтение того или иного слова регулируются не правилами русского языка, а сформировалось исторически. Кроме того, система осуществляет синтаксический (а иногда и семантический) разбор предложения для того, что бы верно расставить интонационные акценты (просодическое оформление). В результате, на выходе мы имеем подробнейшую инструкцию, как нужно читать предложение.

Описанное преобразование зависит в первую очередь от языка и во всех системах реализуется примерно по одним и тем же принципам. А когда дело доходит непосредственно до синтеза, маневров для разработки куда больше.

Как правило современные системы синтеза не пытаются в духе ранних экспериментов воспроизвести работу голосового тракта человека. Проще же собирать речевые сообщения из уже подготовленных диктором фрагментов. Для некоторых применений нужен совсем не большой словарь (из нескольких десятков слов), поэтому в качестве «кирпичиков» в таких системах используются отдельные слова или даже фразы (даже создание фонетического представления орфографического текста для таких систем не обязательно – список фраз которые они могут прочесть, невелик и зачастую достаточно однозначного сопоставления орфографического написания сохраненному в библиотеке тексту). Такие системы называются целостными. Системы способные читать произвольные тексты, обычно являются компилятивными синтезаторами, то есть составляют из отдельных фрагментов нужные слова и собирают их в предложение.

Библиотека звуковых фрагментов составляется с помощью приглашенных дикторов, которые зачитывают специальным образом составленные тексты (главная задача при составлении таких текстов – охватить все возможные фонемы, которые встречаются в языке). Потом запись разбивается на элементарные составляющие (иногда в ручную, иногда автоматически – в этом случае необходим модуль распознавания речи), и каждому из фрагментов ставится в соответствии фонема.

Сложность в создании компилятивных синтезаторов в том, что фонема – как любая абстракция – недостаточно полно описывает звуки, которые мы можем услышать в естественной речи. Одна и та же фонема может звучать немного по-разному, в зависимости от того, какие звуки ей предваряют и какие следуют за ней (коартикуляционный эффект), кроме того, необходимо учитывать интонационную составляющую (просодический эффект).

Поэтому, строго говоря, записанные диктором сообщения разбиваются не на фонемы, а на составляющие более низкого уровня (дифоны, аллофоны и т.д.), а помимо составления отдельно взятого фонема в библиотеку записывается информация о сопутствующих коартикуляционных и просодических эффектах. Для разработки важно знать не только о вхождении звука в ту или иную фонему, но и его громкость, длительность и высота, из-за чего количество помещенных в библиотеку «кирпичиков» намного превышает количество фонем (их в любом языке не больше нескольких десятков, а вхождений в хорошей библиотеке может быть несколько тысяч). Иногда, для того что бы не раздувать библиотеку и упростить разбиение, просодические эффекты реализуют программным способом, но синтезированная таким образом речь звучит не натурально, тогда как системы синтеза речи с качественной библиотекой говорят «почти как люди».

В ранних системах синтеза речи нужные сэмплы выбирались с помощью предварительного описания правил, но уже в 70-е года прошлого века стали применяться более эффективные методы, позволяющие отыскать нужный фрагмент. Но просто сложить найденные сэмплы – мало. На месте склейки будут слышны явные артефакты, «бульканье». Поэтому, перед тем как выдать результат, система синтеза сглаживает переходы между различными фрагментами.

Если все сделано правильно, то на выходе мы получи слегка монотонную, но внятную и интонационно размеченную речь. К сожаленью, полностью избавиться от эффектов склейки удается не всегда, а машинные интонации отличаются от человеческой.

Так же, системы синтеза делают ошибки, особенно в незнакомых словах (). Но т.к. у людей довольно гибкая система восприятия, то мы способны догадаться какое слово машина прочитала неправильно.

Сверхзадачей систем синтеза речи является речь не отличимая на слух от человеческой. О возможности реализации подобной системы единого мнения нет.

Таблица . Оценка точности работы систем TTS. февраль 2005, ASRNews

Aculab TTS

Acapela Group HD TTS

Fonix DECtalk

IBM TTS

Microsoft TTS

ScanSoft TTS3000

ScanSoft RealSpeak Solo

Winbond TTS

Всего правильно

N

674

779

782

910

785

848

1,254

644

%

52,3

60,4

60,7

70,6

60,9

65,8

97,3

50,0

Всего

1,289

Всего

Всего правильно

Средняя

64,7

Теоретическая часть

Во всех современных системах синтеза речи присутствуют 2 основных блока. Это блок анализа введенного текста – лингвистического процессора. И блок чтения текста, по, подробным образом сформированной, инструкции – речевого процессора.

Лингвистический процессор представляет собой многоуровневую (компонентную) систему обработки входного текста, состоящую из четырех основных анализаторов: анализаторов: графематического (внешнее представление текста), морфологического, синтаксического и семантического.

Представленный материал основывается на работах  [1] и  [2] по лингвистическому анализу текста.

Синтаксический анализатор

 Синтаксическим анализом (parsing) называется процесс структурирования линейной репрезентации в соответствии с заданной грамматикой

Работы по созданию синтаксического модуля велись еще в конце 60-ых годов, но вычислительная мощность компьютеров не позволяла реализовать сложные алгоритмы анализа в полном объеме. Упрощение алгоритмов и отказ от перебора омонимичных вариантов - компромисс, который приводил к низкой точности синтаксического анализа предложения. Сегодня, по-прежнему, задача автоматизированного анализа синтаксиса естественного языка сводится к двум параметрам: качеству, определяемому парой «точность (уровень ошибок в построенных синтаксических структурах предложений), полнота (степень покрытия текста синтаксическими связями, или связность графа предложения)», и скорости, пока что недостаточной для ряда прикладных задач.

Линейной репрезентацией предложения естественного языка называется цепочка элементов, где каждый элемент является минимальной синтаксической единицей. Минимальная синтаксическая единица может быть словоформой или оператором с определенным набором характеристик. Оператором называется знак препинания или сочинительный союз. Обязательной составляющей такого набора у словоформы является ее морфологическая репрезентация, обычно состоящая из значения части речи и граммем, а у знака препинания или сочинительного союза - тип оператора (значение, выполняемой им грамматической функции). Таким образом, можно представить линейную репрезентацию предложения в виде цепочки морфологических репрезентаций словоформ и типов операторов.

Процессом структурирования линейной репрезентации предложения называется построение ориентированного графа синтагм и ориентированного графа сегментов.

Синтагма определяет бинарное синтаксическое отношение вида R(A, B), где A и B - словоформы, а R - тип синтаксического отношения, который соответствует имени синтагмы; A является хозяином, B - слугой, т. е. A управляет B. Таким образом, узлами графа синтагм являются терминальные единицы. Связанность не является обязательным условием такого графа, так как синтагмы опираются только на морфологические репрезентации словоформы, линейный порядок предложения и, в некоторых случаях, на примитивную модель управления. На этом уровне анализа связи, для построения которых необходимо использовать сложную модель управления (предикатно-аргументную структуру) или семантическую информацию, могут не фиксироваться в графе синтагм.

Интуитивно сегмент можно определить как часть предложения (в частном случае целиком простое предложение), выделенную на письме знаками пунктуации и описывающую отдельную ситуацию; каждый такой сегмент имеет в качестве вершины явный предикат, выраженный в большинстве случаев финитной формой глагола, или «скрытый» предикат, который может быть выражен либо деепричастием, либо причастием, либо именем с семантической характеристикой действия; каждый такой предикат и задает ситуацию. Близкие по значению понятия в теоретической лингвистике - "предикация" и "элементарное предложение". В западной лингвистической традиции понятие сегмент эквивалентно термину клауза: "клаузой называется любая группа , в том числе и не предикативная, вершиной которой является глагол, а при отсутствии полнозначного глагола - связка или грамматический элемент, играющий роль связки"

Задача сегментации предложения является первой и, возможно, самой сложной компонентой полного синтаксического анализа. Целью сегментации является выделение и классификация сегментов в составе сложного предложения. Вторая компонента - построение внутрисегментных связей (графа синтагм) - исследована намного глубже и имеет успешные решения, экспериментально подтвержденные на анализе простых (односегментных) предложений.

Фундамент синтаксического анализа. 

Все языковые средства, которыми располагает система для определения синтаксических понятий, являются либо свойствами самого объекта, т.е. предложения естественного языка, либо свойствами его элементов, т.е. словоформ и знаков пунктуации (операторов). Синтаксические понятия, по существу, представляют собой функции, где параметрами служат языковые средства, а сами функции используются в условиях грамматических стратегий или правил. Ниже приведены пять языковых средств синтаксического анализа:

1. Словоизменительные морфологические средства. Для языков с развитой морфологией, каким является русский, - это основной способ материализации синтаксических связей. Словоформа w1 морфологически зависит от словоформы w2 по морфологической категории C, если граммема (значение грамматической категории) g категории С, характеризующей w1 , выбирается в зависимости от некоторого свойства f словоформы w2. Словоформа w2 называется контролером морфологической зависимости, а w1 - ее мишенью. Другими словами, один элемент предложения подстраивается под другой, т.е. принимает грамматическую форму продиктованную вторым элементом. Показателем морфологической зависимости в русском служит флексия, т.к. граммемы в русском обычно приписаны флексии, что позволяет в некоторых случаях обнаружить зависимость между двумя словоформами, отсутствующими в словаре, (например, "глок-ая куздр-а"). Если категория C, по которой наблюдается морфологическая зависимость, выражается в вершине, налицо вершинное маркирование, если же эта категория выражается в зависимой словоформе - зависимостное маркирование. В русском языке граммемы многих форм омонимичны ('ночи' = [[рд., дт., пр., ед.], [им., вн., мн.]] - омонимия числа и падежа), что создает определенные трудности в процессе анализа. Неоднозначность граммем в ходе автоматического синтаксического анализа иногда приводит к возникновению синтаксической омонимии и построению альтернативного синтаксического варианта (графа синтагм). Падежная омонимия с номинативом часто приводит к неоднозначному определению правой границы сегмента и, как следствие, к построению альтернативной структуры сегментации (графа сегментов). Парадокс или скорее взаимовлияние двух уровней анализа морфологического и синтаксического состоит в том, что граммема, являясь эффективным средством поиска морфологической зависимости, которая служит одним из способов реализации синтаксического отношения, может быть однозначно проинтерпретирована только вследствие фиксации этого отношения.

2. Селективные признаки: Классифицирующие (селективные) признаки приписываются лексемам в грамматическом словаре, в отличие от граммем, которые вычисляются, исходя из парадигматического класса, для каждой словоформы на этапе морфологического анализа. Наиболее важной для синтаксиса является классификация лексем по категориальным (частеречным) признакам: существительное, глагол, прилагательное, и т.д. Существует и более дробное деление на субкатегориальные признаки внутри частей речи, так существительные можно разбить на два класса: одушевленные и неодушевленные. Категориальные признаки задают потенциальных участников синтаксической связи и определяют в большинстве случаев вершину в структуре, а также предопределяют понятия управления и согласования. Одушевленность и неодушевленность в русском языке служит контролером согласования для некоторых форм мужского рода или во множественном числе - 'вижу большого [мр., ед., вн.] кролика [мр., ед., вн.] (*большой [мр., ед., вн.] кролика [мр., ед., вн.])' ~ 'вижу большой [мр., ед., вн.] стол [мр., ед., вн.] (*большого [мр., ед., вн.] стол [мр., ед., вн.])' или 'вижу четкие фотомодели' ~ 'вижу красивых фотомоделей'.

3. Служебные слова: предлоги, союзы и союзные слова, вспомогательные компоненты аналитических форм, частицы и т.д. Средства, которые служат в качестве опорных точек анализа. Так, союз может быть использован для определения поверхностного типа сегмента, или вспомогательный компонент аналитической формы содержит недостающие предикату граммемы, или предлог оформляет актант глагола.

4. Знаки препинания (операторы): запятая, тире, точка, вопросительный знак, и т.д. Это средство не выделяется в теоретических описаниях, так как теоретический синтаксис имеет дело больше с устным языком, чем с письменным, к тому же не все письменные языки, в отличие от русского, имеют жесткие правила расстановки знаков препинания. В первую очередь, операторы определяют границы как сегментов, так и всего предложения. Тире является выражением эллиптированного элемента предложения и часто используется в стратегиях поиска неморфологического предиката. Анализ бифункциональности оператора (когда, например, оператор является одновременно и правой границей сегмента, и оператором сочинения слов) - одна из самых трудных задач сегментации, которая и задает рекурсивный характер как грамматических стратегий анализа, так и методов программной реализации. В теоретических работах принято выделять интонацию как средство синтаксического анализа. Действительно, операторы в письменном тексте являются частичным выражением подмножества синтаксических случаев, характеризующихся интонацией в устном языке. "В этой гимназии учился впоследствии всемирно известный киноартист", произнесенное с падением интонации на 'впоследствии' имеет синтаксическую связь 'учился → впоследствии', а при отсутствии падения тона - 'известный → впоследствии'. Такие случаи применения интонации для различения синтаксических связей не фиксируются операторами в письменной форме, поэтому идеальный синтаксический процессор должен решить эту проблему через понятие синтаксической омонимии, построив две равноправных синтаксических структуры предложения.

5. Порядок слов: Линейное расположение слов в предложении играет особую роль в изолирующих языках (китайский) и является основным средством для выражения синтаксических отношений в этих языках. Наряду с селективными признаками порядок слов имеет доминирующее значение в проектировании синтаксических анализаторов языков с бедной морфологией (английский). Во многих системах английского синтаксиса порядок слов задает направление поиска хозяина или слуги для каждого класса лексем и типа связи. Для русского языка это средство анализа имеет второстепенное значение, хотя и применяется в ряде случаев для установление синтаксических связей или оценки омонимичных структур предложения. Несмотря на свободный порядок слов в русском, некоторые синтаксические зависимости имеют обязательным критерием выделения жесткий линейный порядок: генитивное определение должно следовать за определяемым словом ('ножка стол-а', 'сын отц-а'); предлог предшествует существительному ('на стол-е', 'у отц-а'); в 90% случаев определение, выраженное прилагательным или местоименным прилагательным, стоит до существительного (['большой красивый стол', 'седой отец'] ~ ['впечатление необычное']). Порой статистическое расположение синтаксических вершин и их зависимых позволяет разделить все типы синтаксических отношений на три типа: левоветвящиеся (прилагательное существительное: 90%), правоветвящиеся (генитивное определение: 100%) и смешанные (слабые актанты глагола: 50%/50%). Подобные эмпирические распределения могут эффективно использоваться в прикладных моделях. В лингвистической типологии эмпирически установлена универсальная классификация языков мира: языки левого (японский) и правого ветвления (русский и английский). Правда, эта классификация, в основном, строится на статистическом распределении фразовых категорий в линейном порядке предложения, к которым относятся именные (NP), предложные группы (PP) и клаузы (некоторые виды сегментов: придаточные определительные, причастные обороты, и т.д.). Другая синтаксическая классификация оперирует линейным порядком основных членов предложения: подлежащее (subject), сказуемое (verb) и дополнение (object). Английский относится к языкам Subject Verb Object (SVO) порядка, для русского SVO порядок является статистически доминирующим и наиболее естественным, но грамматически не единственно возможным. В английском предложении ‘The farmer kills the duckling’ ‘Фермер убивает утенка’ любое изменение порядка слов ведет к изменению смысла всего высказывания ('The duckling kills the farmer' 'Утенок убил фермера.') или к потере грамматической правильности ('* The farmer the duckling kills.'Фермер утенка убил.'), то в русском переводном эквиваленте (‘Фермер убивает утенка’) возможно 3! перестанови, сохраняющих как общий смысл высказывания, так и грамматическую правильность, т.е. в русском варианте данного предложения возможны любые комбинаторные порядки: SVO, SOV, OVS, и т.д. Таким образом, линейный порядок предложения в автоматическом синтаксическом анализе используется как указатель наиболее вероятного направления поиска слуги или хозяина, и только в редких случаях как обязательный критерий установления синтаксической зависимости.

1. Согласованием называется пересечение векторов граммем двух словоформ, где ожидаемый результат пересечения определяется категориальными признаками словоформ. Согласование может быть полным или частичным.

Полное согласование:

(а) VA∩VN = [c, Sg, g] || [c, Pl], где VA - вектор граммем полного прилагательного, причастия или местоименного прилагательного; VN - вектор граммем существительного; c  C = [им., рд., вн., дт., тв., пр.] - значение падежа; Sg (ед. ч.) и Pl (мн. ч.) - значения грамматического числа; g  G = [мр., жр., ср.] - значение грамматического рода.

(б) VSnom∩VP = [p≠, n] || [g] || [p=, Pl], где VSnom - вектор граммем подлежащего, выраженного существительным или местоимением в именительном падеже; VP - вектор граммем сказуемого, выраженного финитной формой глагола или краткой формой прилагательного или причастия; p  P = [, 1л., 2л., 3л.] - значение грамматического лица; n  N = [Sg, Pl].

Частичное согласование:

(а) VA∩VN = [c], такой тип согласования используется в дуальных конструкциях (например, "красные стол и стул" или "синий и красный мячи"), в тех случаях когда еще не построены сочинительные группы. Применение частичного согласования в этих конструкциях зависит полностью от грамматического описания, принятого в прикладной модели. Альтернативный вариант анализа дуальных конструкций состоит в предварительном поиске сочинительных групп, вычисления граммем группы и сведения проверки согласования при последующем установлении атрибутивной связи (именной группы) к полному согласованию типа (а).

(б) VA1∩VA2 = [c], VN1∩VN2 = [c], VP1∩VP2 = [p≠, n] || [Imptv, n] || [Inf] || [g] || [p=, Pl], где Imptv - императив, Inf - инфинитив. Подобного рода согласование используется для определения сочинительных конструкций в русском языке.

2. Примитивной моделью управления называется вектор M, определенный в словаре для каждой лексемы L, способной управлять словоформой X. Вектор M лексемы L содержит значения селективных признаков и/или граммемы словоформы X. Вектор M  M| = [предлог, подчинительный союз, инфинитив, им., рд., вн., дт., тв., пр.]. Управлением называется пресечение вектора M лексемы L с вектором граммем словоформы X или с значением селективных признаков словоформы X. Явление примыкания и конгруэнтности, а также более сложные случаи управления, не используются в предлагаемых моделях синтаксических анализаторов и считаются прерогативой этапа первичного семантического анализа.

3. Грамматические понятия, построенные на объединении значений селективных признаков в более крупные единицы, используются в синтаксических моделях. Предикат в предложении может быть выражен словоформой с значением части речи ps Є PS = [финитная ф. гл., кр. прил., кр. прич., предикатив]. При построении атрибутивной связи AN A может быть выражено словоформой с значением части речи a Є A = [полное прилагательное, полное причастие, местоименное прилагаельное], а N может быть выражено словоформой с значением части речи n Є N = [существительное, местоимение, субстантивированное прилагательное].

В синтаксических анализаторах изложенные выше понятия обычно оформляются в виде программных функций, которые служат для проверки и установления возможного синтаксического отношения. Таким образом. изложенные понятия объединяются в более крупных модулях анализа, каковыми являются грамматические правила и стратегии:

1. Каждое грамматическое правило устанавливает один тип синтаксического отношения R(A, B) между двумя единицами анализа и однозначно задает вершину. Число используемых типов отношений, а также их названия, зависит от прикладной модели и конкретной системы, набор универсальных синтаксических отношений для русского языка приведен во многих теоретических работах: отпредложное (предлог и управляемое им существительное), определительное (существительное и его согласованное определение), посессивное (существительное и его несогласованное опрделение), субъектное (сказуемое и подлежащее), и т.д. В роли единиц анализа, на месте A и B, где A - вершина, а B - зависимое, могут выступать как отдельные словоформы, так и целые группы (фразовые составляющие); заполнение A и B во многом зависит от синтаксического аппарата, принятого в анализаторе для описания структуры. Идеальное грамматическое правило в автоматическом синтаксическом анализе характеризуется следующими критериями: (а) описывает только один тип синтаксического отношения; (б) однонаправленность анализа, т.е. зависимое B может находиться только слева или только справа от вершины A; (в) не содержит рекурсивных вызовов или вызовов других правил; (г) обрабатывает только контактно расположенные единицы анализа; (д) результат не зависит от порядка применения правил. Использование грамматических правил задает прозрачность архитектуры процессора и обеспечивает устойчивость системы к изменениям. Перечисленные критерии не являются строгими, но приближают правило к его идеальной форме.

2. Грамматические стратегии, наравне с правилами, используются во всех системах автоматического синтаксического анализа. Типичным примером компонента процессора, построенного на стратегии, является анализ сочинения. Сложность анализа сочинительных конструкций состоит в том, что в процессе построения связи одновременно могут рассматриваться больше чем две единицы анализа; учитываются операторы (знаки препинания и сочинительные союзы) внутри конструкции; нарушается древесность графа, т.к. каждый элемент множества узлов, образующих сочинительную связь, попарно связан со всеми остальными элементами множества и одновременно является как слугой, так и хозяином узлов, принадлежащих множеству сочинения. Грамматическое сочинение проецируется на все уровни анализа и типы синтаксических единиц, терминальные и нетерминальные: сочинительная конструкция может состоять из теоретически неограниченного числа сочиненных словоформ или именных групп, или предложных групп, или отдельных сегментов (сочиненные придаточные внутри сложного предложения или причастные обороты и т.д.). Стратегии позволяют эффективно организовывать процесс сегментационного анализа. Грамматическая стратегия в прикладных моделях характеризуется следующими критериями: (а) двунаправленность анализа, т.е. зависимое B может находиться как слева, так и справа от вершины A; (б) учитывает единицы, стоящие между потенциальным зависимым и хозяином, в процессе анализа; (в) позволяет строить связи между разрывными составляющими; (г) ищет варианты синтаксической связи для анализируемой единицы, принимая во внимание возможность синтаксической омонимии; (д) может содержать рекурсивные вызовы, оперировать грамматическими правилами и использовать другие стратегии в качестве подпрограмм; (е) оперирует общими структурными ограничениями. Стратегии представляют определенную сложность для программной реализации и гораздо более чувствительны к изменениям в системе, чем правила, но использование стратегий повышает точность анализа, обеспечивает модульность системы и позволяет проектировать сложные схемы взаимодействия компонент модели.

Перечислим общие структурные ограничения в прикладных моделях анализа:

1. Проективность. А. Е. Кибрик: Линейная структура предложения проективна, если между каждой парой слов, связанных подчинительной связью, находятся только слова, зависящие (непосредственно или опосредованно) от одного из этих слов [А. Кибрик, 2001]. Я. Г. Тестелец: Предложение называется проективным, если, при том, что все стрелки зависимостей проведены по одну сторону от прямой, на которой записано предложение: (а) ни одна из стрелок не пересекает никакую другую стрелку (принцип непересечения стрелок); (б) никакая стрелка не накрывает корневой узел (принцип необрамления стрелок). Предложения, в которых нарушается принцип необрамления стрелок, называются слабо проективными, но являются грамматически допустимыми. В реальных системах ограничение на проективность служит для проверки грамматической правильности построенных подструктур в предложении, при этом используется только принцип непересечения стрелок и, как правило, для именных групп (определительная связь) и предложных групп (отпредложная связь), т.к. уже на уровне глагольных групп ограничение на проективность не является строгим и может нарушаться в ряде случаев (в устной речи, художественной литературе или бюрократически-деловых текстах). Структура сегментов предложения является строго проективной, и этот принцип кладется в основу сегментационного анализа. На рис. 1 приведен пример проективной структуры именной группы с несогласованным определением, на рис. 2 показана непроективная и грамматически недопустимая структура именной группы.

2. Любая синтаксическая единица (терминальная или нетерминальная) в структуре предложения может непосредственно зависеть только от одной вершины, кроме случая сочинения. В сочинительных конструкциях вершина, входящих в нее единиц, не определена, хотя в некоторых моделях такой вершиной объявляется сочинительный союз, что является формальным допущением, сохраняющим единообразность структурного представления.

3. Простой сегмент предложения содержит только один субъект (подлежащее), кроме случая сочинения субъектов.

4. Простой сегмент предложения содержит только один предикат (сказуемое), кроме случая сочинения предикатов. Общие структурные ограничения применяются как в ходе синтаксического анализа, так и на этапе оценки равноправных синтаксических представлений, полученных как следствие морфологической или синтаксической омонимии.

Морфологический и предсинтаксический анализ

В 60-70 гг. все экспериментальные исследования в области машинной морфологии начинались с создания машинного словаря. Не было единого общепринятого формата и структуры такого словаря. Эти обстоятельства имели два последствия: во-первых, все алгоритмы автоматически становились словарнозависимыми, во-вторых, каждый алгоритм разрабатывался под определенный формат словаря. На современном этапе развития информационных технологий морфологический компонент стал неотъемлемой частью интеллектуальных информационно-поисковых систем (ИПС).

Основная проблема в разработке машинно-ориентированного алгоритма для лингвистических процессоров состоит в объеме исходных данных, используемых программой, то есть в объеме словарей, которые приходится составлять вручную. Исследования в этой области направлены на минимизацию исходных данных. Работы, посвященные морфологии, можно условно разделить на две категории:

1. теоретические, в некоторых представлены описания морфологических законов и формальные модели русской морфологии;

2. прикладные, описание програмно-реализованных систем с морфологическим модулем.

В теоретических работах строятся многоуровневые формальные модели морфологии, в большинстве своем, предназначенные для синтеза. Такие модели морфологического синтеза подразумевают наличие больших словарей со сложной структурой. Они описывают широкий круг морфологических явлений. Многие компоненты этих моделей избыточны для задач машинного анализа (фонетическая реализация слова, акцентная парадигма, большое число словообразовательных аффиксов).

Модели, которые используют словарь, способны дать более полный анализ словоформы (т.е. оперировать большим числом грамматических признаков). Степень точности такого анализа выше, по сравнению с моделями, которые не используют словаря. Но на пространстве реальных текстов системы, использующие словарь, часто дают сбои. Это обусловлено тем, что не существует полных словарей. Лексика языка непрерывно пополняется - появляются новые слова. Для каждой предметной области существует своя терминология, свое подмножество лексики языка, и включить в общий словарь всю существующую терминологию - невозможно. Равно как невозможно и перечислить все существующие имена и фамилии, которые имеют регулярное склонение.

Алгоритмы программ, работающих без словаря, используют вероятностно-статистические методы и лексиконы суффиксов или квази-суффиксов, основ или квази-основ, построенных эмпирически.

Подобный метод используется в работах Г.Г.Белоногова, где дается описание вероятностно-статистических методов для создания вспомогательных лексиконов на основе исходного корпуса текстов.

Все алгоритмы такого рода имеют одни и те же недостатки:

(1) не используются точные лингвистические методы анализа;

(2) большой объем лексиконов;

(3) вероятностно-статистические методы плохо работают с малой выборкой. Точность такого анализа намного ниже, чем для систем, работающих со словарем. Эти алгоритмы не позволяют выбирать уникальные грамматические характеристики, хотя в большинстве случаев позволяют построить общую основу или квази-основу для множества словоформ и лемматизировать словоформу.

Наиболее свободная форма анализа была разработана в Чикагском Университете. Модель позволяет путем статистической обработки большого массива текстов, анализируя частоту встречаемости последовательности символов в словоформах, выделять множество аффиксов и корневых морфем, релевантных для заданного языка. Программа работает с большинством европейских языков, включая русский. Работа проводилась в рамках научного исследования и не получила прикладного внедрения.

В этом разделе предлагается описание модели прикладного морфологического анализа без словаря, разработанной автором диссертации в НТЦ "Система" в период с 1997 по 1998 гг. Алгоритмы морфологии построены на самообучении программы на открытых массивах реальных текстов и совмещают два подхода: лингвистический - формализованная грамматика для построения морфологических гипотез и математический - метод корреляции, позволяющий унифицировать морфологическую гипотезу. Морфологический анализ без словаря является центральной компонентой системы автоматической индексации текстовой базы данных (БД), реализованной в СУБД Oracle8i. Выходным результатом системы является автоматически построенный грамматический словарь основ и связанный с ним индекс документов, предназначенный для полнотекстового поиска по БД.

Сущность интеллекта состоит в способности принимать разумные решения в условиях отсутствия полноты данных и фактов. Интеллектуальность системы повышается с уменьшением объема статической информации, используемой в процессе анализа данных. В нашем случае, речь идет об использовании лингвистической информации при морфологическом анализе в задачах автоматической индексации текстовых БД. Ниже будут выделены основные критерии, отличающие большинство интеллектуальных систем, которых придерживается описываемый процессор автоиндексации текстов:

• Способность системы объяснить каждой шаг принятых решений. В процессе анализа не используются вероятностные и статистические методы.

• Использование правил и свойств, характеризующих данный предмет анализа. Для построения морфологических гипотез словоформ используется формализованная грамматика и то свойство русского языка, что большая часть грамматических категорий в русском вычисляется из флексии.

• Модульность системы, которая обеспечивает эффективное изменение и пополнение правил и свойств, а также задает возможность настраивать анализатор на другие естественные языки с развитой морфологией.

• Множественность интерпретаций. Анализатор оставляет все омонимы значений словоизменительных категорий.

• Самообучаемость и механизм исправления принятых ранее неверных решений. Объем прочитанных текстов пополняет число словоформ, используемых в процессе анализа, тем самым повышая точность морфологического анализа и позволяя корректировать неправильно построенные основы и значения их грамматических категорий.

• Моделирование интеллектуального поведения человека. В данном случае, речь идет о попытке эмулировать размышления человека, изучающего иностранный язык, перед которым стоит задача классифицировать слова данного языка, в условиях, когда в его распоряжении находится большой массив текстов, некоторые знания о морфологии языка и отсутствует словарь языка, на котором написаны тексты. Надо сказать, что при разработке алгоритмов не ставилось задачи опровергнуть мысленный эксперимент Джона Сёрля “Китайская комната”.

Схема процесса автоматической индексации представлена на рис.1: на вход процесса автоиндексации поступает все множество текстов, хранящихся в базе данных, на выходе формируется словарь основ и таблица соответствий (текст → основа), которая отображает поток индексированных текстов.

Блоки, которые осуществляют процесс автоиндексации, представлены на рис.2.

Процессы (рис.2):

1. Графематический анализ.

2. Морфологический анализ.

На рис.3 показана схема таблиц для хранения потоков данных, сформированных процессами графематического и морфологического анализа.

Потоки данных (рис.3):

1. Тексты;

2. Полные словоформы;

3. Аббревиатуры;

4. Цифровые и символьные комплексы;

5. Основы и значения их грамматических категорий;

Основная цель графематического блока получить выборку полных словоформ из массива текстов БД. Графематический анализ работает с внешним представлением текста и использует таблицу стоп-слов. В этой таблице хранятся цифры, спецсимволы и частотные слова языка, нерелевантные для поиска по текстам.

Графематический анализ выполняет три функции:

1. отсечение стоп-слов в тексте;

2. разбиение данных на три потока;

3. индексация каждого потока.

Единицей графематического анализа является цепочка символов, выделенная с двух сторон пробелами. Выделенная цепочка символов подвергается последовательной обработке эвристическими правилами: отсечь знаки пунктуации, проверить присутствие гласных внутри цепочки, чередование верхнего и нижнего регистров и т.д. В зависимости от результатов обработки полученная цепочка символов направляется в один из трех потоков данных:

— цифровые и символьные комплексы (‘кг’, ‘ст.’, ’12.01.99’);

— аббревиатуры - названия государств, организаций, предприятий (‘СССР’, ‘ЮНЕСКО’, ‘ДорСтройСервис’);

— полные словоформы; Каждой записи из любого потока ставятся в соответствие коды документов, в которых она встретилась. Первых два потока данных считаются проиндексированными, причем только аббревиатуры являются релевантным поисковым образом. Графематику можно считать лишь вспомогательным звеном для морфологического анализа. Графематический и морфологический процессы способны проиндексировать массивы текстов независимо от предметной области конкретной базы данных.

Полные словоформы поступают на вход морфологического анализа, цель которого разбить все множество словоформ на подмножества по признаку принадлежности к той или иной лексеме , привести все элементы каждого такого подмножества к уникальной основе, однозначно определить грамматические характеристики лексемы и проиндексировать тексты по встретившимся в них основам.

Блок морфологического анализа использует минимальный объем исходной информации:

— таблицу предлогов;

— таблицу местоимений и числительных, имеющих нерегулярное склонение.

На выходе морфологического анализа формируется словарь основ данной БД, уникальность записи в таком словаре задается тройкой значений [основа, часть речи, парадигматический класс]. Морфологический анализ состоит из трех модулей и соблюдает определенную последовательность действий.

Первый модуль содержит статический массив флексий и правила формализованной грамматики русской морфологии, построенной на основе работ А.Зализняка. Выделение парадигматических классов в модели полностью соответствует парадигматическим классам в словаре А.Зализняка. Это - восемь типов склонения существительных и прилагательных и шестнадцать типов парадигмы глагола, которым соответствует первое или второе спряжение. В словаре А.Зализняка глагольная тема (‘ов’, ‘у’ и т.д.) входит в окончание глагола. В нашем случае вводится термин расширенная флексия глагола. Расширенной флексией глагола называется конкатенация чередующейся глагольной темы и флексии.

Данный модуль может быть заменен формализованной морфологией любого другого флективного языка. Методы, описанные в модулях два и три, являются универсальными, независящими от языка.

Второй модуль, используя правила формализованной грамматики, позволяет строить морфологическое дерево словоформы, в узлах которого хранятся все возможные гипотезы об основах и значениях грамматических категорий словоформы. Морфологические правила делятся на два класса. Первый класс правил, которые порождают некоторые грамматические характеристики для гипотез, и второй класс правил накладывает определенные ограничения на гипотезы. Пример правил первого класса: если гипотеза об основе оканчивается на согласную ряда {‘к’, ‘г’, ‘х’}, то тип склонения равен трем или если исходная словоформа не оканчивается на гласную, то построить гипотезу о существительном с нуль-флексией. Пример правил второго класса: если гипотеза о флексии равна ‘ет’ [3 лицо, ед. ч.] или ‘ю’ [1 лицо, ед. ч.], и гипотеза об основе оканчивается на сегмент первой ступени чередования, то гипотеза о глаголе не верна.

Традиционно в синтаксических и семантических теориях используется представление языковой структуры с помощью деревьев. В описываемой системе, пожалуй, впервые данный формализм оправдано был применен к морфологии.

Третий модуль содержит метод подбора словоформ на одну лексему, то есть выбор коррелятов для дерева исходной словоформы. После того, как набраны корреляты, для каждой словоформы также строится морфологическое дерево всех возможных гипотез, в результате чего образуется “лес деревьев”. Метод корреляции  осуществляет сравнение морфологических деревьев внутри леса и унификацию гипотез. Корреляция проводится по гипотезам основ и значениям классифицирующих грамматических категорий, таких как часть речи, парадигматический класс, спряжение глаголов и род существительных. Значения словоизменительных категорий в корреляции не участвуют. Во время работы корреляции происходит удаление ложных гипотез: ветвей дерева или полного дерева коррелята. Этот модуль позволяет построить уникальную гипотезу об основе и значениях ее грамматических категорий для всех словоформ одной лексемы, найденных в текстах. Метод корреляции очищает лес от ложных коррелятов, оставляя, таким образом, только словоформы, принадлежащие одной лексеме. Уникальная основа, единая для всех словоформ, участвовавших в корреляции, значение части речи и парадигматического класса добавляются в словарь основ. По сути, основа в словаре репрезентирует лексему.

Для унификации гипотезы метод корреляции использует матрицы корреляций. Лесом называется множество деревьев словоформ F = {T1,..,Tj,..,Tn}. Множество всех построенных гипотез об основе в F обозначим U = {s1,..,si,..,sm}. Параметром корреляции t называется значение грамматической категории. Матрицей корреляции A(t) = леса F с m гипотезами об основах и  Словоформы, которые гипотетически принадлежат одной лексеме, для сокращения записи мы будем называть “словоформы на одну лексему” [прим. автора].

Данный метод корреляции был разработан специально для задачи морфологического анализа и не имеет ничего общего с его вероятностно-статистическим аналогом, предназначенным для решения других задач [прим. автора]. n деревьями словоформ называется (m)-матрица, в которой , если заданный параметр корреляции t определен для si в Tj, и в противном случае.

В процессе корреляции отдается приоритет гипотезам исходной словоформы, на основе которых подбираются корреляты, что позволяет избежать ситуации, когда лес вырождается в пустое множество. Число матриц корреляции внутри одного типа корреляции определяется по числу возможных значений грамматической категории: так, в процессе корреляции по роду существительных для русского будет построено три матрицы, соответствующие трем возможно задействованным в деревьях значениям грамматического рода. Для каждой матрицы корреляции находится после чего из множества значений k внутри одного типа корреляции также выбирается максимальное значение, которое и соответствует унифицированной гипотезе. Узлы не получившие максимального значения удаляются из деревьев словоформ. Условие задает приоритет гипотезам дерева исходной словоформы T1.

Допустим в прочитанных программой текстах было подобрано два коррелята для исходной словоформы W1, тогда лес F состоит из трех деревьев словоформ W1, W2 и W3 (рис.4):

Удаляются ложные узлы деревьев словоформ леса F (рис. 5):


Корреляция по части речи:

матрица корреляции

значение k

максимальное значение внутри типа корреляции

После завершения корреляции по роду и удаления не получивших максимального значения узлов гипотеза унифицирована: W1[stem1[N[Кл:1, m, Nom, …]]]; W2[stem1[N[m, …]]]; W3[stem1[N[m, Gen, …]]]. Часто задаваемый вопрос - почему в качестве формализма выбраны деревья, а не кортежи. Деревья позволяют сделать метод корреляции универсальным, независимым от выбранного для анализа естественного языка. Как видно из примеров, ширина дерева произвольна, а высота фиксирована и равна трем для русского языка. Высота дерева, также как и ширина, может изменяться при переходе от одного анализируемого языка к другому и определяется морфологической грамматикой, т.е. существующими зависимостями между грамматическими категориями и их показателями в каждом конкретном языке, что делает использование кортежей затруднительным, а «древесный» формализм сохраняет независимость метода корреляции от морфологических правил рассматриваемого языка.

Последовательность шагов (Д1..Д13) алгоритма морфологического анализа без словаря представлена на рис.8.

Рис. 4

Д0. Выход из программы.

Д1. Выбрать из таблицы полных словоформ (рис.3) непроиндексированную словоформу, то есть словоформу, для которой еще не построена основа (ДА: словоформа выбрана; НЕТ: все словоформы в таблице проиндексированы).

Д2. Проверить, что данная словоформа не является предлогом или местоимением. Построить дерево всех возможных гипотез для данной словоформы. (ДА: не является; НЕТ: является)

Д3. Выбрать из таблицы полных словоформ (рис.3) словоформы на одну лексему. Создать список коррелятов.

(ДА: корреляты выбраны; НЕТ: список коррелятов пуст)

Д4. Если список коррелятов непустой, то построить деревья всех возможных гипотез для каждого коррелята.

Д5. Провести корреляцию по гипотезам основ.

Д6. Провести корреляцию по значениям части речи.

Д7. Провести корреляцию по значениям спряжения глагола.

Д8. Провести корреляцию по значениям рода существительных.

Д9. Провести корреляцию по значениям парадигматического класса.

Д10. Проверить, что корреляция не привела к удалению полного дерева (дерева коррелята) из леса. (ДА: не привела; НЕТ: привела)

Д11. Удалить ложный коррелят из списка коррелятов.

Д12. Выбрать уникальную основу и ряд грамматических характеристик к данной основе. Проиндексировать тексты, то есть выбрать для построившейся тройки [основа, часть речи, парадигматический класс] коды текстов, в которых встретились словоформы, принадлежащие данной основе.

Д13. Применить метод распределения элементов пересеченных множеств коррелятов.


Заключение


Список литературы:

  1.  Алексей Сикорко «Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ)»:
  2.  Игорь Ножов «Морфологическая и синтаксическая обработка текста».
  3.  С.В. Протасов «Обучение с нуля грамматики связей русского языка».
  4.  


 

А также другие работы, которые могут Вас заинтересовать

33269. Характеристика современных концепций менеджмента (системный , ситуационный , количественные подходы). Сущность целевого и стратегического подхода в менеджменте 30.5 KB
  При ситуационном подходе возникшем в конце 60х годов не считается что концепции традиционной теории управления. школы человеческих отношений и школы науки управления неверны. Считая концепцию процесса управления применимой ко всем организациям сторонники ситуационного подхода нашего столетия признают что. хотя общий процесс одинаков специфические приемы которые должен использовать руководитель для эффективного управления могут значительно варьироваться.
33270. Классификация и общая характеристика управления методов управления персоналом 56.5 KB
  Классификация и общая характеристика управления методов управления персоналом Управление персоналом как специфическая деятельность осуществляется с помощью различных методов способов воздействия на сотрудников. Экономические методы Экономические методы управления являются способами воздействия на персонал на основе использования экономических законов. Наиболее распространенными формами прямого экономического воздействия на персонал являются: хозяйственный расчет материальное стимулирование и участие в прибылях через приобретение ценных...
33271. Управленческое решение: содержание, виды . Стадии и технологии принятия управленческих решений 68.5 KB
  Классификация управленческих решений Классификационный признак Группы Управленческих решений Степень повторяемости проблемы Традиционные Нетипичные Значимость цели Стратегические Тактические Сфера воздействия Глобальные Локальные Длительность реализации Долгосрочные Краткосрочные Прогнозируемые последствия решения...
33272. Элементы налога на имущество организаций и их характеристика 26 KB
  Элементы налога на имущество организаций и их характеристика. Налог на имущество организаций является наиболее весомым в региональных налогах. Плательщиками налога на имущество являются: организации включая банки и кредитные учреждения в том числе с иностранными инвестициями являющиеся юридическими лицами в соответствии с законодательством РФ; филиалы и другие аналогичные подразделения организаций имеющие отдельный баланс и расчетный счет; организации с иностранными инвестициями иностранные компании фирмы международные объединения и...
33273. Элементы транспортного налога и их характеристика 25.5 KB
  Объектом налогообложения являются транспортные средства подлежащие регистрации в соответствии с постановлением Правительства РФ №938 от 12. Налоговой базой является мощность двигателя которая указана в технологическом паспорте транспортного средства в лошадиных силах или киловаттах мощности. Налог исчисляется в рублях с каждой лошадиной силы киловатта мощности каждого транспортного средства по ставкам. Налог уплачивается раз в год по месту нахождения плательщика или регистрации транспортного средства и зачисляется в территориальный...
33274. Элементы налога на имущество физических лиц и их характеристика 25.5 KB
  Элементы налога на имущество физических лиц и их характеристика. Плательщиками налога на имущество физических лиц являются граждане РФ иностранные граждане и лица без гражданства имеющие на территории РФ в собственности движимое и недвижимое имущество. Объектом обложения являются находящиеся в собственности физического лица недвижимое и движимое имущество которое соответственно можно разделить на две группы: 1. При исчислении налога на недвижимое имущество налогооблагаемой базой является оценочная стоимость имущества которая может быть...
33275. Элементы земельного налога и их характеристика 33.5 KB
  Существует несколько форм платы за землю: земельный налог арендная плата нормативная цена земли. Ежегодным земельным налогом облагаются собственники земли землевладельцы и землепользователи кроме арендаторов. Арендная плата взимается за земли переданные в аренду. Для покупки и выкупа земельных участков в случаях предусмотренных земельным законодательством РФ а также для получения под залог земли банковского кредита устанавливается нормативная цена земли.
33276. Упрощенная система налогообложения индивидуальных предпринимателей на основе патента 29 KB
  Под субъектами малого предпринимательства понимаются коммерческие организации одновременно удовлетворяющие следующим условиям: 1 Доля участия РФ субъектов РФ общественных и религиозных организаций и объединений благотворительных и иных фондов в уставном капитале организации не превышает 25; 2 Доля уставного капитала доля уставного капитала принадлежащая одному или нескольким юридическим лицам не являющимся субъектами малого предпринимательства не превышает 25; 3 Среднесписочная численность организации не превышает предельного...
33277. Единый налог на вмененный доход для отдельных видов деятельности и его характеристика 27 KB
  Единый налог на вмененный доход для отдельных видов деятельности и его характеристика. Данный налог введен для обложения сфер деятельности где преобладают наличные денежные расчеты. Базовая доходность – условная месячная доходность в стоимостном выражении на ту или иную единицу физического показателя характеризующего определенный вид предпринимательской деятельности в различных сопоставимых условиях которая используется для расчета величины вмененного дохода. Корректирующие коэффициенты базовой доходности – коэффициенты показывающие...