38705

МЕТОДЫ И СРЕДСТВА ПОРОЖДЕНИЯ СЕМАНТИЧЕСКИХ КОНСТРУКЦИЙ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ИНТЕРФЕЙСОВ ПРОГРАММНЫХ СИСТЕМ

Диссертация

Информатика, кибернетика и программирование

Представление слов языка и проблема полисемии. Единство формальных и смысловых характеристик слова в искусственных языках для машинного перевода. Проблемы создания языка описания семантики. ПРИНЦИП ОБЪЕКТНЫХ ОПРЕДЕЛЕНИЙ КАК ОСНОВА КЛАССИФИКАЦИИ ЕДИНИЦ ЯЗЫКА.

Русский

2013-09-29

2.35 MB

20 чел.

- 163 -

РОССИЙСКАЯ АКАДЕМИЯ НАУК

СИБИРСКОЕ ОТДЕЛЕНИЕ

ИНСТИТУТ  ВЫЧИСЛИТЕЛЬНОГО  МОДЕЛИРОВАНИЯ

На правах рукописи

Личаргин Дмитрий Викторович

МЕТОДЫ И СРЕДСТВА ПОРОЖДЕНИЯ СЕМАНТИЧЕСКИХ
КОНСТРУКЦИЙ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ИНТЕРФЕЙСОВ
ПРОГРАММНЫХ СИСТЕМ

05.13.17 – "Теоретические основы информатики"

Диссертация на соискание ученой степени
кандидата технических наук

Научный руководитель:

доктор технических наук

Л. Ф. Ноженкова

Красноярск 2004


СОДЕРЖАНИЕ

[1] ВВЕДЕНИЕ

[2] ГЛАВА 1. ИССЛЕДОВАНИЕ ЗАДАЧ ФОРМАЛИЗАЦИИ СЕМАНТИКИ ЯЗЫКОВЫХ ЕДИНИЦ В ПРИМЕНЕНИИ К СОЗДАНИЮ
ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ИНТЕРФЕЙСОВ

[2.1] 1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем

[2.1.1] 1.1.1. Проблема исследования значения

[2.1.2] 1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике

[2.2] 1.2. Семантические классификации языковых единиц
в лингвистических базах данных

[2.2.1] 1.2.1. История составления словарей

[2.2.2] 1.2.2. Семантические поля, тезаурусы, темы и подтемы

[2.2.3] 1.2.3. Задача представления иерархии языковых единиц

[2.3] 1.3. Лингвистические исследования множества слов в речи

[2.3.1] 1.3.1. Тождественные элементы значения слов в тексте

[2.3.2] 1.3.2. Сильные и слабые импликации в тексте

[2.3.3] 1.3.3.  Порождающие грамматики

[2.4] 1.4. Представление слов языка и проблема полисемии

[2.4.1] 1.4.1. Внутренняя структура слова, ядро и периферия

[2.4.2] 1.4.2. Дефинитивное и полное значение слова

[2.4.3] 1.4.3. Применение компонентного анализа

[2.4.4] 1.4.4. Лексико-семантические варианты в языке и речи

[2.5] 1.5. Единство формальных и смысловых характеристик слова
в искусственных языках для машинного перевода

[2.5.1] 1.5.1. Системы типа «Интерлингво» и машинный перевод

[2.5.2] 1.5.2. Проблемы создания языка описания семантики

[2.6] 1.6. Табличный естественно-языковой интерфейс

[2.7] 1.7. Задачи диссертационной работы

[2.8] Выводы к главе 1

[3]
ГЛАВА 2. ПРИНЦИП ОБЪЕКТНЫХ ОПРЕДЕЛЕНИЙ КАК ОСНОВА КЛАССИФИКАЦИИ ЕДИНИЦ ЯЗЫКА

[3.1] 2.1. Формализация дефиниций

[3.1.1] 2.1.1. Общий вид формальной дефиниции

[3.1.2] 2.1.2. Последовательность классификаций единиц языка

[3.1.3] 2.1.3. Определение базиса понятийного аппарата словарных

[3.1.4] дефиниций

[3.1.5] 2.1.4. Представление языка

[3.2] 2.2. Принципы построения классификации

[3.2.1] 2.2.1. Множество классификаций

[3.2.2] 2.2.2. Множество отрицаний в определении
классификации единиц языка

[3.3] Семантика и семантическая классификация

[3.3.1] 2.3.1. Семантический и другие аспекты языка

[3.3.2] 2.3.2. Проблема построения классификаций вида Ai.Cj

[3.3.3] 2.3.3. Семы классификации

[3.3.4] 2.3.4. Геносемы

[3.3.5] 2.3.5. Классификация понятий

[3.3.6] 2.3.6. Синтагмы и валентности

[3.3.7] 2.3.7. Факты классификации

[3.3.8] 2.3.8. Высказывания

[3.4] 2.4. Понятийное пространство в целом

[3.5] Выводы к главе 2

[4]
ГЛАВА 3. СЛОВАРЬ ПОРОЖДЕНИЯ ЯЗЫКОВЫХ ЕДИНИЦ КАК СРЕДСТВО ФОРМИРОВАНИЯ «ТАБЛИЧНЫХ» ИНТЕРФЕЙСОВ

[4.1] 3.1. Общие принципы построения словаря

[4.1.1] 3.1.1. Понятийное пространство и его наполнение

[4.1.2] 3.1.2. Классификация P1.D3 в целом

[4.2] 3.2. Уровни классификации

[4.2.1] 3.2.1. Вектор классификации слов и понятий

[4.2.2] 3.2.2. Валентностный уровень классификации

[4.2.3] 3.2.3. Уровень основных сем

[4.2.4] 3.2.4. Уровень локализации

[4.2.5] 3.2.5. Уровень свойств

[4.2.6] 3.2.6. Уровень отношений

[4.2.7] 3.2.7. Рекурсивное порождение последующих уровней

[4.2.8] классификации

[4.3] 3.3. Примеры понятий и их кодовых обозначений

[4.3.1] 3.3.1. Примеры понятий для уровня основных сем

[4.3.2] 3.3.2. Примеры понятий для валентностного уровня

[4.3.3] классификации

[4.3.4] 3.3.3. Примеры понятий уровня локализации

[4.4] Семантический код описания смысла

[4.4.1] 3.4.1. Кодировка сочетаний групп слов

[4.4.2] 3.4.2. Кодировка стилистики языка

[4.4.3] 3.4.3. Формула слова и плановые языки

[4.5] 3.5. Типы классификаций

[4.5.1] 3.5.1. Словарь гиперонимов

[4.5.2] 3.5.2. Тематический словарь

[4.5.3] 3.5.3. Словарь дефинонимов

[4.6] Выводы к главе 3

[5] ГЛАВА 4. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ИНТЕРФЕЙСОВ

[5.1] 4.1. Системы «Электронный словарь» и «Электронный разговорник»

[5.2] 4.2. Назначение системы «Электронный словарь»

[5.3] 4.3. Функции системы «Электронный словарь»

[5.4] 4.4. Состав и структура системы «Электронный словарь»

[5.5] 4.5. Входные и выходные данные

[5.6] 4.6. Функционирование системы «Электронный словарь»

[5.7] 4.7. Программная система «Электронный разговорник»

[5.7.1] 4.7.1. Назначение программы «Электронный разговорник»

[5.7.2] 4.7.2. Функции программы «Электронный разговорник»

[5.7.3] 4.7.3. Структура программы «Электронный Разговорник»

[5.7.4] 4.7.4 Входные и выходные данные программы «Электронный разговорник»

[5.7.5] 4.7.5. Описание работы программы «Электронный разговорник»

[5.8] Выводы к главе 4

[6]
ЗАКЛЮЧЕНИЕ

[7]
ЛИТЕРАТУРА

[8] Приложение 1. Определения основных терминов

[9] Приложение 2. Фрагмент словаря подстановочных таблиц


ВВЕДЕНИЕ

Актуальность проблемы

В связи с проникновением компьютерной техники во все сферы человеческой деятельности, когда большая часть населения развитых стран общается с программным обеспечением, решая все более сложные задачи, остро встает проблема перехода от визуального и командного интерфейсов к построению интерфейсов программных систем на естественном языке.

Задача моделирования естественного языка является наиболее важной составляющей проблемы  создания естественно-языковых (ЕЯ) интерфейсов. Ее решение включает как анализ фраз на естественном языке, так и генерацию текстов.

Главным инструментом для решения проблем анализа и порождения фраз и текстов является формализация семантики языка. Для построения естественно-языковых интерфейсов необходимо опираться на формальное описание семантики (системы смысла) единиц естественного языка. Таким образом, смысловая классификация единиц языка является актуальной задачей, определяющей успешность формализации смысла языка в приложении к взаимодействию программного обеспечения с пользователем. Классификация множества грамматически и семантически корректных фраз должна основываться на классификациях слов-понятий и сем языка. Успех описания семантики определяется степенью простоты и полноты лингвистической классификации слов и выражений языка. Сопоставление каждой единице языка или группе единиц соответствующей логико-математической формулы, описывающей их семантику, также является актуальной задачей, поскольку такое формальное описание дает возможность задавать лингвистические объекты с использованием математического аппарата, а также описывать их поведение на уровне программных алгоритмов. Предложенные в работе модели позволяют формализовать такие лингвистические представления, которые ранее не получили строгого математического обоснования, но могут быть полезны для порождения семантически корректных фраз в рамках построения систем общения с программным обеспечением на естественном языке.

Методы оперирования естественным языком находят применение в системах машинного перевода, в системах поиска и обмена информацией, реферировании текстов, экспертных системах и других актуальных программных приложениях.

Цель диссертационной работы

Цель диссертационной работы состоит в создании методов смыслового анализа и порождения фраз и текстов естественного языка на основе авторской семантической классификации слов и понятий, а также в их программной реализации для создания основных элементов естественно-языковых пользовательских интерфейсов программных систем.

Задачи диссертационной работы

Проблема построения естественно-языковых интерфейсов в работе рассматривается с точки зрения построения семантико-лингвистической модели и применения средств визуализации структуры естественного языка. Система визуализации основана на классификации единиц языка разных уровней. В свою очередь, построение на ее основе множества подстановочных таблиц позволяет реализовать алгоритмы генерации осмысленных высказываний. Множество подстановочных таблиц может быть положено в основу  классификации более высокого уровня, чем классификация слов, – классификации высказываний. Для обеспечения единообразного доступа к элементам этих классификаций представляется необходимым сопоставить множеству языковых единиц одного уровня единую формулу, которая строится на основе общего для данного множества единиц вектора семантических признаков, однозначно задающего классификацию языковых единиц данного уровня.

В работе ставятся и решаются следующие основные задачи:

  1.  Определение вектора семантической классификации для единиц естественного языка – слов и понятий.
  2.  Разработка метода классификации слов и понятий языка на основе вектора семантической классификации, определяющего положение слов в понятийном пространстве.
  3.  Разработка словаря-классификации языковых единиц английского языка (более 10 тысяч слов).
  4.  Разработка оригинальных алгоритмов анализа и синтеза фраз естественного языка на основе подстановочных таблиц словаря.
  5.  Реализация программного обеспечения для моделирования основных элементов естественно-языкового интерфейса, визуализирующего структуру парадигматических и синтагматических отношений естественного языка.

В рамках алгоритмической и программной реализации предложенной модели решаются следующие функциональные задачи.

  1.  Выполнение морфологического анализа и синтеза словоформ английского языка.
  2.  Реализация автоматической генерации транскрипции для испанского и немецкого языков на основе написания слов.
  3.  Реализация словаря-классификации слов и понятий естественного языка (английского, русского и др.).
  4.  Разработка программной системы генерации подстановочных таблиц.
  5.  Построение обучающих систем для проверки знания слов посредством генерации осмысленной речи.
  6.  Создание шаблонов составления писем на незнакомом языке.

Методы исследований

В работе используются методы компонентного анализа, математической лингвистики, аппарат порождающих грамматик, методология классификации семантических объектов, методы построения интеллектуальных систем и программного интерфейса.

Основная идея работы

Предлагается оригинальный принцип построения формальных определений смысловых единиц языка и естественного языка в целом, как единой системы описываемых друг через друга понятий.

Предполагается, что главным средством генерации осмысленных единиц языка при построении естественно-языковых интерфейсов является построение лингвистической классификации. Для этой цели исследуются предположения:

  1.  об атомарном строении смысла и последовательном сведении значения языковых единиц к «кванту» смысла;
    1.  об определении лингвистической классификации посредством вектора семантических признаков;
    2.  о наследовании смысловых единиц классификаций низкого уровня классификациями более высоких уровней в системе классификаций естественного языка.

Предложенная лингвистическая классификация используется для построения естественно-языковых интерфейсов. Построен словарь-классификация слов и понятий на основе заданного вектора признаков. Предложен способ построения подстановочных таблиц на основе предлагаемой классификации. Выполнена программная реализация алгоритмов обработки и генерации текстовой информации на основе базы данных подстановочных таблиц. Построение «табличного» естественно-языкового интерфейса осуществляется посредством  визуализации структуры естественного языка в виде иерархии подстановочных таблиц.

 

Новые научные результаты, полученные в работе

В работе предлагается оригинальный метод классификации слов и понятий языка на основе определения вектора расположения слова в понятийном пространстве. Словарь-классификация языковых единиц английского языка является одновременно не имеющим близких аналогов словарем генерации подстановочных таблиц. Предлагаемый словарь позволяет на качественно новом уровне формально описывать подмножества естественного языка, связанные общей темой. Впервые это дает возможность полуавтоматически генерировать подстановочные таблицы,  как модели подмножеств языка, на основе  фрагментов общего для слов языка понятийного пространства. Построены оригинальные порождающие грамматики для задания элементов вектора классификации. В предлагаемой работе впервые в качестве средства генерации фраз для естественно-языкового интерфейса рассматриваются подстановочные таблицы. Реализовано оригинальное программное обеспечение для моделирования работы базовых составляющих естественно-языковых интерфейсов.

Положения, выдвигаемые на защиту

  1.  Предложен оригинальный метод классификации слов и понятий языка на основе определения вектора расположения слова в понятийном пространстве.
  2.  Разработан словарь-классификация языковых единиц английского языка (более 10 тысяч слов).
  3.  Разработаны оригинальные алгоритмы анализа и синтеза фраз естественного языка на основе подстановочных таблиц словаря.
  4.  Реализовано программное обеспечение для моделирования основных элементов естественно-языковых интерфейсов.

Практическая значимость

Генерация осмысленной письменной речи – одна из сфер приложения рассматриваемой теории с целью построения ясных и понятных пользователю систем взаимодействия с программным обеспечением. Предложенные методики должны в перспективе позволить генерировать и анализировать речь различной степени осмысленности, представлять информацию, выделенную из речи в виде данных когнитивной классификации, и тем самым обеспечить основы для создания естественно-языковых интерфейсов между человеком и машиной. Представленная система используется в работе программы «Электронный разговорник» для построения текстов на незнакомом языке и автоматической генерации письменной речи на английском языке.

Большинство теоретических результатов работы используется в сфере обучения иностранным языкам (английский, испанский), как самим автором, так и другими профессиональными преподавателями. Практически используется метод построения фраз на незнакомом языке на основе авторского словаря, позволяющего генерировать подстановочные таблицы, используемые далее для генерации осмысленной речи.

В перспективе полученные результаты могут быть использованы для создания автоматических систем перевода и реферирования текстов с последующим хранением, поиском и извлечением нужной информации. Это связано с тем, что в рамках предлагаемого подхода классифицируются не только слова языка, но и когнитивные факты. Предлагаемая классификация слов может служить инструментом для удаления из текста семантического шума и представления предложений в приведенном виде, что может практически использоваться в системах машинного перевода.

Достоверность и обоснованность

Достоверность и обоснованность результатов диссертации определяются:

  •  Сопоставлением основных положений работы с решением аналогичных задач другими исследователями.
  •  Построением реальных авторских классификаций сем, слов и предложений естественного языка.
  •  Практической апробацией программных продуктов для полуавтоматической и автоматической генерации осмысленной речи, в том числе на незнакомом языке.
  •  Практическим использованием авторского пособия по составлению фраз на незнакомом языке – словаря-разговорника.

Личный вклад автора

Все основные теоретические и практические результаты, изложенные в работе, получены непосредственно автором. В частности, предложен оригинальный метод практического представления семантики произвольных единиц языка, а также системы их классификаций. Метод основан на определении системы векторов семантических признаков, в частности, классификации слов и понятий естественного языка. Разработаны алгоритмы порождения естественного языка на основе предложенной классификации. Иллюстрируются алгоритмы и методы построения основных элементов естественно-языкового интерфейса на основе предложенной модели языка.

Апробация работы

Полученные результаты представлены на семинарах ИВМ СО РАН (2000-2003 гг.); на всероссийских семинарах «Вопросы теории и практики перевода», Пензенский государственный педагогический университет (Пенза, февраль 2002 и февраль 2003); на конференции молодых ученых ИВМ СО РАН (Красноярск, апрель 2002); всероссийской конференции «Вопросы теории и практики перевода»,  Сибирский технологический университет (Красноярск, март 2002); на специальном семинаре для преподавателей английского языка в Красноярском государственном педагогическом университете (Красноярск, апрель 2003).

Публикации

По теме диссертации опубликовано 8 работ, в том числе словарь-классификация слов и понятий английского языка «Комбинаторный разговорник».

Структура и объем работы

Диссертация состоит из введения, 4 глав, заключения и списка использованных источников. Основное содержание работы изложено на 151 странице текста, содержит 6 рисунков, 21 таблицу. Список используемых источников включает 97 наименований.

Основное содержание работы

Во введении дана краткая постановка задачи, обоснована актуальность темы диссертационной работы, даны постановка проблемы и краткое описание содержания диссертации. В первой главе представлено обоснование темы и задач диссертационной работы.  Показана актуальность исследований в области формализации языка, а именно, его семантики, для построения систем анализа и синтеза речи. Эти исследования могут быть применены для создания естественно-языковых интерфейсов при решении таких задач как:

  •  создание семантически ориентированных систем перевода;
  •  создание систем автоматического реферирования, сортировки, хранения, поиска и представления информации;
  •  обучение иностранным языкам и неязыковым дисциплинам с использованием программного обеспечения с естественно-языковым интерфейсом.

Также в первой главе выполнен сравнительный анализ существующих подходов и методов анализа семантики языка. Показано, что несмотря на наличие самых глубоких исследований языка в самых различных его аспектах, в настоящее время отсутствует единая теория семантики языка, которая бы представила множество всех единиц языка как один объект - множество классификаций со своими свойствами и единообразным доступом к любому его элементу. Это объясняет оторванность многих глубоких исследований семантической структуры единиц языка от программной реализации, обеспечивающей простой и ясный естественно-языковой интерфейс. Исследована проблема построения семантических классификаций и анализа структуры слова. Показано, что на сегодня не были сформулированы принципы построения произвольных понятий и не создана их единая классификация по универсальным признакам, актуальна проблема построения и множества семантических классификаций – от текстов и слов вплоть до сем и единого кванта смысла. Такой подход позволит релизовать представление достаточно больших пластов лексики в визуальной форме во взаимодействии «программное обеспечение – пользователь». В заключении первой главы сформулированы задачи диссертационной работы.

Во второй главе излагаются общие принципы построения классификаций слов и высказываний естественного языка. Показано, что любому понятию естественного языка сопоставляется смысловое определение на основе общего для единиц одной классификации вектора признаков, где каждое слово однозначно определяется комбинацией значений элементов этого вектора. Множество объектов, отношений и их отрицаний составляют формальную систему смыслового определения любого слова.  При этом для всех единиц языка в рамках одной классификации можно получить единую формулу объектов и отношений, общую для всех слов языка, где каждое слово отличается от всех остальных уникальным набором отрицаний (или утверждений) внутренних семантических объектов или отношений. Последовательность отрицаний задает вектор семантических признаков, описывающих основное семантическое значение любого слова. Вектор семантических признаков однозначно задает классификацию любых языковых единиц, которая может быть представлена либо в виде многомерного куба, либо в форме дерева классификации с одним классификационным признаком на каждом уровне. В этой же главе показано, что изменение последовательности составляющих вектора дает различные древообразные классификации, которые можно представить в форме различных словарей: словаря гиперонимов (общих и частных значений слов), словаря ассоциаций, комбинаторных словарей и т. д. Показано также, что для каждого уровня языка определяется своя семантическая классификация, свой семантический вектор и своя семантическая формула. Вместе они образуют последовательности классификаций, векторов и формул разного уровня. Во второй главе указывается на то, что представление классификаций в форме упорядоченного множества открывает большие перспективы в создании интерфейсов для решения задач построения фраз на незнакомом языке, поиска информации в базах данных и осуществления машинного перевода на основе представления высказываний в приведенном виде и использования подстановочных таблиц для обеспечения осмысленности фраз.

В третьей главе показывается практическая осуществимость построения предложенного вектора классификации и выявляется диапазон его значений. Показана возможность задавать значения вектора признаков, определяющих понятийное пространство, включающее любые слова естественного языка. Представленный в работе словарь на 10.000 слов английского языка сопоставляет словам понятия естественного языка. Этот результат дает возможность оперировать осмысленными подмножествами понятийного пространства слов и понятий языка и представлять подмножества слов в рамках естественно-языкового интерфейса для эффективного взаимодействия программ с пользователем. В главе третьей указывается на то, что такого рода интерфейс может явиться посредником между естественным языком общения людей и языком команд и запросов в программных системах. Можно комбинировать группы слов в подстановочные таблицы, позволяющие порождать осмысленные фразы языка.  В этой же главе показывается, что подстановочные таблицы служат основой для построения простых и эффективных естественно-языковых интерфейсов, где выбор конкретной фразы языка доступен как компьютеру, так и пользователю, в результате чего достигается соответствие внутренней структуры данных, алгоритмов порождения языка и доступа к данным через естественно-языковой интерфейс.

В четвертой главе дано описание программного обеспечения для моделирования «табличного» естественно-языкового интерфейса. Дано описание и характеристики системы «Электронный словарь», предназначенной для электронного представления слов языка в виде семантической классификации. Иллюстрируются реализованные в этой системе алгоритмы составления и редактирования подстановочных таблиц и подбора материалов для урока английского языка. Предлагаемая программа прошла апробацию на уроках английского языка. К работе прилагается акт о внедрении программы в работу Образовательным центром «Аспект». В четвертой главе также описывается разработанная на базе классификации слов языка система «Электронный разговорник». Система использует подстановочные таблицы, генерируемые программой «Электронный словарь». Электронный разговорник позволяет автоматически генерировать семантически осмысленные фразы английского языка, что может быть использовано для тренировки понимания фраз английского языка  учеником в некоторой речевой ситуации. Программа «Электронный разговорник» позволяет составлять предложения на незнакомом языке полуавтоматически на основе введенных в программу шаблонов – подстановочных таблиц, при этом налагается запрет на генерацию семантически бессмысленных фраз. Разговорник предназначен также для экспериментального моделирования и исследования сочетаемости фраз, взятых из последовательности подстановочных таблиц, в целях автоматической генерации не только осмысленных предложений, но и осмысленных текстов языка. Программа «Электронный разговорник» используется учащимися для закрепления знаний лексики английского языка.

В заключении перечислены результаты диссертационной работы, показаны дальнейшие направления исследования, сформулированы основные выводы.

В приложении приводятся примеры подстановочных таблиц, позволяющих генерировать осмысленные фразы в приложении к построению естественно-языковых интерфейсов.

Автор выражает искреннюю признательность в первую очередь научному руководителю, доктору технических наук Людмиле Федоровне Ноженковой за неоценимую помощь в описании и оформлении предлагаемой модели естественного языка и чуткое научное руководство. Кроме того, автор хотел бы особенно поблагодарить доцента кафедры английской филологии КГПУ, кандидата филологических наук Тамару Михайловну Кругликову за научное руководство исследованиями в 1991-1997 гг., а также кандидата физико-математических наук, преподавателя КГПУ Ю. Безгочеву за ценные замечания по результатам исследований в эти же годы.  Автор также выражает глубокую признательность кандидату физико-математических наук С. В. Комогорцеву, кандидату педагогических наук Н. В. Эверт, кандидату физико-математических наук С. А. Шикунову, кандидату технических наук А. Ю. Зиновьеву, а также кандидату физико-математических наук А. М. Кутьину за продуктивные дискуссии по вопросам формализации естественного языка.


ГЛАВА 1. ИССЛЕДОВАНИЕ ЗАДАЧ ФОРМАЛИЗАЦИИ СЕМАНТИКИ ЯЗЫКОВЫХ ЕДИНИЦ В ПРИМЕНЕНИИ К СОЗДАНИЮ
ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ИНТЕРФЕЙСОВ

1.1. Проблема применения лингвистического аппарата в естественно-языковых интерфейсах программных систем

1.1.1. Проблема исследования значения 

Построение взаимодействия с компьютером на естественном языке предполагает самые серьезные исследования в области семантики. На сегодня наиболее разработанной областью остаются дисциплины, изучающие формальные аспекты языка: грамматику, фонетику и прочие. Этим объясняется успех, например, в создании грамматических анализаторов, систем проверки орфографии, синтеза и анализа звуковой речи и поиска текстов по ключевым словам. При этом, в таких системах, как машинный перевод, экспертные системы, реферирование текстов и семантический поиск информации прогресс не столь значителен. Это заставляет многих «пессимистов» в отношении искусственного интеллекта говорить об иррациональности понимания и смысла как такового.

Тем не менее, изучение содержательной стороны языка сегодня выдвинулось в число центральных проблем лингвистики. Это не удивительно, так как цель всякой речи состоит, прежде всего, в том, чтобы передавать смысловое значение. Более того, в последние два десятилетия был достаточно осознан общенаучный характер теории значения, и эта проблематика широко разрабатывается не только с позиции лингвистики, но также философии, логики, психологии, семиотики, социологии, теории связи, кибернетики, информатики, математического и программного обеспечении вычислительных машин, комплексов и компьютерных сетей и в ряде других направлений.

Вместе с тем пристальный интерес к семантике выявил достаточно сложный и многоаспектный характер проблем формального представления языковых единиц естественного языка.

Теория значения к настоящему времени еще не вышла из начальной стадии разработки, а различные аспекты исследования значения и многочисленные частные и общесемантические концепции с трудом поддаются согласованию и сведению в единую теорию. Но даже в отсутствии общепризнанной теории, при всем разнообразии взглядов и подходов в современной семантике, сделано уже немало, и нынешние знания в этой области далеко ушли от наивных представлений, которые держались, почти не меняясь, от древности до нашего времени.

Семасиология по необходимости должна иметь в перспективе общенаучную теорию значения []. Отсутствие единой теории значения объясняет тот пробел, который наблюдается сегодня между фрагментарно-интуитивными положениями традиционной лингвистической семантики и концепциями представления и алгоритмов обработки информации, предлагаемых инженерной лингвистикой.

Очевидно, что для обеспечения возможности применения лингвистических исследований в рамках создания средств взаимодействия с пользователем необходима единая семантическая теория. Можно предположить, что предлагаемая в диссертации концепция классификации языковых единиц различных масштабов (уровней) может служить основой построения единой семантической теории и найдет широкое применение в системах порождения естественного языка, что оказывается востребованным именно для построения интерфейсов пользователя с программным обеспечением на различных языках.

1.1.2. Язык и речь, грамматика и семантика, другие предметы лингвистической науки и их применение в информатике

В языкознании, в частности, в семантике, изначально выделяются два основных предмета лингвистической науки – язык и речь. Под языком понимается представление о лингвистических единицах в целом, а под речью –знаковое выражение определенных частных представлений о реальности средствами языка. Язык с точки зрения инженерной лингвистики представляет собой множество всех допустимых фраз – сочетаний слов. Традиционное средство порождения языка – порождающие грамматики. В традиционной лингвистике под языком понимают набор слов, дефиниций, правил и принципов, по которым строится речь. Под речью же понимается последовательность знаков – вербальных и невербальных - письменной и устной речи. Язык в большей степени рассматривает классификацию языковых единиц, представляя собой некую статическую систему. Речь, напротив, явление динамическое, предполагающее творческие и порождающие акты.

Грамматика как лингвистическая наука на протяжении всего «оптимистического» периода в исследовании проблем искусственного интеллекта, с 60-х по 70-е годы, когда большинство исследователей верило в скорое создание искусственного разума, занимала ведущее место. Даже системы порождения фраз были названы порождающими грамматиками. С конца 70-х, начала 80-х годов зреет пессимизм в отношении перспектив прохождения машиной теста Тьюринга в принципе. Так, например, ведущие сторонники пессимизма в отношении перспектив искусственного интеллекта Дрейфус и Хьюберт развивают тезис, о том, что машина не может мыслить, поскольку для мышления требуется понимание, а понимания не может быть там, где понимать некому [].

Американские авторы часто ссылаются на парадокс «китайской комнаты». В комнате сидит один человек, перед ним, в различных ящиках, должны лежать карточки с китайскими иероглифами, и, не зная значений написанных на них слов, но руководствуясь определенными правилами, этот человек должен составить поэму на китайском языке. По мнению многих специалистов, этот парадокс показывает нелепость попыток построения искусственного интеллекта. Многие оптимисты при этом стали утверждать, что создать искусственный интеллект возможно, но невозможно при этом понять, как он будет работать, и необходимо просто экстенсивно наращивать аппаратное обеспечение машины [2, 95], уподобляя ее по сложности человеческому мозгу, тогда якобы компьютер, за счет самообучения, сам построит непостижимые ячейки памяти и связи между ними, превзойдя более костный естественный интеллект [5, 10]. Пиотровский Р. Г., напротив, считает, что естественный интеллект всегда будет превосходить искусственный, поскольку, если мы создали искусственный интеллект, то мы понимаем все то, чем он является, и, стало быть, сами вмещаем в себя больше, чем искусственный интеллект, а именно, интеллект естественный [].

Однако, тут можно возразить, что составители компьютерных программ, обыгрывающих гроссмейстеров, не обязательно должны сами уметь обыгрывать гроссмейстеров. На наш взгляд, главным для построения программ, моделирующих естественную речь, должен быть принцип максимальной простоты, даже кажущейся примитивности таких систем, позволяющих человеку настолько успешно рефлектировать собственную мыслительную активность, что он смог бы достаточно легко перенести ее принципы на «бездушные» машины без потери эффективности, но при сохранении «понятности» таких систем.

При этом уже сейчас основные надежды на прорыв в области искусственного интеллекта (ИИ) возлагаются на исследования в области семантики, а именно, предметной области на стыке лингвистической семантики, инженерной лингвистики, философии и психологии. Именно на недостаток философского осмысления понятийной организации мира списываются сегодня основные сложности в области искусственного интеллекта и, в частности, создании естественно-языковых интерфейсов, позволяющих пользователю ясно представить структуру как данных в целом, так и их отдельных фрагментов [75].

1.2. Семантические классификации языковых единиц
в лингвистических базах данных

1.2.1. История составления словарей

Первые прообразы современных словарей появились еще до 20 века до нашей эры. В середине первого тысячелетия они уже были во многом схожи с современными словарями. Наибольший размах составление словарей приобрело с появлением книгопечатания, но многие билингвистические словари европейских языков появляются только в XVIIIXIX веках, а словари малых народов и того позже. В советский период в России словарному делу и языкам малых народов уделяется особое внимание [].

Что касается науки о составлении словарей и ее особого места в системе наук, то этот вопрос был окончательно решен лишь во второй половине XX века [].

Некоторые из основных решенных лексикологией  вопросов – это определение видов словарей, структуры словаря, и, в частности, структуры словарной статьи. Л. П. Ступин выделяет пять  главных признаков деления словарей на классы.

1)  Объект описания.

По этому признаку словари делятся на энциклопедические и лингвистические. Первые, в отличие от вторых, объясняют не слова как таковые, а предметы, вещи, события, явления, которые обозначены словами.

2)  Объем вокабуляра, количество слов в словаре.

Долгое время в практике советской лексикографии господствовал «принцип включения любого зарегистрированного слова из неограниченного репертуара источников», что из-за обилия последних в начале советской эпохи особенно выходило за рамки здравого смысла. В результате отказа от этого принципа были «практически созданы и теоретически намечены три основных типа нормативных общих словарей русского языка»:

А) Большой, представляющий современный литературный язык в широкой исторической перспективе.

Б) Средний, с детальной разработкой исторически оправданно стилистического многообразия современного литературного языка.

В) Краткий, популярного типа, стремящийся к нормализации современной литературной речи.

3)  По количеству языков, отраженных и сопоставленных в словаре.

Бывают одно-, дву- и многоязычные словари.

4)  По функциональной разновидности языка, описываемой в словаре.

a) по назначению,

b) по эпохе.

5)  По масштабу единиц, описываемых в языке.

Это могут быть слова, словосочетания, фразеологизмы. В качестве шестого критерия можно предложить особенности упорядочения слов в языке. Слова могут располагаться в алфавитном порядке либо семантически.

7) По способу описания лексики.

Соответственно можно выделить следующие виды словарей:

Идеографические словари имеют свои особые функции и преимущества. Ведь для того чтобы найти в словаре алфавитного типа нужное слово, необходимо знать это слово (его форму), а если слово забыто или его трудно вспомнить, или оно вообще не известно пользователю словаря, то найти его в таком издании достаточно сложно. Именно поэтому и существуют словари, где слова располагаются не в алфавитном порядке, а в порядке смысловом, по связям слов, в частности, по их смысловой близости. Такие словари называются идеографическими, и принцип их построения – не от слова к понятию, а от понятия к слову. Наиболее известным словарем этого типа является справочник П. Роже (Roget P. M. Thesaurus of English Words and Phrases Classified and Arranged so as to Facilitate the Expressions of Ideas in Literary Composition Lnd, 1852). Ценность справочника Роже в том, что если необходимо выразить идею, например, понятие «любовь», то зная хотя бы одно слово, обозначающее это понятие, можно легко найти в словаре целый набор слов (включая все части речи), так или иначе связанных с этим понятием. Кроме словаря Роже в англоязычной лексикографии имеются и другие идеографические издания: Laird Ch. Webster's New World Thesaurus. N. Y., New American Library, 1971. Laffail J. A. Concept Dictionary of English. Essex, N. Y., 1973.

Словарное издание может включать в себя следующие пункты.

  1.  Введение или предисловие.
  2.  Раздел «Как пользоваться словарем».
  3.  Ключ к системе транскрипции, применяемой в словаре.
  4.  Список сокращений и их объяснения.
  5.  Основной список слов, т. е. собственно словарь.
  6.  Дополнительный материал, различные приложения.

Структура словарной статьи в общем виде может выглядеть следующим образом.

1. Заглавное слово, открывающее словарную статью.

2. Описание семантико-стилистических и грамматико-функциональных особенностей слова.

3. Документальное подтверждение использования слова в речи.

Структура словарной статьи толкового словаря дана Л. П. Ступиным в следующем виде.

1. Орфография слова с указанием слогоделения.

2. Орфоэпия (произношение) слова при помощи алфавита и деокритических знаков.

3. Грамматика с указанием на части речи с перечнем основных словоизменительных форм слова.

4. Этимология (язык источник и первоначальное значение элементов слова).

  1.  Семантика, вскрывает структуру значения слова.
  2.  Стилистические пометы.

Словарные определения бывают 3-х типов:

1) логический тип (через род и видовое отличие),

2) лингвистический тип (через синонимы),

3) переводные словари (через эквивалент на другом языке).

Очевидно, что пока информация словарей и баз данных не будет представлена в виде понятийного пространства, где семантически схожая информация расположена близко друг к другу,  структура данных не будет достаточно простой ни для создания достаточно общих алгоритмических правил, ни для ясного представления информации в рамках естественно-языкового интерфейса. Для достижения этого структура словаря должна быть представлена в форме дерева классификации, свойства которого рассматриваются ниже [, , , , ,  - ].

1.2.2. Семантические поля, тезаурусы, темы и подтемы

Некоторые словари, например, словарь Павла Литвинова [], пытаются применить древесный принцип организации слов; темы, в рамках которых располагаются слова, разделены на несколько уровней. Однако никаких общих принципов такой классификации не предлагается.

С точки зрения современной лингвистики семантические поля представляют собой семантические классы слов, разбивающих весь вокабуляр на особые групп понятий, выражаемых словами.

Сегодняшняя наука предлагает следующее представление о семантических полях: все множество слов может члениться на отдельные поля, при этом различные поля пересекаются и не имеют четких границ. Целостность семантического поля определяется ассоциативными связями или неким соответствием с названием этого семантического поля. Еще одно свойство семантических полей есть то, что они представляют собой «большие массивы неупорядоченной лексики». Упорядочить их полностью до сих пор считалось вопросом будущего. Таким образом, в семантическом поле как нечетком множестве, во-первых, невозможно однозначно определить принадлежность слов к этому полю, во-вторых, трудно определить отношения порядка на нем как на множестве. В предлагаемой работе лексические пласты и далее отдельные единицы языка в этих пластах полностью упорядочиваются.

Следующая особенность семантических полей есть смысловое обобщение всех слов на основе категорий частей речи, идущее еще от Аристотеля. Это категории: предмет, признак, действие и т. п. По мнению современных исследователей, часть речи является лексико-семантической парадигмой высшего ранга, которая членит весь словарный состав языка на большие классы слов единиц языка, имеющих крайне абстрактное значение. Вероятно, следует считать части речи в принципе не семантическими. Они существуют параллельно с синтаксическими категориями, наряду с ними определяющими слова языка.

Нельзя не согласиться с тем, что при выделении семантических полей существует «опасность отождествления схожих, но не тождественных признаков», то есть отождествления общего и частного. Подобные суждения имеют свои истинные основания. Хотелось бы при этом не останавливаться в анализе лексики на слишком широком множестве понятий и не считать классы (предмет, признак предмета, действие, процесс или какое-либо иное множество слов) пределами обобщения. При этом современной наукой о языке не принято доказывать достаточность этих классов для классификации любых понятий.

В связи с этим некоторыми учеными высказывается мнение о необходимости «сближения толкового и идеографического словарей, чтобы сама позиция слова в статье тезауруса была семантически значимой, служила бы его семантическим признаком» []. Указанные принципы реализованы в предлагаемом словаре, что дает возможность порождать язык в системах семантически ориентированного взаимодействия с пользователем.

1.2.3. Задача представления иерархии языковых единиц

В личном письме Р. Г. Пиотровский определил сегодняшний путь науки к решению проблемы формализации семантики. Он указал на то, что якобы одному человеку не под силу формализация языка в целом, и следует заниматься заранее ограниченной «замкнутой» системой языка. Тем не менее, в предлагаемой работе именно отказ от ограничения классификации в рамках какой-либо узкой области привел к созданию системы, описывающей сходство и отличие понятий из самых разных областей знания.

Наиболее известными на сегодня иерархиями слов являются словари тезаурусы, активаторы. Их отличительными особенностями являются:

  1.  Отсутствие деления узла иерархического дерева на достаточные для классификации любого понятия признаки.
  2.  Отсутствие «симметрии» при классификации различных узлов этих деревьев, то есть общего признака для каждого отдельно взятого уровня классификации.
  3.  Произвольность группировки слов по любым принципам: гиперонимии, ассоциативности и др.
  4.  Чрезмерно длинные объяснения родовых отличий между классифицируемыми словами, без выделения одного главного и определяющего отличия.

Примерами таких классификаций являются: активаторы фирмы Лонгман, словарь Павла Литвинова, 3000 английских слов, техника запоминания.

Современные толковые словари имеют следующие недостатки:

  1.  Отсутствие единообразных определений для схожих слов языка.
  2.  Наличие «кругов» в определении слов, например, в словаре Harraps Dictionary слово «happy» определяется как «content», «content» как «satisfied», а «satisfied» как «joyful» и «happy».

Таким образом, актуальной является проблема построения максимально ясной, простой и единообразной иерархической структуры данных, в частности словарей, без чего системы анализа речи являются либо мало эффективными, либо ограниченными узкой предметной областью. При этом, необходимо перейти от концепции «очень сложной машины», при помощи скрытых от пользователя операций выдающей как правило «достаточно непредсказуемые» ответы на запросы пользователя, к концепции максимально простой и ясной структуры данных, где как пользователь, так и машина оперирует не отдельными словами, а целыми классами слов языка. Последнее должно гарантировать смысловое соответствие внутренней структуры данных, алгоритмов порождения и поиска, а так же представления о системе у пользователя.

1.3. Лингвистические исследования множества слов в речи

1.3.1. Тождественные элементы значения слов в тексте

Отождествление компонентов значения является свойством слов и сем текста. В тексте значения слов отличаются семантической общностью. Например, в синтагме «тянуть телегу» понятие «тянуть» подразумевает физическое тело, изменяющее свои координаты в пространстве. «Телега» - это физическое тело, созданное человеком для передвижения в пространстве. Таким образом, понятия «движение» и «физическое тело» есть признаки. Они обеспечивают общность значений «тянуть» и «телегу» в приведенном сочетании слов. «Семантическая общность лексических значений различных слов - основа реализации функции контекста» []. Повторы смысловых компонентов должны иметь место в тексте и заголовке текста, различных частях текста, в синтагматических парах, фразах и предложениях.  Контекст действует, во-первых, как уточняющий, а, во-вторых, как восстанавливающий, компенсирующий аппарат, а это значит, что он выполняет три функции:

1) уточняющую,

2) идентифицирующую и актуализирующую,

3) восстановительную.

Рассмотрим повторяющиеся признаки в рамках целого предложения, как это делают другие исследователи. Во фразе «первооткрыватели назвали этот элемент германием» автор сопоставил каждому слову набор признаков а, б, с и так далее:

первооткрыватели –

а, б, в, д;

назвали –

г, в, д;

этот элемент –

в, д;

германием –

г, в, е, д.

Здесь

а – лицо,

б – открывать,

в – объект, элемент,

г – называть,

д – доселе неизвестный объект,

е – металл.

Как видно из семантической записи, сквозными повторяющимися признаками являются: в (объект, элемент), д (доселе неизвестный). Обеспечивая семантическое согласование, эти два признака выступают то как основные, то как конкретизирующие, подчиненные в комбинациях (а, б, в, д), (г, в, д), (г, в, е, д).

Задача разработки алгоритма порождения всех, в частности, синонимичных высказываний, ставится, например, Селиверстовой О. Н:. «Задача синтеза предложений естественного языка, синонимичных друг другу и исходному предложению ставится как задача множественного синтеза; необходимо получить по возможности все предложения, синонимичные данному». Например,

1. Артиллерия обстреливает аэродром. Артиллерийский обстрел аэродрома. Обстрел аэродрома артиллерией.

2. Реформировать экономику. Реформа экономики. Экономическая реформа.

3. То, что сказал Петр, заставило меня сильно возмутиться. Слова Петра возмутили меня до глубины души. Слова Петра вызвали у меня глубокое возмущение. От слов Петра меня охватило огромное возмущение. Слова Петра были причиной моего глубокого возмущения. Мое глубокое возмущение было результатом / следствием слов Петра. Мое глубокое возмущение было вызвано словами Петра. Я негодовал по поводу слов Петра. Я говорил, что слова Петра мне не понравились. Я подумал, что мы не можем мириться со словами Петра. По моему мнению, слова Петра были ужасны и т.д.

Так на основе предложенных определений можно доказать формально бессмысленность различных фраз. Трудности с осуществлением подобных операций на естественном языке вызваны, в частности, полисемией. Так, глагол «know» может подразумевать как «иметь представление о», так и «быть знакомым с». Предлагаемая в работе классификация понятий полностью устраняет полисемию классифицируемых слов в каждом конкретном значении.

В рамках принципа максимальной простоты и ясности структуры данных и операций сразу над целыми группами языковых единиц необходимо с наибольшей ясностью представлять символьную информацию в самих текстах. Концепция устранения семантического шума, предлагаемая далее, призвана приводить смысл к простейшему стандартному виду (например, трансляция фразы с семантическим шумом «Ты моя любовь, ты моя судьба» во фразу  без семантического шума «Очевидно, ты будешь любить меня» и, далее, в любую синонимичную ей фразу, например «Явственность будущего с моим любимым поселилась в моей душе»). Построение естественно-языковых (ЕЯ) интерфейсов именно на основе фраз приведенного вида должно облегчить их обработку, сравнение с информацией в базах данных и дружелюбность во взаимодействии с пользователем.

1.3.2. Сильные и слабые импликации в тексте

Важным понятием современной лингвистики является понятие об импликациях или денотациях, то есть парах слов, способных согласовываться друг с другом по смыслу и грамматически, образуя синтагматические отношения.

При этом затекст, то есть представление обо всех вариантах употребления слова в речи, формируется как представление об истинных и ложных денотациях, то есть о сочетаемости пар слов. Это то, что Никитин М. В. называет импликациями. Никитин М. В. предлагает исследовать импликации чисто статистическими методами, т. е. выявляя определенные синтагматические пары в текстах и классифицируя их по частотности как сильные или слабые. []

Селиверстова О. Н. делит комбинаторику слов на разные аспекты: логический, конфигуральный и стилистический [].

Логический аспект, названный представлением об истинных и ложных денотациях, присутствует во всех осмысленных текстах. В предложении «Мальчик играет в мяч» рассмотрим синтагматическую пару «Мальчик играет» с уже уточненным лексико-семантическим вариантом (одного из значений) слова «играет». Таким образом, событие, которое осуществляет мальчик, относится к классу «играть», и это есть его истинная денотация и сильная импликация. С точки зрения необходимости минимизации затекстных представлений можно сказать, что «играть» есть свойство, в том числе детей; мальчик суть ребенок, отсюда силлогизм дает вывод: играть есть свойство мальчика. Помимо логической можно также выделить конфигуральную и стилистическую синтагматику. «Конфигуральные признаки определяют возможность и невозможность использования слова в том,\ или ином окружении, если смысловые признаки слова допускают это употребление» [].

Очевидно, что предлагаемое далее представление об импликациях не одного слова другим словом, а одной группы слов другой группой слов делает лингвистическое представление об импликациях более доступным для программной реализации.

1.3.3.  Порождающие грамматики

Порождающие грамматики используются в инженерной лингвистике как средство порождения предложений на основе набора слов естественного языка (терминальных символов), служебных слов (рабочих символов) и набора правил вывода одних строк символов через другие.

Вывод предложений всегда начинается с начального символа, заданного в порождающей грамматике. Набор правил, по сути, представляет собой все множество импликаций слов, о которых говорит Никитин.

Порождающие грамматики отличаются следующими ограничениями. Во-первых, представление семантики в рамках порождающих грамматик, например, с использованием семантических падежей, не позволяет учесть всю сложность внутренней семантической структуры языковых единиц и достаточно полно представить семантику языка. В результате бессмысленные предложения также включаются в язык порождающей грамматики, то есть во все множество порождаемых предложений. Вторым недостатком порождающих грамматик является то, что они учитывают лишь синтагматические отношения между словами (их грамматическое значение и (иногда) элементы семантического содержания). Они не учитывают наличие ассоциативных отношений между словами. Явным недостатком порождающих грамматик Хомского является то, что слова представляются в них как элементарные «точки», не имеющие своей структуры.

Сферой практического применения порождающих грамматик уже являются и системы проверки орфографии и пунктуации, и системы машинного перевода, качество которого пока оставляет желать лучшего. Экспертные системы в большинстве своем также анализируют текст при помощи порождающих грамматик, представляя его в виде семантической сети для поиска ее фрагментов. Приведем краткое описание стандартной порождающей грамматики.

Порождающая грамматика состоит из четверки основных компонентов:

(S, T, N, R), где

S - начальный символ,

T - терминальные символы,

N - нетерминальные символы,

R - множество правил вида:

 à , где ,   {N T}, то есть принадлежат объединенному множеству цепочек терминальных и нетерминальных символов.

Существуют различные разновидности порождающих грамматик: контекстные и бесконтекстные, финитные и нефинитные и др. Так, например, простой набор правил:

Существительное à лань,

Существительное à лев,

Существительное à охотник,

Глагол à выследить,

Глагол à охотиться на,

S à существительное + глагол + существительное,

способен порождать предложения вида: лев охотится на лань, охотник выследил льва, лань охотится на охотника.

Набор правил вывода в порождающих грамматиках представляет собой то же, что и множество сильных и слабых импликаций языка, с той лишь разницей, что грамматики приспособлены к математическому аппарату для работы на вычислительных машинах, а импликации делятся на более или менее вероятностные (сильные и слабые). Множество правил порождающей грамматики не является читабельным для простого пользователя, что делает порождающие грамматики черным ящиком, при этом усложнение их структуры, например, путем введения семантических падежей, делает их еще менее познаваемыми и предсказуемыми, что к тому же делает составление такого множества правил делом весьма долгим. По нашим оценкам количество правил порождающей грамматики, необходимых для задания фраз, получаемых из подстановочных таблиц, настолько велико, что их хаотичная с точки зрения семантики запись вряд ли может быть осмыслена. Упорядочение же семантической структуры делает излишней саму идею порождающих грамматик как множества, а не структуры правил.

1.4. Представление слов языка и проблема полисемии

1.4.1. Внутренняя структура слова, ядро и периферия

В лингвистике слово считается центральной категорией. Анализом структуры его формы и значения, так или иначе, занимаются все исследователи языка и речи.

Современные представления внутренней структуры значения слов как совокупности элементарных составляющих сем ведутся в нескольких направлениях. Первое направление состоит в анализе семантического состава слов, то есть того, какие семы присутствуют в слове. Второе направление заключается в представлении внутренней структуры слова как совокупности всех его значений. В рамках третьего направления рассматривается взаимодействие сем, их поведение в речи и т.п.

Словарная дефиниция, таким образом, является системой синтагматически связанных понятий, а компонентный анализ сопоставляет слову неупорядоченное множество признаков. Предлагаемый в работе метод состоит в определении для слова вектора признаков, где каждый признак интерпретируется как продолжение характеристики слова новыми признаками, что позволяет представлять множество отношений над семами в виде множества признаков.

Рассмотрим, что представляет собой система компонентов значения с точки зрения выделения подклассов сем компонентным анализом. Наиболее важными в этой связи являются следующие понятия: ядро (интенсионал) и периферия (экстенсионал) значения, гипероним и гиперонимические признаки, обязательные и возможные элементы значения.  К ядру слова относятся общие компоненты значений различных лексико-семантических вариантов (ЛСВ) этого слова, к периферии же относятся особые характеристики и оттенки значения, представленного ядром.

Гиперонимом называется основной признак, который можно отождествить с рассматриваемым словом учетом его конкретизации другим признаком. Например: слово «стол» обладает гиперонимом «опора». Гипероним этого слова вместе с отличительным признаком составляет понятие «опора для мелких предметов». При этом понятие «игровой стол» является особым лексико-семантическим вариантом слова. В самом общем виде «нечто» – гипероним любого понятия. При этом средства языка могут позволить составить множество конструкций со значением: «сущность, обладающая признаком «А». В этом случае любой признак можно представить как гипероним. Например, гиперонимом слова «молоток» может быть не только понятие «орудие,
которое ...», но также и понятие «предмет с твердым наконечником», «пре
дмет с ручкой, который…»  и т.д.

Таким образом, гипероним составляет ядро любого понятия. В ядро также включаются многие признаки, уточняющие значение этого гиперонима. В периферию слова включаются не обязательные вероятностные признаки этого слова, проявляющиеся в его отдельных значениях.

Например: «материальный объект» есть гипероним слова «коса» в трех его значениях. Первое значение этого слова относится к классу «волосы», второе значение – к классу «небольшой остров», третье – к классу «инструмент для срезания травы». Помимо понятия «материальный объект» в ядро этого понятия входит признак «длинный», подходящий для всех трех значений (лексико-семантических вариантов) этого слова. Понятия же «часть тела», «суша, окруженная водой» и «инструмент для срезания травы» находятся в периферии понятия «коса».

Проблема полисемии обусловлена именно тем, что за основу представления языка принимается именно форма слова, графическая или грамматическая. Идея упорядочения единиц языка в общем понятийном пространстве делает различные лексико-семантические варианты не «проявлениями» одной языковой единицы, а совершенно разными единицами языка, точками многомерного понятийного пространства. Выявление нужного лексико-семантического варианта (ЛСВ) является необходимой функцией ЕЯ интерфейса, поскольку полисемия единиц языка не позволяет однозначно интерпретировать их значение и обеспечить адекватное взаимодействие с пользователем. Предлагаемый в работе тип интерфейса на основе подстановочных таблиц позволяет решить эту проблему, поскольку соответствие фразы всей таблице, а не только одному ее элементу говорит о нахождении нужной интерпретации естественно-языковой информации.

1.4.2. Дефинитивное и полное значение слова 

Теперь остановимся на обязательных и возможных элементах значения слова. При этом любое высказывание можно привести к виду «А тождественно В», где под «А» подразумеваются все или некоторые «А», а под «В» – все или некоторые «В», например, фразу «большие уши» можно представить в виде фразы «некоторые уши суть большие объекты». Далее все высказывания можно разделить на четыре большие группы:

1) все А суть все В,

2) все А суть некоторые В,

3) некоторые А суть некоторые В,

4) некоторые А суть все В.

Признак «В» для 1-ой и 4-ой группы назовем обязательным или необходимым, а для 2-ой и 3-ей - возможным. Из вышесказанного следует, что любое высказывание может быть представлено как дефиниция – избыточная или недостаточная. В словарных дефинициях используются признаки первого типа [].

1.4.3. Применение компонентного анализа

«Целью  компонентного анализа является не выделение всех мыслимых компонентов» (по которым происходит деление семантических классов), «а лишь тех, которые, по словам И. И. Мещанинова, не описываются при помощи языка, а выявляются в нем самом, в его лексике и грамматическом строе».

Таким образом, в языке якобы существуют «фундаментальные» единицы языка наряду с фундаментальными определениями, их невозможно описать средствами языка кроме как через понятия, для которых они сами составляли определения. В работе высказывается предположение о существовании только одной фундаментальной единицы языка – кванта семантического смысла. «Компонентный анализ – метод исследования содержательной стороны только так называемых значимых единиц языка, имеющих целью разложение значения на минимальные семантические составляющие» []. Этот метод впервые был использован при исследовании лексического материала как техника описания узкого круга единиц (терминов родства) в различных языках в 50-е годы XX века. Он основан на гипотезе о том, что значение каждой единицы языка состоит из семантических компонентов (сем) и что словарный состав языка может быть описан с помощью ограниченного сравнительно небольшого числа семантических признаков. Метод компонентного анализа тесно связан с системно парадигматическими представлениями о языке, в частности, с теорией семантического поля, и может рассматриваться как расширение и углубление ее теоретической и инструментальной базы».

Членение лексики на семантические поля и отличия этих классов слов основаны на выделении дифференцирующего компонента. Последнее же легко осуществить при помощи метода компонентного анализа [].

Компонентный анализ может использоваться не только для исследования лексики языка, но и речи. «Применение компонентного анализа в семантике обнаруживает ряд закономерностей функционирования слов в речи. На основе работ Дж. Кац, Дж. Фодор, Ю. Д. Апресяна, В. Г. Гак  устанавливается, в частности, условия правильного выбора слов в словосочетаниях. При этом повтор сем выступает как важное конструктивное средство построения речи» [].

В аспекте построения ЕЯ интерфейса необходимо перейти от оперирования отдельными словами языка и их объединения в синтагмы к оперированию большими массивами однотипной информации и операциям над ними. Например, фразу «я сижу на стуле и ем бутерброд» можно представить в форме соотнесения очень больших семантических пластов, которые могут быть представлены в форме подстановочных таблиц  

Таблица 1.1

Порождение фраз типа «Я лежал на кровати и жевал бутерброд» при помощи подстановочной таблицы

Существо

Действие над опорой

Опора

Действие над пищей

Пища

Я

Сидеть на

Стул

И есть

Бутерброд

Ты

Лежать на

Кресло

И жевать

Мясо

Мой брат

Качаться на

Кровать

И готовить

Свинина

Лесничий

Упасть с

Скамья

И разогревать

Рыба

Путем обобщения множества возможных высказываний в форме подстановочных таблиц можно визуализировать структуру языка в частности в приложении к созданию естественно-языковых интерфейсов.

1.4.4. Лексико-семантические варианты в языке и речи

В синхроническом плане слово в лексико-семантической системе представлено несколькими ЛСВ (лексико-семантическими вариантами) в речи - случаями, модификациями его системных значений []. Слово само по себе не имеет, как правило, одного конкретного значения. Слово получает каждое конкретное значение только под влиянием других слов, т е. в контексте []. По выражению Шехтмана Н. А.: «в тексте всегда есть знаки, функция которых состоит в том, чтобы указывать на элементы значения других знаков».

Новые значения формируются только в контексте, контекст обладает порождающей способностью. Контекст «вытягивает на поверхность один важный семантический компонент». Между тем различные лексико-семантические варианты слова являются во многом однородными и связанными друг с другом элементами одного значения с общим семантическим ядром. Если значения одинакового по форме слова не имеют ничего общего, то они являются не различными лексико-семантическими вариантами, а омонимами, для синонимов же характерен общий признак, элемент всех лексико-семантических вариантов:

Рассмотрим следующие предложения.

«Loos of blood killed the victim». (J. Dillon) – (буквально) «Потеря крови убила жертву».

«One poisoned beast could kill five others». (J. Aldridge) – (буквально) «Один зараженный зверь может убить пять других».

«I was driving a car and killed a little girl». (A. Hailey) – (буквально) «Я вел машину и убил маленькую девочку».

Здесь оттенки значений, так же как и перевод слова «kill», различны: «задавить, отравить, обескровить». Но при этом существует понятие, связывающее оттенки этих значений в одно понятие «стать причиной смерти».

Значения различных лексико-семантических вариантов слова связаны и могут пересекаться. Слово «cup» в английском языке может означать. в частности, приз или особый сосуд (кубок), при этом приз может быть представлен подобной чашей, а может и не быть, в последнем случае разные лексико-семантические варианты слова пересекутся. Существуют, кроме того, различные виды лексико-семантических вариантов. Так структура слова включает прямые (собственные) и переносные (вторичные) значения, например, «сон» в значении «смерть» и «песок» в значении «время».

Значения слова могут реализовываться как узуальные (принятые) и оказиальные (не принятые):

A car purred along the street. Здесь «мурлыкать» означает «двигаться» [] Однако далее в работе показывается, что проблема семантического шума в речи объясняет многие явления речи, не прибегая к интерпретациям из области лексико-семантических вариантов. Например, употребление, казалось бы, разных значений в следующих предложениях может рассматриваться как проявление семантического шума на фоне одного базового значения слова «kill».

«The victim died because of loss of blood» – «Жертва умерла от потери крови».

«Five beasts could die because they poisoned one beast». – «Пять зверей могут умереть, потому что один зверь был отравлен».

«I ran over a little girl by my car. She died». – «Я сбил маленькую девочку на моей машине. Она умерла».

Эти предложения ассоциируются с подстановочными таблицами.

Таблица 1.2

Порождение предложений вида «Он умер в результате болезни» при помощи подстановочной таблицы

Существо

Отношение, выраженное глаголом (существование)

Предлог причины или времени

Действие над телом

Я

Жить

После

Травмы

Он

Умирать

В результате

Ушиба

Звери

Выживать

Из-за

Потери крови

Жертва

Спасаться

Ввиду

Болезни

В таблице 1.2 показано, как предложенные фразы могут быть описаны при помощи подстановочных таблиц.

Таблица 1.3

Порождение фраз вида «Лесничий сбил девочку на грузовике» при помощи подстановочной таблицы

Существо

Представление транспорта

Существо

На транспорте

Я

Подвезти

Ребенка

На машине

Ты

Сбить

Девочку

На трамвая

Мой брат

Переехать (покалечить, / убить)

Мальчика

На грузовике

Лесничий

Заехать за

Босса

На велосипеде

В подстановочной таблице 1.3. задается множество предложений, описывающих структуры, которые часто интерпретируют как особые лексико-семантические варианты слов.

Чтобы воспользоваться подстановочными таблицами, необходимо взять по одному слову из каждой колонки, что позволяет сформировать связное предложение.

1.5. Единство формальных и смысловых характеристик слова
в искусственных языках для машинного перевода

1.5.1. Системы типа «Интерлингво» и машинный перевод

В последнее время в области систем машинного перевода господствует идея о необходимости создания систем Интерлингво. То есть все существующие языки должны переводиться на Интерлингво и обратно с Интерлингво.
В результате можно было бы получать перевод с любого языка A на язык B, применяя цепочку A-I-B, где I есть язык Интерлингво. «Один из наиболее и
звестных проектов interlingua-системы разрабатывается в Голландии под названием Distributed Language Translation (DLT, infoweb.magi.com /~mfettes /DLT.html). Эта разработка началась в 1979 году и была свернута к 1992 году. Но не успела она завершиться, как запустился новый Интерлингво-проект UNL или Universal Network Language. На этот раз (в 1997 году) инициаторами выступили японцы. Возникновение этого проекта непосредственно связано с потребностью перевода документов в Интернете. [] Последний проект состоит в идее сопоставления словам неких атрибутов, отличающих их различные лексико-семантические варианты.

1.5.2. Проблемы создания языка описания семантики

Вопрос об международном искусственном языке без полисемии и конфигуральных условностей особенно активно разрабатывался в конце XIX века. Всего в мире насчитывается более 1000 проектов таких языков. Единственный язык такого рода, получивший относительно широкое распространение среди энтузиастов – язык Эсперанто. Он на сегодняшний день содержит около 1900 корней (в основном латинского происхождения) []. Эсперанто был основан на схожести многих европейских языков и содержит, таким образом, много схожих с другими языками слов. Грамматика Эсперанто отличается логичностью и простотой. Обширно словообразование в языке Эсперанто. Вектор признаков, определяющий каждое слово в предлагаемой в работе модели языка, может быть использован для построения слов языка типа Интерлингво. Для этого необходимо каждому значению элемента нашего понятийного вектора сопоставить определенную букву и звук или же иероглифическую ассоциативную картинку. При этом можно получить язык, содержащий в себе неограниченное количество производных от этих значений слов [].

Существуют другие искусственные языки, такие как Basic English, содержащие 1000 слов и описывающий весь вокабуляр словосочетаниями видоизмененного английского языка [].

Помимо традиционной  цели искусственные языки международного общения могут иметь следующие области применения.

1. Для анализа языка.

2. Для общения с компьютерными программами и для их разработки.

Селиверстова О. Н., говоря о языке в широком смысле, пишет следующее: «Словарь семантического языка в идеале, который пока ни кем не был достигнут, должен удовлетворять следующему условию: каждое его слово должно выражать ровно одно, по возможности, элементарное значение, а все элементарные значения должны выражаться ровно одним словом семантического языка, совершенно не зависимо от того, в составе какого толкования оно встречается []», то есть такой язык должен удовлетворять требованиям детерминированности и однозначности.

Предлагаемый в работе словарь порождения языковых единиц полностью реализует эту задачу.  В авторской постановке задачи сама структура дерева классификации. заданная вектором семантических признаков, является своего рода языком типа Интерлингво, поскольку все потенциально существующие узлы  дерева классификации могут соответствовать словам того или иного языка. Все это делает ЕЯ интерфейсы единообразными для любых естественных языков. В работе указывается, что предлагаемая классификация слов и понятий языка, спроецированная на фонетическую систему, позволяет задать искусственный язык типа Интерлингво, и может использоваться для кодирования позиции слова в базах данных и в системах взаимодействия с программным обеспечением на естественном языке.

1.6. Табличный естественно-языковой интерфейс

В работе предлагается концепция «табличного» естественно-языкового интерфейса. Табличным интерфейсом будем называть естественно-языковой интерфейс, в котором должны содержаться по возможности любые осмысленные понятия, фразы, тексты языка, и при этом близкие по смыслу понятия фразы и тексты располагаются в этом интерфейсе рядом. Конкретной реализацией такого интерфейса является интерфейс следующего вида. Слова и понятия упорядочиваются в некой классификации, фрагменты этой классификации составляют столбцы подстановочных таблиц.

Подстановочная таблица – это таблица, при помощи которой можно генерировать предложения естественного языка, выбирая из каждой колонки этой таблицы по одному слову.

Сложные подстановочные таблицы представляют собой иерархию простых подстановочных таблиц с возможностью выбора одной подстановочной таблица из списка. При этом, образуется более длинная и сложная конструкция, чем может дать простая подстановочная таблица.

Smart таблицы - это подстановочные таблицы, в которые можно включать опции, запрещающие выбор тех или иных фраз из подстановочных таблиц. Это делается для того, чтобы отсечь не приемлемые по смыслу фразы естественного языка. При этом пользователь должен иметь возможность выбрать режим, разрешающий. или запрещающий те или иные несоответствия в речи.

По сравнению с грамматиками Хомского, табличный интерфейс содержит упорядоченное множество правил языка, что помогает с максимальной ясностью визуализировать структуру языка для пользователя и максимально ее упростить для алгоритмов порождения речи. Далее приведен пример сложной подстановочной таблицы.

Таблица 1.4

Последовательности подстановочных таблиц для генерации
предл
ожений и связных текстов

Я

Знать, что

Индустрия

Развивается

В Англии

Он

Помнить, что

Сел. хозяйство

Процветает

В России

Мы

Видеть, что

Экономика

В упадке

Во Франции

В книге

Написано, что

Проходят

Выборы

В реги-

онах

Рос-сии

В журнале

Напеча-тано, что

Заканчива-ются

Страда

В обла-

стях

Ка-нады

В докуме-нте

Сказано, что

Начались

Реформы

В репу-бликах

СССР

В таблице 1.4 показан принцип моделирования осмысленных текстов, который позволяет визуализировать структуру естественного языка в рамках естественно-языковых интерфейсов.

Эти таблицы могут, например, генерировать фразу «Я вижу, что сельское хозяйство в России развивается. В журнале написано, что в регионах России заканчивается страда» Приведем еще один пример последовательности подстановочных таблиц.

Таблица 1.5

Генерация фраз при помощи подстановочных таблиц

Нет ли у вас

Банку

Молока

Вы не угостите  

Бутылку

Кефира

Не дадите ли

Стакан

Сока

Я

Хотеть

Пить

Мы

Желать

Утолить жажду

Мой сын

Нужно

Мы будем

Очень признательны

Мы были бы

Весьма благодарны

Мы заренее

Обязаны

В таблице 1.5 приводится пример таблицы, задающей последовательность осмысленных предложений вида  «Я хочу пить, нет ли у вас банки сока, мы были бы очень обязаны». Подобные таблицы могут использоваться для построения «табличного» естественно-языкового интерфейса.

При выборе из каждой колонки сложной подстановочной таблицы простой подстановочной таблицы, а из каждой колонки последней по одному слову  получается осмысленная фраза и текст языка.

1.7. Задачи диссертационной работы

Проблема построения естественно-языковых интерфейсов в работе рассматривается с точки зрения построения семантико-лингвистической модели и применения средств визуализации структуры естественного языка. Система визуализации основана на классификации единиц языка разных уровней. В свою очередь, построение на ее основе множества подстановочных таблиц позволяет реализовать алгоритмы генерации осмысленных высказываний. Множество подстановочных таблиц может быть положено в основу  классификации более высокого уровня, чем классификация слов, – классификации высказываний. Для обеспечения единообразного доступа к элементам этих классификаций представляется необходимым сопоставить множеству языковых единиц одного уровня единую формулу, которая строится на основе общего для данного множества единиц вектора семантических признаков, однозначно задающего классификацию языковых единиц данного уровня.

В работе ставятся и решаются следующие основные задачи:

  1.  Определение вектора семантической классификации для единиц естественного языка – слов и понятий.
  2.  Разработка метода классификации слов и понятий языка на основе вектора семантической классификации, определяющего положение слов в понятийном пространстве.
  3.  Разработка словаря-классификации языковых единиц английского языка.
  4.  Разработка оригинальных алгоритмов анализа и синтеза фраз естественного языка на основе подстановочных таблиц словаря.
  5.  Реализация программного обеспечения для моделирования основных элементов естественно-языкового интерфейса, визуализирующего структуру парадигматических и синтагматических отношений естественного языка.

В рамках алгоритмической и программной реализации предложенной модели решаются следующие функциональные задачи.

  1.  Выполнение морфологического анализа и синтеза словоформ английского языка.
  2.  Реализация автоматической генерации транскрипции для испанского и немецкого языков на основе написания слов.
  3.  Реализация словаря-классификации слов и понятий естественного языка (английского, русского и др.).
  4.  Разработка программной системы генерации подстановочных таблиц.
  5.  Построение обучающих систем для проверки знания слов посредством генерации осмысленной речи.
  6.  Создание шаблонов составления писем на незнакомом языке.

Выводы к главе 1

  1.  Показана актуальность исследований в области формализации языка, в частности его семантики, для построения систем анализа и синтеза речи. Эти исследования могут быть применены для создания естественно-языковых интерфейсов при решении таких задач, как:
  •  создание семантически ориентированных систем перевода;
  •  создание систем автоматического реферирования, сортировки, хранения, поиска и представления информации;
  •  обучение иностранным языкам и неязыковым дисциплинам с использованием программного обеспечения с естественно-языковым интерфейсом;
  •  прохождение «машиной» теста Тьюринга.
    1.   Выполнен сравнительный анализ существующих подходов и методов анализа семантики языка. Показано, что, несмотря на наличие глубоких исследований языка в самых различных его аспектах, в настоящее время отсутствует единая система представления семантики языка. Это объясняет оторванность многих глубоких исследований семантической структуры единиц языка от конкретной реализации в форме программного обеспечения, обеспечивающего простой и ясный естественно-языковой интерфейс.
      1.  Исследована проблема построения семантических классификаций и анализа структуры слова. Показано, что  единая система представления семантики языка на основе семантических классификаций позволила бы представлять разные единицы языка однотипно, используя множество классификаций с индивидуальными свойствами и единообразным доступом к любому его элементу.
        1.  Показано, что для построения единой системы классификации понятий необходимо предложить аппарат универсальных признаков, пригодных для представления разных уровней естественного языка –  от текстов и слов вплоть до сем и единого кванта смысла. Это даст возможность представления больших пластов лексики в визуальной форме для реализации интерфейса «программное обеспечение – пользователь».
        2.  Сформулированы задачи диссертационной работы.


ГЛАВА 2. ПРИНЦИП ОБЪЕКТНЫХ ОПРЕДЕЛЕНИЙ КАК ОСНОВА КЛАССИФИКАЦИИ ЕДИНИЦ ЯЗЫКА

2.1. Формализация дефиниций

Для того чтобы построить рекурсивную систему определения всех единиц языка для обеспечения простого, дружелюбного и быстродействующего интерфейса, необходимо выполнить следующие требования. В основание рекурсивного определения языковых единиц необходимо положить минимальное число первоначальных единиц языка и представить все остальные единицы языка как сочетания первоначальных единиц. Все определения единиц языка друг через друга должны укладываться в строгую классификацию с общими классификационными признаками на каждом уровне  классификации и достаточным множеством возможных значений каждого признака для классификации любых единиц. Признаки каждой последующей классификации являются классифицируемыми единицами в предыдущей классификации. Последовательность таких классификаций должна включать все единицы, от элементарных – сем, слов-понятий, предложений – до логически связанных множеств предложений – высказываний и семантических фактов – информации приведенного вида, полученной из текстов.

2.1.1. Общий вид формальной дефиниции

Обозначим A = {A1,...,Am} множество смысловых единиц, используемое для определения произвольного множества B = {B1,…,Bn} смысловых объектов. Назовем A множеством единиц на входе классификации, а B – множеством единиц на выходе классификации. Будем говорить, что множество B определяется через множество A. При этом, B  2Θ, где Θ есть множество всех возможных единиц на входе классификации и отношений между ними: Θ =A  T(A)  N(A)  N(T(A)), где T (A) – множество всех возможных бинарных отношений смыслового тождества на A, N(A) – множество всех возможных отрицаний элементов A, а N(T(A)) – множество всех возможных отрицаний отношений тождества на A.

Пусть B:=S(A) есть преобразование множества на входе классификации в множество на выходе, интерпретируемое как композиция входных смысловых единиц.

Произвольный элемент Bt  B представляется как

Bt := S(Ai1, …, Aif, Tj1, …, Tjv, Ng1, …,Ngp),

где  Ai1, …, Aif A; Tj1, …, Tjv   T(A), Ng1, …,Ngp N(A) N(T(A)).

Значением преобразования S(…) является единица на выходе классификации Bt, которая строится как совокупность элементов, полученных в результате преобразования конкретных элементов множества А. Для этих элементов будем использовать обозначение <Bt.Aik>.

Каждая новая единица определяется через множество компонентов, например, понятие

зоология := S(наука, животные),

здесь A={наука, животные}, B={зоология}.

Можно также записать:

зоология := S(наука, животные, T(наука.предмет, животные).

«Зоология», таким образом, определяется через два понятия, в противоположность неформальным определениям вида «зоология это наука, изучающая животный мир во всем его многообразии» и т. п, включающих множество лишних слов-связок. В приведенном выше формальном определении  отождествляются компоненты значений «наука» и «животные», при этом компонента значения «предмет» этой науки тождественна компоненте «животные» значения понятия «животные».

Определим также многошаговую композицию как

(C := S(A)) (B:= S(A),  C:=S(B)) ,

в которой множеством входных смысловых единиц служит множество B выходных единиц композиции S(A), C – множество выходных единиц композиции S(B).

В лингвистической науке говорят, что значение содержит в себе элементы, или компоненты значения. Чтобы описать это представление формально, будем говорить, что семантика единицы языка представляет собой объект, состоящий из системы смысловых компонентов. Запись «Ct.Bd.Ak» означает, что С есть объект,  B – промежуточный объект, а A – его компонента.

Формула Ct := S(Bi1, …, Bif, Tj1, …, Tjv, Ng1, …,Ngp), где B=S(A), представляет собой формальное определение семантического объекта. Здесь Tjw = T(Bh.As, Bh.As), а Ngy  = N(Bz) или N(T(Bh.As, Bh.As)). Приведем примеры такого определения, где В – входное множество для C и выходное для A:

Пусть A={содержание}, B={картина, место}, С={пейзаж}, тогда

пейзаж := S(картина, место, T(картина.содержание, место),
T(пейзаж, картина)).

В этом примере компонента «содержание» значения понятия «картина» отождествляется с понятием «место». Другой пример:  

Пусть A={содержание, субъект}, B={вера, Бог}, С={атеист}, тогда

атеист := S(вера, Бог, T(вера.содержание, Бог), T(атеист, вера.субъект), N(вера)).

В этом примере  «субъект» понятия  «вера»  (человек, который верит) тождественен понятию «атеист», а само понятие «вера» отрицается.

Значительно проще работать с определениями, если одной формулой определять смысловое содержание множества слов. В этом случае это множество слов получает дефинитивную классификацию, отражающую сущность всех использованных в ней определений.

Классификации, преобразующие единицы низкого уровня в единицы высокого уровня, представляются как деревья. Последовательность деревьев задает последовательный вывод единиц все более высокого уровня.

Для определения языковых единиц будем использовать «расширенную» троичную классификацию, то есть классификацию, предусматривающую деление на A, A и A, где обозначает присутствие или отсутствие отрицания, то есть то, что отрицание не определено (запись «A» читается «возможно A»).  Помимо этого классификация может также предусматривать распределение множества значений на числовой шкале Ak   A.

2.1.2. Последовательность классификаций единиц языка

Необходимым условием классификации единиц языка является отсутствие кругов (циклов) в их определении. Последовательность вывода единиц одного уровня через единицы другого записывается следующим образом.

A:=S(Ekb, …),

B:=S(Ajs, …),

C:=S(Bid, …).

Объекты множества {E} будем называть первоэлементами языка, или базисом.

При этом не может иметь место:

B:=S(Ajs, …),

A:=S(Bid, …).

или

A:=S{Cgt, …),

B:=S(Ajs, …),

C:=S(Bid, …).

Иначе говоря, не допускаются круги в определении единиц языка. При переходе от единиц A, B до единицы C и т.д. неизбежен переход к единице E, для которой невозможно записать формулу композиции.

В современных толковых словарях рассматривается  множество изолированных друг от друга кластеров синонимов, когда, например, слова в классической словарной статье определяются друг через друга по кругу []:

condition := S(state) и state := S(condition).

Либо более сложные циклы:

Happiness:=S(joy), joy:=S(satisfaction, happiness), satisfaction:=S(content), content:=S(happiness, satisfaction)

В настоящей работе предлагается система классификаций, которая позволяет  дать определение словам языка, избегая кругов в определении, для этого при последовательном сведении единиц языка друг к другу вводится специальный базис смысловых классификаций – множество {Es}. В следующей главе показаны средства задания классификаций в рамках предложенных принципов, что позволяет свести базис определений до одного единственного понятия «тождество» [, ].

2.1.3. Определение базиса понятийного аппарата словарных 

дефиниций

До сих пор толковые словари сводили все слова языка к специально отобранному множеству языка из одной-двух тысяч слов. Так, например, словарь Longman’s English Dictionary описывает язык двумя тысячами слов.

В работе предлагается в целях формализации не вводить никаких семантически нагруженных единиц, кроме объекта, отрицания и тождества. Общая схема определения имеет вид, как уже говорилось:

Ak:= S(Bi1, …, Bif, Tj1, …, Tjv, Ng1, …,Ngp).

При этом в части S(Bi1, …, Bif, Tj1, …, Tjv) определяется новый дефинитивный признак, а множество S(Ng1, …,Ngp) определяет разбиение по этому признаку и его аспектам множества значений этого нового признака на подмножества {(Ngh), (Ngh), (Ngh)}, где (Ngh) означает, что отрицание (Ngh) не определено. В результате интеллектуальная система может рассматривать не отдельные единицы языка, а классификацию единиц языка в целом. Классификация предлагаемого типа помогает максимально компактно записать определения семантических единиц, что должно значительно упростить поиск информации для обеспечения функционирования ЕЯ интерфейса. При этом можно построить такую формулу S(Bi1, …, Bif, Tj1, …, Tjv), которая является единой формулой для определения единиц всей классификации. Понятия, определяемые этой формулой, отличаются лишь множеством S(Ng1, …,Ngp), индивидуальным для каждого понятия этой классификации, за исключением полных синонимов. Отвлекаясь от значения формулы S(Bi1, …, Bif, Tj1, …, Tjv), можно представить последовательность аргументов S(Ng1, …,Ngp) как вектор семантических признаков G = <G1, G2, …Gp>, где G1, G2, …Gp есть отрицаемые элементы преобразования S(Ng1, …,Ngp). Такой вектор легко использовать для определения позиции слова или групп слов в классификации. Использование  вектора семантических признаков позволяет получить формальное представление для любого компонента или осмысленного множества компонентов объекта-классификации.

2.1.4. Представление языка

Под языком будем понимать множество всех его единиц, определяемых через базис и множество сложных композиций  вида: Si1, …, Еif, Tj1, …, Tjv, Ng1, …,Ngp)   Другими словами, в состав языка входит ряд проецирующихся друг на друга последовательностей классификаций вида:

A:= S(Efb, …).

B:= S(Ajs, …),

C:= S(Bid, …),

Причем не существует такого P, что E  :=  S(Phr, …).

 Данный вывод запишем в виде: {E} S {A} S {B} S {C}… Такого вида формулой можно задавать, например, последовательный вывод: {геносемы} S {семы} S {понятия} S {факты}. Другим примером такой последовательности может служить фонетическая система языка: {характеристики звуков} S {звуки} S {слова} S {высказывания}. В языке часто отсутствуют те или иные потенциально выводимые единицы, например, немецкому слову Geschwester (ребенок тех же родителей, брат и сестра) не соответствует ни одного слова ни в русском, ни в английском языках. Буквосочетанию «ррнто» не соответствует никакое слово русского языка. Таким образом, лишь некоторые элементы пространства всех возможных звукосочетаний соответствуют некоторым элементам пространства всех возможных значений слов.

Последовательностям {E} S {A} S {B} S {C}… могут также соответствовать графическая система языка, а также его грамматическая система. Можно находить правила соответствия системы {E'} S {A'} S {B'} S {C'}… и некой иной системы {E''} S {A''} S {B''} S {C''}... Например, написание слов может в некоторой степени определяться его звучанием. Также оно определяется его грамматическими характеристиками (например, мягкий знак в слове «жечь»). От части написание слов определяется семантическими характеристиками (например, написание дней недели с большой буквы в английском языке).

Последовательность {E} S {A} S {B} S {C}… назовем аспектом языка L, где {E} S {A} S {B} … будут называться классификациями одного аспекта языка L.

Если  Pα = {E'} {A'} {B'} {C'}… и Pα’’ = {E''} {A''} {B''} {C''},… и если имеет место взаимно однозначное соответствие (A' A''), (B'  B''), (C'  C'')…, то запишем соответствие классификаций Pα'.D  Pα''.D, где P – множество последовательностей классификаций единиц языка.

Однако в естественном языке такое взаимно однозначное соответствие встречается редко. Фонетическая классификация единиц языка предполагает вывод таких единиц языка, как слова, в плане их звучания. Множество всех звучаний слов языка проецируется, во-первых, на множество написаний слов, причем одно произношение может соответствовать нескольким видам написания и наоборот. Далее множество всех звучаний слов проецируется на пространство грамматических и семантических единиц.

2.2. Принципы построения классификации

2.2.1. Множество классификаций

Классификация понятий языка представляется в форме дерева. Множество узлов дерева семантической классификации назовем понятийным пространством. Рассмотрим подробнее дерево классификации, вершинами которого являются единицы на выходе классификации, а единицы на входе классификации задают классификационные признаки. В дереве классификации выделяются уровни. На одном уровне классификации может быть только один классификационный признак. Признаки разных уровней составляют ряд (или вектор) признаков заданной классификации. Каждому признаку классификации соответствует множество возможных значений. Все признаки являются сложными, каждый из них состоит из конечного числа смысловых компонентов. В свою очередь, каждая из смысловых компонент является узлом другой классификации – меньшего масштаба. Семантическая классификация понятий строится на основе классифицируемых сем – «атомов смысла», составляющих структуру смысла слов.

Будем исходить из базового предположения, что язык представлен двумя аспектами, семантическим и формальным, обозначим их соответственно P1 и P2. Каждый аспект можно представить в виде последовательности классификаций: геносем, сем и графем, слов и понятий, фактов и высказываний, соответственно обозначим их через D0, D1, D2, D3. Обозначение Pα.Dβ будем интерпретировать как классификацию β по аспекту α .

Классификации семантического аспекта:

P0.D0: Геносемы –  специальные служебные самые мелкие смысловые единицы (объект, отрицание, тождество, равенство и т.п.), позволяющие интерпретировать  более сложные единицы языка;

P0.D1: Семы – атомы смысла, составляющие структуру слов и понятий (существо, место, внутри, имплицировать и т.п.);

P0.D2: Понятия – смысловые единицы, соответствующие словам (дом, телефон, дружба, вещество и т.п.);

P0.D3: Факты – элементы знания из различных областей, факт – это некоторое утверждение, о котором можно говорить, что оно истинно или ложно, формально факт представляется как высказывание или предикат.

Классификации формального аспекта опираются на синтаксическую структуру языка:

  1.  P0.D1: Графемы – буквы языка;
  2.  P0.D2: Слова с их морфологической структурой для конкретного языка;
  3.  P0.D3:  Высказывания – предложения в связном тексте. [-].

Семантический и формальный аспекты языка тесно связаны. Высказывание формально выражает некоторый факт, понятия выражаются словами, плановый язык должен в перспективе сопоставлять графемам слов семы, составляющие значения этих слов. Геносемы не соответствуют никаким формальным единицам языка и служат для выражения элементарного смысла.

Каждая из перечисленных классификаций семантического и синтаксического аспектов  имеет форму дерева.

Обозначим уровни дерева классификации Qk', каждому из них соответствует один признак Gk вектора G признаков классификации:

" Pα.Dβ.Qγ, $ Gγ (Pα.Dβ.Qγ « Pα.Dβ.Gγ),

где Pα.Dβ.Qγ  – уровень Qγ дерева классификации Dβ аспекта Pα, а Pα.Dβ.Gγ – значение Gγ вектора G дерева классификации Dβ аспекта Pα.

Вектор признаков Pα.Dβ.G = < Pα.Dβ.G1, Pα.Dβ.G2, Pα.Dβ.G3Pα.Dβ.Gγ> представляет собой последовательность признаков.

Множество значений  признака Gγ обозначим {Gγ1, Gγ2, …}. Каждое значение Gγl  является строкой символов – элементов этого значения, пусть Gγl = 12l. Множества строк Gγl Î {Gγ1, Gγ2, …} задаются перечислением, или при помощи порождающей грамматики.

Каждый символ q значения признака вектора Pα.Dβ.G является узлом предшествующей классификации q = Pα.Dβ.Qγ, где Qγγ-й узел дерева φ-го уровня классификации Pα.Dβ.

Рассматриваемые в предыдущих параграфах множества смысловых единиц A, B, C,… являются единицами на выходе в последовательности классификаций, например: A  Pα.Dβ, B  Pα.Dβ+1, C  Pα.Dβ+2…. Элементы  множеств A, B, C,… соответствуют узлам соседних классификаций.

Каждой семантической единице языка может соответствовать множество формальных единиц языка (синонимов): Pα.Dβ.Qγ ® { Pα+1.Dβ.Qτω} , где τ = 1, 2, 3,..., ω = 1, 2, 3,..., и наоборот, каждой формальной единице языка может соответствовать множество семантических единиц языка (значений и омонимов): и Pα+1.Dβ.Qτω ® { Pα.Dβ.Qγ}, где γ = 1, 2, 3,... , φ =  1, 2, 3,..., то есть имеет место отношение «многие ко многим».

2.2.2. Множество отрицаний в определении
классификации единиц языка

Каждой последовательности множеств единиц языка A, B, C, … соответствует своя последовательность классификаций Pα.Dβ, Pα.Dβ+1, Pα.Dβ+2, … Каждому элементу Ak, Bd, Ct,… заданных множеств соответствует вершина:  Pα.Dβ.Qγ, Pα.Dβ.Qγ'', Pα.Dβ.Qγ'''', … соответствующей классификации.

Рассмотрим, например, представление классификации в виде троичного дерева, в котором каждой вершине Pα.Dβ.Qγ уровня γ дерева ставится в соответствие тройка определений, представляемых соответственно тремя вершинами более низкого уровня γ+1:

Pα.Dβ.Qγ  Ck  (S(Bi1, …, Bif, Tj1, …, Tjv, Ne, Ng1, …,Ngp), S(Bi1, …, Bif, Tj1, …, Tjv, Ne, Ng1, …,Ngp),S(Bi1, …, Bif, Tj1, …, Tjv, Ne, Ng1, …,Ngp))

где Ne есть дефинитивный признак классификации множества понятий A на узле классификации Pα.Dβ.Qγ.

При этом последовательность Ng0, …,Ngp задает путь к узлу классификации от корня дерева и тем самым однозначно определяет этот узел, а формула S(Bi1, …, Bif, Tj1, …, Tjv) служит интерпретацией значения последовательности отрицаний.

Последовательностью классификаций назовем последовательность Pα =  < Pα.Dβ, Pα.Dβ+1, Pα.Dβ+2, ….>. Каждой классификации Pα.Dβ сопоставляется множество определений указанного выше вида:

Pα.Dβ  {s(Bi1, …, Bif, Tj1, …, Tjv, Ng1, …,Ngp)}

Любая классификация какого-либо аспекта языка находится на определенном уровне в рамках аспектов фонетической, графической, грамматической и семантической систем. Таким образом, главным предметом анализа в лингвистической науке становится не отдельная единица языка, например, слово, а единая классификация таких единиц – составляющая языка на определенном уровне в рамках определенного аспекта.

Рисунок  2.1. Формы представления смысла языковых единиц

Наиболее удобной для исследования является симметричная классификация, узлам одного уровня которой соответствует один и тот же дефинитивный признак. Такая классификация однозначно определяется последовательностью классифицирующих признаков: Ng0, …,Ngp.

  1.  Семантика и семантическая классификация

2.3.1. Семантический и другие аспекты языка

Семантика языков является связующим звеном и способом соотнесения систем различных языков. При машинном переводе необходимо переводить в первую очередь смысл фразы и уже во вторую заботиться о близости выбранных грамматических конструкций. В связи с этим необходимо создать описание семантики языка как единой формальной системы. В сегодняшних учебниках по языку существует множество терминов описания языка, но нет единой системы классификации терминов, описывающих язык. Что же касается слов, то существуют словари, одна словарная статья которых строится совсем по иным принципам, чем другая, если вообще ее построение имеет какой-либо принцип (имеются в виду не принципы оформления словарной статьи, а единая семантическая формула для языковых единиц одного уровня). Между тем и термины, описывающие язык, и слова языка являются единицами языка, только разных уровней. Подчас нет строгого деления на единицы, отношения между единицами  и группами единиц в рамках подобных классификаций. Если же не ограничивать типы возможных единиц, невозможно определить количество всех возможных отношений между ними. Отсутствует единая система в представлении грамматики и семантики, хотя в действительности и та, и другая имеют общие базовые принципы, например, принципы сочетаемости единиц в тексте на основе отсутствия у них противоположных признаков, иерархичность отношений единиц разного уровня, виды языковых отношений и группы единиц языка. Под единицей языка будем понимать составной элемент со своей внутренней структурой, под языковыми отношениями – пары единиц, и под языковыми группами – множества единиц. Иерархия языковых единиц есть отношение порядка на какой-либо группе единиц и множестве всех языковых единиц одного аспекта.

Эта иерархия должна обладать множеством полезных свойств. Так, например, все слова языка должны делиться на особые группы так, что каждое слово из одной группы может сочетаться со словом из другой при правильном выборе пары групп. Например, группы слов «места»: {лес, озеро, холм} и «глаголы движения»: {идти, ехать, приближаться, спешить} содержат слова, хорошо сочетающиеся друг с другом: «идти в лес», «ехать в гору», «приближаться к озеру» и так далее.

Можно во фразе νκ, где ν – слово класса V, κ – слово класса K, заменить слово κ на слово κ' из того же класса K, получив фразу νκ'. При этом смысл фразы изменится, но осмысленность сохранится. Например, во фразе «сидеть на стуле», вместо слова «стул» можно подставить «табурет», «скамейка», «кровать». При изменении качества смысла его наличие тем не менее сохраняется. Выделение таких классов, которые говорят о сочетаемости слов в предложении – это одно из требований, налагаемых на иерархию слов. При построении классификации важно заложить в нее многие другие отношения. Например, известно, что антонимы (слова, противоположные по значению) составляют пары, например, «приходить» и «уходить» – у глаголов движения, «узнать» и «забыть» – у глаголов восприятия. Можно задаться следующим вопросом: соответствует ли антоним «уходить» слову «забывать» или же «узнавать». Интуитивно ясно, что слова «уходить» и «забывать» связаны с завершением какого-то состояния, а «приходить» и «узнавать» – с возникновением такового. Но такие интуитивные ассоциации должны быть, несомненно, выражены формулами для каждого слова, и именно на основе формулы слова или, лучше сказать, понятия, определяется его место в общей иерархии языковых единиц. Приведем пример элементарной формулы, за основу взяв глаголы движения. Пусть символ   обозначает переход во времени. Обозначим 1 или 0 как наличие или отсутствие какого-либо состояния, выражаемого этим понятием. Понятию «приходить» соответствует формула 0 1. Понятию «уходить» – формула 1 0, «стоять» – 1 1, «сторониться» – 0 0, «возвращаться» – 1 0 1, а понятию «проходить мимо» – 0 1 0, «останавливаться» – 1(0 1) 1(1 1) Это всего лишь часть общей формулы для глаголов движения, а именно, то индивидуальное, что отличает эти слова друг от друга. Задаваемые в классификации признаки должны характеризовать максимально большое множество классов слов. Так, например, фрагмент формулы слов X X X, где X есть 1 или 0, присутствует фактически во всех крупных классах слов. Например, «узнавать» - 0 1, «забывать» – 1 0.  В данном случае 1 и 0 в формуле X X X означают три значения (отрицание, утверждение, неопределенность) отрицаний в формуле формальной дефиниции. Эта система отрицаний и утверждений является основанием для деления слов на подклассы: 1 0, 0 1, 1 1 и т.д. Используя формулы слов, на основе иерархии слов можно объяснять, казалось бы, интуитивные ассоциации между словами, например, то, что слову «узнавать» соответствует скорее слово «приходить», а не «уходить». Все это может служить практическим основанием для машинного анализа таких  сложных явлений языка, как метафоры. Например, позволяет автоматически сводить фразы типа: «Она ушла из мира моих воспоминаний» к фразе: «Я забыл о ней». Поскольку формула слов «узнавать» и «приходить» во многом общая: 0 1.

Наличие стандартного вектора признаков задает многомерное пространство, в котором расположены все понятия языка. Эта последовательность есть последовательность аргументов S(Ng1, …,Ngp)   из приведенной выше формулы формального определения единиц языка. Такую последовательность назовем вектором значений и будем обозначать <Ng1, …,Ngp> или просто G. Каждому вектору G  с заранее определенной системой интерпретации S(Bi1, …, Bif, Tj1, …, Tjv)   однозначно соответствует классификация Pα.Dβ. Векторы и пространства можно строить на основе универсальной формулы S(Bi1, …, Bif, Tj1, …, Tjv, Ng1, …,Ngp) слова по-разному.

Приведем пример такого построения. Класс «глаголы движения» описывается формулой «ОТНОШЕНИЕСУЩЕСТВОМЕСТО», эта формула представляет собой строку символов - сем (атомов смысла) Gγl = 12l, приведенную в главе 2.3.1 и обозначающую значение вектора признаков, задающего классификацию слов и понятий языка. Аналогично класс «глаголы восприятия» задается формулой «ОТНОШЕНИЕСУЩЕСТВОИДЕЯ». Класс «общение» – формулой «ОТНОШЕНИЕСУЩЕСТВОСУЩЕСТВОИДЕЯ». Существуют также классы «идея» – {«мысль», «теория», «точка зрения»,…}, класс «место» – {парк, озеро,…}, «существо» – {дворник, друг,…} и многие другие. Для достижения полной системности иерархии языковых единиц ниже показывается, что любое понятие может быть отнесено к одной из 7 сем: МЕСТО, ПРЕДМЕТ, СУЩЕСТВО, ОТНОШЕНИЕ, ИНФОРМАЦИЯ, ИДЕЯ, СОЗНАНИЕ или к неопределенному классу – НЕЧТО. Перечисленные семы будем считать элементами множества B, задающего классификацию множества слов и понятий С. Здесь и далее будем обозначать семы заглавными буквами. Так, например, «приходить» есть ОТНОШЕНИЕ, «парк» есть МЕСТО, «детектив» - ИНФОРМАЦИЯ.

Смысловое содержание каждого слова языка записывается формулой сем, которая строится рекурсивно и представляет собой последовательность конечной длины. Каждая группа слов классификации делится на подклассы {Gγ1, Gγ2, Gγ3, Gγ4, … Gγθ}, где Gγl = 12l.  При этом необходимо строить  множество значений вектора, достаточное для классификации любых понятий.  Здесь каждое значение Gγψ множества значений {Gγ1, Gγ2, Gγ3, Gγ4, … Gγθ} есть множество строк 12l единиц u, взятых из узлов предшествующей классификации. Доказательство достаточности производится посредством соотнесения этого множества с множеством миниклассификации признаков, {Gγ1, Gγ2, Gγ3, Gγ4, … Gγθ} ↔  {H, H, H}, {P, P, P} … {K, K, K}. На основе миниклассификаций определяется также отношение порядка на этом множестве классификационных признаков, например, что Gγ2  предшествует Gγ4. Под миниклассификациями будем понимать классификации, приводящие множество значений признака классификации к множеству пар или троек понятий вида  {H, H} или {H, H, H} соответственно. Наличие логики в классификации всех слов и далее вообще всех понятий (единиц) языка сводится к использованию закона исключенного третьего. То есть классификация признаков должна сводиться к простому делению на тройки признаков H, H, H. Здесь Gγθ = HPK  HPK  HPK  HPK  HPK  HPK  HPK  HPK  HPK….

Достаточно сложно всегда подобрать классификацию, которая делила бы множество понятий на подклассы «хорошо», то есть так, чтобы во всех подклассах было бы примерно равное количество языковых единиц. Однако в главе третьей предлагается способ такой классификации.

Единицу высокого уровня можно рассматривать как объект Ct.Bd, компонентами которого являются  единицы более низкого уровня, из которых определяется значение этого объекта. Компоненты представляют собой подобъекты определяемого объекта. Некоторые же компоненты этих подобъектов отождествляются друг с другом при определении объекта. Вследствие наличия или отсутствия тех или иных связанных операцией тождества и компонентов подобъектов слово относится к той или иной ветви классификации. Поскольку один объект является материалом для конструирования новых объектов более высокого уровня, то соответственно объекты высокого уровня являются последовательным вложением друг в друга объектов все более низкого уровня.

Важно отметить, что построенная по приведенным выше принципам классификация отличается избыточностью: не всем узлам дерева классификации соответствует какое-либо слово или даже понятие, описывающее реально существующий предмет. Однако любое понятие или слово, существующее, или просто способное существовать в языке, соответствует одному узлу дерева классификации. Таким образом, еще до того, как было изобретено само понятие «самолет», можно было бы выделить понятие о средстве передвижения в воздухе. Аналогично потенциально в классификации определено место для любого понятия, которое существует, которое можно изобрести или просто описать в художественной литературе или сказке: «ковер-самолет», «волшебная палочка» и т.д.

В переводе, сделанном профессиональным переводчиком, совершенно не обязательно использовать трансформацию «слово одного языка – слово другого языка». Такая трансформация часто невозможна, или по каким-либо причинам не целесообразна. Другими типами трансформаций при переводе могут быть трансформации «слово – фраза», или «фраза – фраза», или «слово – семы разных слов», или «сема одного слова – сема другого слова», или «слово – отсутствие перевода», или «отсутствие сем или смысла – слово или сема, улучшающая стилистические или иные характеристики текста».

Наиболее интересны в этом аспекте следующие трансформации единиц языка.

  •  Трансформации многих единиц в одну:

«Это сделает ваше путешествие более легким».

«Это облегчит вам путешествие».

  •  Трансформации одной единицы во многие:

«Я блондин»

«У меня светлые волосы».

  •  Трансформация одной единицы в одну в некотором контексте изменений:

«Я работаю хорошо».

«Я хороший работник».

  •  Трансформация многих единиц во многие:

«Мой знакомый учится».

«Я знаю одного ученика"».

2.3.2. Проблема построения классификаций вида Ai.Cj

Последовательность классификаций, составляющих структуру языка, можно представить в виде следующей таблицы.

Таблица 2.1

Упорядоченное множество классификаций единиц языка разных
аспектов и уровней с примерами

Алфавит метаязыка

Конструкции метаязыка

Алфавит естественного языка

Конструкции естественного языка

Аспект (ярус) приведенного, стандартного вида

Геносемы.

Например, ЛОКАЛИЗАЦИЯ, ВОСПРИЯТИЕ, ВКЛЮЧЕНИЕ

Семы.

Например, СУЩЕСТВО, ПРЕДМЕТ, ИЗ, В, НА, У

Понятия

Например, ОТНОШЕНИЕ

СУЩЕСТВО

СУЩЕСТВО

ИДЕЯ, ОТНОШЕНИЕ

СУЩЕСТВО

Факты.

Например, «я купил компьютер», «два плюс два равно четыре», «вы ждали, что я куплю компьютер»

Аспект не приведенного, формально произвольного вида

Буквы и звуки.

Например, «а», «б», «в», «г», «д», «е», «ё»

Морфемы.

Например, «пере-», «за-», «под-», «при-», «-ение»,
«-ход-», «-ая»

Слова.

Например, «компьютер», «радость», «учитель», «море»

Высказывания.

Например, «покупка мною компьютера состоялась согласно нашим ожиданиям»

Аспект семантического шума, отклонений от логики и норм

Звуковые искажения.

Например, «облезьяна» (оказиальное выражение Достоевского), «громадьё» (оказиальное выражение Маяковского)

Искажения морфем

Например, «свезло тебе» вместо «повезло тебе», «упыхался» вместо «запыхался» в разговорной речи

Искажения слов.

Например, «голубой экран» вместо «телевизор», «остановочный пункт» вместо «остановка»

Искажения высказываний: «деяние без деяния», «любовь всегда преодолеет всё преграды»

В таблице 2.1 показывается иерархия языковых единиц различных аспектов и уровней.

Каждая из предложенных классификаций должна задаваться своим вектором признаков. В главе третьей, подробно анализируется классификация понятий языка. В следующих пунктах коротко говориться о других классификациях естественного языка, приведенных в таблице выше.  В языке имеется два основных аспекта: семантический и формальный. Семантический аспект отвечает за потенциально возможные единицы языка, смысл которых формально определен. Формальные единицы отвечают за структуру и форму того или иного знака языка. Третьим аспектом можно считать аспект семантического шума, когда форма знака видоизменяется, смысл фразы искажается, но может быть восстановлен и приведен к стандартному виду. Например, фраза «я знаю, что он ей помог» имеет стандартный вид. Далее эту фразу можно высказать различными способами без искажения ее логической структуры: «мои сведения о том факте, который я мог знать и соответственно знал, имели своим предметом оказанную одним человеком более или менее существенную помощь в отношении упомянутой нами женщины. Да это был он, он помог ей, способствовав тем самым  делам, которые она и полагала сделать». Любой из элементов такой фразы не приведенного вида может быть также наделен семантическим шумом

  1.  на уровне звуков. «Он вспоможил ей».
  2.  на уровне морфем «Он немного подмог ей»
  3.  на уровне слов «Оный человек помог ей»
  4.  на уровне фразы «Он продвинул ее дела в нужном направлении»

Фразы приведенного вида, построенные на основе словаря понятий, должны составлять информационную базу естественно-языкового интерфейса, позволяющего при этом осуществлять их преобразования в не приведенные фразы с семантическим шумом и обратно.

2.3.3. Семы классификации 

Далее, приведем некоторые логические построения относительно классификации A1.C1. Как говорилось выше, классификация A1.C1 представляет собой классификацию множества сем языка, являющихся структурными элементами – составляющими слов и понятий языка.

Рисунок 2.2. Определение сем «ИЗ, НА, В, ОКОЛО»

На рисунке 2.2 показана часть общей классификации для сем ИЗ, ВНУТРИ, НА ПОВЕРХНОСТИ, ОКОЛО. Сема OF (ИЗ) означает отношение целого к части, связанной с ней органически и локализованной внутри нее. Сема IN (ВНУТРИ) означает отношение оболочки к содержанию, не связанному с ним органически, но также локализованному внутри нее. Сема ON (НА ПОВЕРХНОСТИ) означает отношение поверхности к покрытию, связанному (хотя и не органически) с ним и не локализованному внутри него. Сема AT (ОКОЛО) означает отношение одного обособленного объекта к другому, не связанному с ним и не локализованному внутри него.

   

   

Рисунок 2.3. Определение сем СУЩЕСТВУЮЩЕЕ, НЕСУЩЕСТВУЮЩЕЕ, ВОЗМОЖНОЕ, НЕОБХОДИМОЕ

На рисунке 2.3 показана часть общей классификации для сем СУЩЕСТВУЮЩЕЕ, НЕСУЩЕСТВУЮЩЕЕ, ВОЗМОЖНОЕ, НЕОБХОДИМОЕ. Сема 1 означает, что есть ситуация, в которой имеется некое событие. Сема 0 означает, что нет ситуации, в которой есть некое событие. Сема означает, что есть ситуация, в которой события нет. Сема означает, что нет ситуации, в которой нет некоего события.

Рисунок 2.4. Определение семи основных сем

«СОЗНАНИЕ, СУЩЕСТВО, ОТНОШЕНИЕ, ПРЕДМЕТ,
ИНФОРМАЦИЯ, ИДЕЯ, МЕСТО»

  

Предлагаемая классификация на семь сем: ОТНОШЕНИЕ, СОЗНАНИЕ, ИДЕЯ, ИНФОРМАЦИЯ, МЕСТО, ПРЕДМЕТ, СУЩЕСТВО. Сема СУЩЕСТВО  означает ЛОКАЛИЗУЕМОЕ и ВОСПРИНИМАЮЩЕЕ, сема ПРЕДМЕТ  означает ЛОКАЛИЗУЕМОЕ и НЕ ВОСПРИНИМАЮЩЕЕ, сема СОЗНАНИЕ  означает НЕ ЛОКАЛИЗУЕМОЕ и ВОСПРИНИМАЮЩЕЕ, сема ОТНОШЕНИЕ  означает НЕ ЛОКАЛИЗУЕМОЕ и  НЕ ВОСПРИНИМАЮЩЕЕ. Сема МЕСТО означает ЛОКАЛИЗУЮЩЕЕ и НЕ ВОСПРИНИМАЕМОЕ, сема ИНФОРМАЦИЯ означает ЛОКАЛИЗУЕМОЕ и ВОСПРИНИМАЕМОЕ, сема ИДЕЯ означает НЕ ЛОКАЛИЗУЕМОЕ и ВОСПРИНИМАЕМОЕ, сема ОТНОШЕНИЕ означает НЕ ЛОКАЛИЗУЕМОЕ и НЕ ВОСПРИНИМАЕМОЕ. Приведенная выше классификация является достаточной, но в то же время избыточной, например, слово «земля» относится как к категории МЕСТО (на котором живут люди), так и к категории ПРЕДМЕТ (макро уровня, летающий вокруг солнца).  Под семой понимается атом смысла, общий для ряда единиц элемент значения понятия. Например, понятия «идти» и «звать» содержат в себе одну и ту же сему МЕСТО. Такие понятия как СУЩЕСТВО, ОТНОШЕНИЕ, ИДЕЯ, МЕСТО являются семами, и они используются нами для конструирования понятий. Так, например, слово «говорить» относится к конструкции ОТНОШЕНИЕ СУЩЕСТВО СУЩЕСТВО ИДЕЯ, а «приглашать» - к конструкции ОТНОШЕНИЕ СУЩЕСТВО СУЩЕСТВО МЕСТО. Понятия образуют классификацию по наличию каких-либо сем и их сочетаний. Так же и другие единицы языка, семы, образуют классификацию на основе структуры входящих в них понятий. Классификация единиц языка отражает способ вывода этой единицы из единиц более низкого уровня.

2.3.4. Геносемы

Рассмотрим далее классификацию P1.D0 геносем - самых мелких единиц языка, не считая элементарное понятие «тождество».

Семы выводятся из более мелких единиц «геносем», образуя классификацию. Например, рассмотрим геносемы: ЛОКАЛИЗАЦИЯ (местонахождение) и ОТРАЖЕНИЕ (восприятие). Эти понятия могут составлять структуру сем, например: МЕСТО, ИДЕЯ, СУЩЕСТВО,

МЕСТО – НЕ ОТРАЖАЕМОЕ, ЛОКАЛИЗУЮЩЕЕ,

ИДЕЯ – ОТРАЖАЕМОЕ, НЕ ЛОКАЛИЗУЮЩЕЕ,

СУЩЕСТВО – ОТРАЖАЮЩЕЕ, ЛОКАЛИЗОВАННОЕ и так далее.

Таким образом, СУЩЕСТВО – это то, что способно к ВОСПРИЯТИЮ (идей) и ЛОКАЛИЗОВАНО в пространстве (месте) и т.д. Три геносемы ВКЛЮЧЕНИЕ, ВОСПРИЯТИЕ и ЛОКАЛИЗАЦИЯ имеют сложную структуру, например, ЛОКАЛИЗАЦИЯ. ЧТО ЛОКАЛИЗОВАНО или ВОСПРИЯТИЕ. ТО, ЧТО ВОСПРИНИМАЕТ. Трех геносем в сочетании со служебными символами «тождество», «отрицание» и «объект» достаточно для задания всех сем языка и далее любого понятия или слова. В свою очередь геносемы можно определить через понятия «тождество», «отрицание» и «объект».

2.3.5. Классификация понятий 

Рассмотрим классификацию понятий P1.D2. Под понятием понимается семантическая единица, которой может соответствовать некоторое реально существующее или гипотетически возможное слово языка. Например, понятию «гуляющий за городом» не соответствует в русском языке ни одно слово. Напротив, для английского языка это будет слово «rambler». Как и любую другую единицу языка, понятие можно дробить и анализировать как систему составляющих ей более мелких единиц. Так, например, понятию «уходить» соответствует конструкция из сем – более мелких единиц: ОТНОШЕНИЕСУЩЕСТВОМЕСТО и «1 0». Напротив, слово «приходить» имеет структуру: ОТНОШЕНИЕСУЩЕСТВОМЕСТО и «0 1». ОТНОШЕНИЕ, СУЩЕСТВО, МЕСТО и т.д. Таким образом, можно разлагать понятия (как и другие единицы) на составляющие компоненты значения и в результате сводить их к множеству связанных друг с другом единиц более низкого уровня вывода. Классификация понятий должна отражать их внутреннюю структуру. Для классификации важно определить порядок следования понятий друг за другом. Например, в предлагаемой классификации понятие «думать» стоит в иерархии понятий на месте, следующем за понятием «приходить» или «уходить», поскольку сема МЕСТО имеет приоритет над семой ИДЕЯ и их внутренняя структура будет соответствовать порядку их следования. Это дает критерии к однозначной линеаризации предлагаемой классификации на основе отношений порядка на уровнях классификации и приоритетов определенных уровней.

2.3.6. Синтагмы и валентности

В построении предложений важную роль играет сочетание понятий. Например, слово «видеть» сочетается со словом «груша» – «видеть грушу». А слова «человек» и «видеть» могут сочетаться двояко: «видеть человека» и «человек видит». Для построения осмысленных фраз важно знать, может ли пара слов сочетаться друг с другом определенным образом или нет. Для этого, во-первых, все слова представляются в виде системы валентностей. Например, понятие «обижать» имеет структуру: ОТНОШЕНИЕ СУЩЕСТВО СУЩЕСТВО. Значит, любое понятие, тождественное понятию «существо», может быть подставлено в эту структуру и может сочетаться со словом «обижать» как подлежащее или дополнение. Под валентностью понимается потенциальная связь слова с другими словами. Например, в семантической структуре слова «хранить»: ОТНОШЕНИЕ СУЩЕСТВО ПРЕДМЕТ отношение является нулевой валентностью, СУЩЕСТВО – первой валентностью, ПРЕДМЕТ – второй валентностью. На основе определения места слова в классификации задается его валентностная структура. Для определения сочетаемости понятий необходимо использовать данные о том, может ли одна валентность быть тождественна другой или нет. На этот вопрос можно ответить на основе главной аксиомы сочетаемости понятий: «Любые две единицы языка могут быть тождественны, если не верно, что одна из них содержит компоненту, а другая – ее отрицание. Иными словами,

 A  B  C ((A.C) & (B.C)).

2.3.7. Факты классификации 

Рассмотрим классификацию P1.D3 фактов языка, то есть соотношений понятий приведенного вида, содержащих определенную чисто логическую компоненту. Для построения высказывания необходимо учитывать следующие условия: Высказывание должно содержать

  1.  либо эмоциональную оценку какого-либо факта, например, «Это прекрасный кофе»,
  2.  либо утверждение или отрицание не самоочевидного факта, например, «Кофе кончился».
  3.  либо выражать всеобщий характер высказывания «Многие женщины упрямы», «Чеснок помогает от простуды»
  4.  либо связывать смысл высказывания с понятиями «я», «вы» и «это». «Мой дядя заболел. За ним ухаживают соседи».

Кроме того, в высказывании должен присутствовать как элемент произвола, так и элемент самоочевидности.

Высказывания, не соответствующие изложенным выше принципам, кажутся надуманными и неуместными. «В белом доме перегорела лампочка» (фраза без контекста, произнесенная в Англии).

Любая новая единица предполаает отождествление компонент системы единиц более низкого уровня. При этом такая система единиц низкого уровня представляет собой множество таких единиц, некоторые компоненты которых объявляются тождественными друг другу. Например, сема СУЩЕСТВО определялась как ВОСПРИНИМАЮЩЕЕ, ЛОКАЛИЗОВАННОЕ.. S(СУЩЕСТВО, ЛОКАЛИЗАЦИЯ, ВОСПРИЯТИЕ, T(СУЩЕСТВО, ЛОКАЛИЗАЦИЯ.ОБЪЕКТ), T(СУЩЕСТВО, ВОСПРИЯТИЕ.СУБЪЕКТ)) есть формула отождествления компонентов объектов низкого уровня для определения объекта СУЩЕСТВО. Аналогично любое высказывание есть отождествление компонентов множества понятий. Например, «Я хочу угостить тебя чаем». Приведем формулу этого факта. В скобочках даны расшифровки одинаковые для тождественных компонентов.

Идея (наш разговор):

1) ОТНОШЕНИЕ (говорить) СУЩЕСТВО (я) СУЩЕСТВО (вы) ИДЕЯ (наш разговор).

2) ОТНОШЕНИЕ (угощать) СУЩЕСТВО (я) СУЩЕСТВО (вы) ПРЕДМЕТ (еда) В СУЩЕСТВЕ (вы).

3) ОТНОШЕНИЕ (хотеть) СОЗНАНИЯ, ПОЗИТИВНОЕ (хорошо), НЕСУЩЕСТВУЮЩЕЕ (в будущем)

4) ПРЕДМЕТ (еда) В СУЩЕСТВЕ (вы); СТЕПЕНЬ ИЗМЕНЧИВОСТИ. СРЕДНЯЯ (жидкость); СТЕПЕНЬ ИНФОРМАТИВНОСТИ. ВЫСОКАЯ (растение); РАЗМЕР ПРЕДМЕТА. ШИРОКИЙ (ширина). ДЛИННЫЙ (длина). УЗКИЙ (ширина) (лист).

Высказывание, так же, как и факт есть определенная система понятий, компоненты которых отождествляются с учетом основной аксиомы сочетаемости понятий. В отличие от высказываний факт представляет собой информацию в приведенном виде. Факт – это семантическая функция от нескольких аргументов, семантических объектов. Попробуем пояснить сказанное на основе мини текста [66].

«Регулярное употребление в пищу йогурта укрепляет нервную систему, улучшает обмен веществ, способствует быстрому восстановлению сил, покрывает потребности организма в жизненно важных аминокислотах, солях кальция и других веществах. Состав: изготовлен из нормализованного молока, сухого молока, сахара, стабилизатора, фруктового наполнителя, закваски. Пищевая ценность: жира – 1,5 г,  белка – 3,0 г, углеводов – 12,7 г.»

Все слова, задействованные в приведенном выше тексте, относятся к некоторым классам слов всей понятийной классификации. Над этими словами и группами слов задаются семантические функции, в которых представлена информация приведенного выше текста. Классы слов являются областями определения семантической функции, а слова - значениями ее аргументов. Например, «пища» {йогурт, молоко, сахар и т.д.}, «тело» {нервная система, орган обмена веществ, мышцы, организм}, «вещества» {аминокислоты, соли, кальций, жир и т.д.} есть группы слов и области определения семантических функций вида: F(йогурт, содержит, кислоты), F(молоко, полезно для, мышцы). Таким образом, вся информация этого текста сводится к функциям с областями определения:  «пища», «тело», «вещество». Различные экземпляры этих классов: «йогурт», «молоко» и так далее связываются в особую семантическую сеть сем этого текста. Таким образом, для любого текста можно упорядочить семантическую сеть в рамках смысловых функций, заданных на понятийном пространстве языка. Отдельные области этого пространства задействованы под области определения семантических функций текста. Факты формируют класс фактов, располагаясь друг относительно друга в определенных отношениях. Например, факты «йогурт положительно действует на (полезен для) нервную систему» и «йогурт содержит кальций» находятся в отношении соседства, так как проецируются на общую опору {пища}. А факты «йогурт содержит кальций» и «йогурт содержит 3,0 г белка» находятся в иерархической зависимости. Первое высказывание имеет только аргументы «еда» и «вещество», а второе – «еда», «вещество» и «единица измерения». Факты напоминают спрута, щупальца которого есть опоры, цепляющиеся за понятийную поверхность. Колония таких «спрутов», находящихся друг возле друга или друг под другом (в соседних или иерархических отношениях) есть класс фактов того или иного текста или речевого акта. Такое представление информации может быть использовано при создании естественно-языковых интерфейсов, поскольку выбор в словаре последовательно подклассов слов (таких как «еда» и «вещество») может являться автоматически вызовом фактов типа «подсолнечное масло часто содержит холестерин».

Рисунок 2.5. Принцип порождения осмысленных текстов

В данном случае пользователь мог бы почти напрямую иметь доступ к полностью упорядоченному массиву данных из любой предметной области и смежных областей. Последнее открывает широкое поле деятельности в области проектирования поисковых систем, предусматривающих создание дружелюбного естественно-языкового интерфейса.

2.3.8. Высказывания

Рассмотрим классификацию высказываний P2.D3, то есть различные способы формального выражения информации фактов. Факты содержат информацию приведенного вида, а высказывания – не приведенного, содержащие эмоции, иносказания, иронию, метафоры, юмор, обратный порядок слов, метонимию и многие другие отклонения от информации приведенного вида.   Выражение фактов характеризуется тем, что семы, составляющие эти факты, комбинируются в новые понятия. Например, предыдущий факт можно было бы выразить иначе : «Было бы неплохо угостить вас чаем». Факты языка – это информация, представленная в приведенном виде, а высказывания представляют собой различные формальные способы представления того или иного факта. Множество всех возможных выражений того или иного факта есть множество, анализ которого предстоит дать в последующих работах. Важным моментом в выражении фактов является контекстуальная избыточность, то-есть повторение одних и тех же компонентов для большей ясности и убедительности. «У меня есть чай. Вы не хотите чашечку. Я могу вас угостить. Я бы хотел, чтобы вы его попробовали».

Классификация фактов выражается в форме высказываний. Множество высказываний образует классификации с расположением предложений по тематическому принципу. Тема является множеством высказываний, связанных одним или несколькими тематическими центрами. Высказывания образуют друг с другом различные отношения и структуры: доказательства, примеры, аналогии, ассоциации, последовательности изложения и т. д. Все высказывания какого-либо текста представляют собой иерархию.

 2.4. Понятийное пространство в целом

Понятийное пространство характеризуется тем, что только часть его ячеек соответствует реальным единицам языка, со своей грамматикой, фонетикой и написанием. Заданное полностью понятийное пространство дает нам базу, на которой располагается все знаковые системы.

Понятийное пространство можно использовать как базу для преобразования одних единиц в другие. При разработке систем естественно-языкового интерфейса можно нагрузить универсальную для разных языков понятийную ячейку грамматическим, фонетическим и прочим наполнением. Семантика вообще и понятийное пространство в частности является областью пересечения систем различных языков. Единицей самого высокого уровня естественного языка семантического аспекта является классификация фактов, то есть совокупность всех известных классов фактов во множестве всех возможных классов фактов. Таким образом, система языка представляет собой иерархию языковых семантических единиц (геносем, сем, понятий, и фактов).  Понятия выражаются словами языка, а факты выражаются в форме высказываний. Понятийное пространство есть множество всех возможных единиц языка, часть которых имеет свое знаковое отображение в реальных языках. То есть множество знаков языка имеет свое отображение на упорядоченное множество понятий языка.

Выводы к главе 2

Любому понятию естественного языка может быть дано смысловое определение на основе общего для единиц одного уровня вектора признаков. Множество объектов, отношений и их отрицаний составляют формальную систему смыслового определения любого слова.  При этом для всех слов языка можно получить единую формулу объектов и отношений, общую для всех слов языка, где каждое слово отличается от всех остальных уникальным набором отрицаний (или утверждений) объектов или отношений. Последовательность отрицаний задает вектор семантических признаков, полностью описывающий основное семантическое значение любого слова. Вектор семантических признаков однозначно задает классификацию любых языковых единиц, которая может быть представлена либо в виде многомерного куба, либо в форме симметричного дерева классификации. Изменение последовательности элементов вектора дает различные древообразные классификации, представленные в виде различных словарей: словаре гиперонимов (общих и частных значений слов), словаре ассоциаций, комбинаторном словаре и т. д.  

Для каждого уровня языка (сем, слов, фактов) характерна своя семантическая классификация, свой семантический вектор и своя семантическая формула. Вместе они образуют последовательности классификаций, векторов и формул разного уровня.

Представление классификаций в форме упорядоченного множества открывает большие перспективы в создании простых и дружелюбных интерфейсов для задач построения фраз на незнакомом языке, поиска информации в базах данных и осуществления машинного перевода на основе сведения высказываний к приведенному виду и использования подстановочных таблиц как критерия осмысленности фраз.


ГЛАВА 3. СЛОВАРЬ ПОРОЖДЕНИЯ ЯЗЫКОВЫХ ЕДИНИЦ КАК СРЕДСТВО ФОРМИРОВАНИЯ «ТАБЛИЧНЫХ» ИНТЕРФЕЙСОВ

3.1. Общие принципы построения словаря

3.1.1. Понятийное пространство и его наполнение

Во второй главе были описаны общие принципы построения классификации различных единиц, в частности, слов языка на основе вектора признаков, набор значений элементов которого необходимо определить. В настоящей главе предлагается вектор понятийной классификации, которая может быть нагружена словами естественного языка: русского, английского и любого другого. Электронная реализация словаря на 10 000 слов, описываемая в главе четвертой, является практической реализацией предлагаемой классификации. Предлагаемый словарь сопоставляет ряду понятий понятийного пространства (узлам классификации) наиболее часто употребляемые слова из различных областей математики, биологии, парикмахерского искусства, информатики и т. д., а также из области «бытовой английский». При этом разделы представляют собой не отдельные классификации, а выборки из общей универсальной классификации. Далее описаны общие принципы построения классификации, позволяющей создавать на ее основе различные словари и базы данных для построения естественно-языковых интерфейсов.

3.1.2. Классификация P1.D3 в целом

Рассмотрим классификацию понятий P1.D3.

P1.D3.G – вектор признаков классификации P1.D3 понятий. Рассмотрим значения этих признаков.

1) Первый уровень классификации понятий соответствуют признаку G1 вектора G.

Пусть G1 = {НЕЧТО, ОТНОШЕНИЕ, СОЗНАНИЕ, ИДЕЯ, ИНФОРМАЦИЯ, МЕСТО, ПРЕДМЕТ, СУЩЕСТВО}. Перечисленные значения признака G1 будем называть основными семами. Здесь и далее семы записываются прописными буквами.  Смысловые значения сем определяются в классификации P1.D2.

2) Второй уровень классификации понятий представлен признаком G2.

Множество G2 значений этого признака задается множеством правил порождающей грамматики:

{SàFd, SàFx, dàЖИВОГО, dàНЕЖИВОГО, x  КОТОРОГО ЖИВОЕ, x  à КОТОРОГО НЕЖИВОЕ,  FàЧАСТЬ (OF), FàВНУТРИ (IN), FàНА ПОВЕРХНОСТИ (ON), FàОКОЛО (AT)},

где понятие ОКОЛО обозначает любое ненулевое расстояние между объектами.

3) Третий уровень классификации понятий определяется признаком G3,

G3={Xy (сущность), XXy (сущность чего-то), ОТНОШЕНИЕXy (свойство), ОТНОШЕНИЕXXy (связь), ОТНОШЕНИЕСУЩЕСТВОXy (действие), ОТНОШЕНИЕСУЩЕСТВОXXy (соединение), ОТНОШЕНИЕСУЩЕСТВОСУЩЕСТВОXy (презентация), ОТНОШЕНИЕСУЩЕСТВОСУЩЕСТВОXXy (обмен)},

где X – любая из основных сем, определенных на первом уровне классификации, а y – любая последовательность таких сем. Х выделяется как главная по смыслу сема. Знак «» используется в данном случае для обозначения конкатенации. В круглых скобках приведены смысловые пояснения.

4) Множество G4 значений признака G задается множеством правил порождающей грамматики:

{SàP1P2P3P4P5P6P7P8, P1àgКОЛИЧЕСТВО, P1à,  P2à gУСТОЙЧИВОСТЬ, P2à, P3à gПОЗИТИВНОСТЬ, P3à , P4à gСПЕКТР, P4à, P5à gИНФОРМАТИВНОСТЬ, P5à, P6à gМЕСТОПОЛОЖЕНИЕ, P6à, P7à gРАЗМЕР, P7à, P8à gИСКУССТВЕННОСТЬ, P8à}, где g – лингвистическое значение шкалы вида: {минимальный, …, малый, …, средний, …, большой, …, максимальный, }. Здесь – пустой символ.

5) Пятый уровень классификации понятий

Множество G5 значений рассматриваемого признака задается множеством правил порождающей грамматики:

{Sàx, xà(xFx), xàxFx, xà1 (существующее), xà0  (несуществующее), xà (возможное), xà (необходимое), FàВКЛЮЧАЕТ, F à ВКЛЮЧАЕТСЯ В, F à ВКЛЮЧАЕТ И ВКЛЮЧАЕТСЯ В, F à ЧАСТИЧНО ВКЛЮЧАЕТ,  F à БОЛЬШЕ ЧЕМ, F à МЕНЬШЕ ЧЕМ, F à РАВНО, F à ПОДОБНО, F à СТАНОВИТСЯ,  F à ПРОИСХОДИТ ИЗ, F à ОДНОВРЕМЕННО С, F à НЕОДНОВРЕМЕННО С, F à ИМПЛИЦИРУЕТ, F à СЛЕДУЕТ ИЗ, F à СООТВЕТСТВУЕТ, F à СВЯЗАНО С}.

Все последующие уровни классификации получаются путем рекурсивного повторения предложенных пяти уровней классификации. Индекс уровня вычисляется по формуле: Gi=Gmod(i,5), где s Î N  (множество натуральных чисел) [-].

3.2. Уровни классификации

3.2.1. Вектор классификации слов и понятий

Приведем примеры классификации и дефиниций слов естественного языка на основе предложенных принципов. Третий уровень классификации слов назовем валентностным уровнем, где под валентностью подразумевается лингвистическое понятие, означающее потенциальные связи слова с другими словами. Так словам группы {хотеть, любить, должен, буду, мочь} соответствует значение третьего признака: ОТНОШЕНИЕ СУЩЕСТВО ОТНОШЕНИЕ (кто-то хочет что-то делать). Семантика группы слов {идти, ехать, бежать, нестись, спешить} описывается формулой ОТНОШЕНИЕ СУЩЕСТВО МЕСТО (кто-то идет куда-то). Группа слов {парк, гора, река, город} подпадает под значение МЕСТО, выраженное одной семой. Значение ОТНОШЕНИЕ МЕСТО представляет слова: {живописный, удаленный, ближайший, большой} (ближайший город).

Значение второго признака ПРЕДМЕТ ВНУТРИ КОТОРОГО НЕЖИВОЕ соответствует понятию «контейнер», ПРЕДМЕТ НА ЖИВОМ - понятию «одежда», ПРЕДМЕТ ЧАСТЬ НЕЖИВОГО – понятию «деталь». Этот уровень классификации назовем уровнем локализации.

Пятый уровень назовем уровнем оппозиции. В лингвистике понятие оппозиции занимает принципиальное место, при этом считается, что антонимы представляют собой парные оппозиции, например, «жизнь» – «смерть», «хороший» – «плохой». При этом выходящие за рамки таких пар конструкции (например, «рождение» – «жизнь» – «смерть» – «небытие» и т. п.), как правило, не рассматриваются [8]. Оппозиции это значения пятого признака классификации типа 1 0, 0 1, 1  1, 1  0  1 и т.д. Приведем примеры соответствующих антонимических оппозиций. Для значения ОТНОШЕНИЕ СУЩЕСТВО это слова «родиться»: 0  1, «умереть»: 1  0, «воскреснуть»: 1  0  1. Например, СУЩЕСТВОВАНИЕ существа переходит в НЕСУЩЕСТВОВАНИЕ в рамках понятия «смерть». Для схемы ОТНОШЕНИЕ СУЩЕСТВО ОТНОШЕНИЕ это группа слов: «начать»:  0  1, «закончить»:  1  0, «продолжать»: 1  1, «возобновить»: 1  0  1. Например, СУЩЕСТВОВАНИЕ действия переходит в НЕСУЩЕСТВОВАНИЕ в рамках понятия «закончить».

Рекурсия состоит в уточнении одной структуры через другую структуру того же порядка. Например, рекурсивно задаваемая схема ПРЕДМЕТ (ОТНОШЕНИЕ СУЩЕСТВО МЕСТО) соответствует группе слов, обозначающей средства передвижения, в частности, транспорт {корабль, самолет, автомобиль, мотоцикл}.

В совокупности все признаки классификации позволяют классифицировать слова с точностью до синонимов. Так, например, на первом уровне имеется понятие СУЩНОСТЬ (например, книга, парк, час, бар), уточняемая до понятия ПРЕДМЕТ (например, книга, ручка, самокат, библиотека, бар), и далее уточняемая до схемы ПРЕДМЕТ ВНУТРИ КОТОРОГО СУЩЕСТВО (например, здания: библиотека, школа, завод, кафе, бар). Далее по рекурсии имеем более сложную схему: ПРЕДМЕТ (ПРЕДМЕТ ВНУТРИ КОТОРОГО СУЩЕСТВО (ОТНОШЕНИЕ СУЩЕСТВО ПРЕДМЕТ  (ПРЕДМЕТ ВНУТРИ СУЩЕСТВА) (что означает здания для принятия пищи, например, ресторан, кафе, закусочная, бар).

Предложенная классификация понятий и слов представлена в словаре порождения высказываний естественного языка [3]. Она является не имеющим близких аналогов средством генерации осмысленных фраз естественного языка. Далее рассмотрим каждый из приведенных уровней подробней.

3.2.2. Валентностный уровень классификации

В основе представляемой классификации лежит ряд приводимых выше классификаций геносем. На основе двух семантических понятий (местонахождение и восприятие) задаются значения семи сем: МЕСТО, ПРЕДМЕТ, СУЩЕСТВО, ИНФОРМАЦИЯ, ИДЕЯ, СОЗНАНИЕ, ОТНОШЕНИЕ. Объединением этих семи сем является понятие НЕЧТО. Рассмотрим понятие о валентностях слов (способности слов сочетаться с другими словами). На основании этого можно конструировать различные схемы слов. Например, схема ОТНОШЕНИЕ СУЩЕСТВО ПРЕДМЕТ соответствует словам: ломать, производить, хранить, чинить и так далее. (Кто-то чинит предмет, кто-то хранит предмет). Другой пример, схема ОТНОШЕНИЕ СУЩЕСТВО СУЩЕСТВО соответствует словам: убить, родить, спасать, воскрешать и так далее. (Кто-то убивает кого-то, кто-то родил кого-то). Все слова языка неизбежно укладываются в подобные схемы. При этом наиболее часто используются схемы типа:

НЕЧТО,

НЕЧТО НЕЧТО,

ОТНОШЕНИЕ НЕЧТО,

ОТНОШЕНИЕ НЕЧТО НЕЧТО,

ОТНОШЕНИЕ СУЩЕСТВО НЕЧТО,

ОТНОШЕНИЕ СУЩЕСТВО НЕЧТО НЕЧТО,

ОТНОШЕНИЕ СУЩЕСТВО СУЩЕСТВО НЕЧТО,

ОТНОШЕНИЕ СУЩЕСТВО СУЩЕСТВО НЕЧТО НЕЧТО.

Эти восемь валентностных конструкций составляют первый уровень классификации

В естественно-языковых интерфейсах, построенных на основе порождающих грамматик. заложен принцип импликаций или валентностей, который в предлагаемой классификации работает на валентностном уровне. Табличный тип интерфейса, вбирающий в себя все уровни классификации понятий, представляет собой более дружелюбную программную реализацию, чем порождающие грамматики с набором правил, действующих согласно валентностной структуре слов. Это связано с тем, что набор правил порождающих грамматик скрыт от пользователя и плохо поддается визуализации. Табличные же интерфейсы явно демонстрируют соответствие их структуры простой логике и «здравому смыслу» построения предложений. Таким образом, предлагаемое исследование в области семантики и упорядочение лексических пластов позволяет создать настолько простую систему взаимодействия программного обеспечения с пользователем, что порождение естественного языка в рамках программного обеспечения сводится к простым подстановкам и выбору нужного понятия из столбцов подстановочных таблиц. Концепция же Smart таблиц должна исключить в будущем шероховатости и пробелы в построении фраз естественного языка, и их представление в виде пользовательского интерфейса будет накладывать дополнительные ограничения на составление фраз со стороны программного обеспечения.

3.2.3. Уровень основных сем

На втором уровне предлагаемой классификации определяется, какая из основных семи сем стоит вместо символа НЕЧТО в предлагаемых валентностных схемах. Таким образом, на валентностном уровне классификации определяются типы валентностных конструкций, а уровень основных сем конкретизирует значение этих конструкций, определяя символ НЕЧТО как одну из семи сем: МЕСТО, ПРЕДМЕТ, СУЩЕСТВО, ИНФОРМАЦИЯ, ИДЕЯ, СОЗНАНИЕ, ОТНОШЕНИЕ или оставляя ее неопределенной.

3.2.4. Уровень локализации

На третьем уровне классификации определяются так называемые «локализации» – части классификации и формулы слов языка, характеризующие их отношение к пространственному местоположению. Например, понятие «орган» относится к классу ПРЕДМЕТ, и далее конкретизируется как ПРЕДМЕТ ИЗ СУЩЕСТВА. «Одежда» есть ПРЕДМЕТ НА СУЩЕСТВЕ. «Контейнер» есть ПРЕДМЕТ В КОТОРОМ ПРЕДМЕТ. «Коллекция» есть ПРЕДМЕТ ИЗ ПРЕДМЕТОВ. Формула ПРЕДМЕТ В СУЩЕСТВЕ обозначает понятия «еда, пища, напитки». Общая схема локализации следующая: ИЗ / В / НА / ОКОЛО (КОТОРОГО) ЖИВОЕ / НЕ ЖИВОЕ, где под символом «/» понимается дизъюнкция. Уровни классификации могут повторяться рекурсивно. Например, группа слов «ресторан, кафе, бар, столовая, закусочная» определяется при помощи следующей последовательности признаков классификации НЕЧТО \\ ПРЕДМЕТ \\ В КОТОРОМ ЖИВОЕ \\ ОТНОШЕНИЕ СУЩЕСТВО НЕЧТО \\ ПРЕДМЕТ \\  В ЖИВОМ, что обозначает здание для действий с пищей, где символ «\\» означает переход на следующий уровень классификации.

Уровень основных сем в сочетании с уровнем локализации задает классы лексических единиц для подстановочных таблиц в рамках систем ЕЯ интерфейса. Например, подстановочная таблица по теме «симпатии к одежде», подстановочная таблица по теме «поход в магазин» и далее - по теме «деньги за товар» образуют последовательность подстановочных таблиц, выборка предложений из которых дает предложения вида: «Я люблю полосатые жакеты, я с удовольствием ношу полосатую одежду. Завтра я иду в магазин на улице Иванова. Я еду туда на машине. Я заработал 50 долларов и хочу потратить 300 рублей на новый жакет». Таким образом, два вышеупомянутых уровня классификации не только определяют позицию классов слов в понятийном пространстве, но и могут входить в классификацию высказываний, организованную тематически. Последнее должно визуализировать в рамках естественно-языкового интерфейса не только структуру предложения, но и структуру возможных текстов. Таким образом, последовательность подстановочных таблиц является еще одним средством построения табличного ЕЯ интерфейса.

3.2.5. Уровень свойств

Далее на следующем (четвертом) уровне имеется деление на следующие классы:

A) класс «КОЛИЧЕСТВО» задается формулой ОТНОШЕНИЕ НЕЧТО, например, «огромное» - «большое» - «среднее» - «малое» -  «крохотное».

B) класс «СТЕПЕНЬ УСТОЙЧИВОСТИ» задается формулой ОТНОШЕНИЕ ОТНОШЕНИЕ, например, категории твердое (твердое, мягкое), жидкое (густое, жидкое), газообразное (газ, огонь) отличаются СТЕПЕНЬЮ УСТОЙЧИВОСТИ. Например, слова «идти», «плыть», «лететь» задаются формулой ОТНОШЕНИЕ СУЩЕСТВО НЕЧТО \\ МЕСТО \\ ОКОЛО ЖИВОГО \\ ТВЕРДОЕ ИЛИ ЖИДКОЕ ИЛИ ГАЗ.

C) Класс «ОТНОШЕНИЕ К СОЗНАНИЮ» задается формулой ОТНОШЕНИЕ СОЗНАНИЕ и выражает различную степень позитивности, а именно: позитивное, нейтральное, негативное. Так, например, значения слов «облачиться в», «одеть», «напялить» стилистически отличаются степенью позитивности.

D) Класс «ИНТЕНСИВНОСТЬ ОЩУЩЕНИЙ» задается формулой ОТНОШЕНИЕ ИДЕЯ. Следующие слова составляют лингвистические оппозиции именно по признаку интенсивности ощущений:

«Красный» – «оранжевый» – «желтый» – «зеленый» – «синий» – «фиолетовый».

«До» – «Ре» – «Ми» – «Фа» – «Соль» – «Ля» – «Си».

E) Класс «ИНФОРМАТИВНОСТЬ» задается формулой ОТНОШЕНИЕ ИНФОРМАЦИЯ и предполагает деление на подклассы: высокоразвитый, не высокоразвитый. Приведем примеры таких оппозиций:

«Человек» – «животное» – «растение» – «неживой предмет».

«Активность» – «деятельность» - «поведение»

F) Класс «ИСКУССТВЕННОСТЬ-НАМЕРЕННОСТЬ» задается формулой ОТНОШЕНИЕ СУЩЕСТВО и предполагает деление на подклассы: искусственное, естественное. Примерами таких категорий являются пары слов:

«Лес» – «парк», «видеть» – «смотреть», «повидаться с» –
«столкнуться с».

G)  Класс «РАЗМЕР» задается формулой ОТНОШЕНИЕ ПРЕДМЕТ. Примерами наличия в смысле слова семы «РАЗМЕР» являются следующие слова: «высота» – «ширина» – «длина», «высокий» – «средний» - «низкий», а также цепочки слов: «впадина» – «низменность» – «равнина» – «холм» - «гора».

H) Класс «МЕСТОПОЛОЖЕНИЕ» задается формулой ОТНОШЕНИЕ МЕСТО: Следующие слова содержат указанную сему: «высоко» - «на средним уровне» – «низко», «пол» – «потолок», «авангард».

Уровень свойств выделяет в классификации подклассы слов, уточняющие комбинаторику в отдельных подстановочных таблицах. Далее будет показано, что сопоставление формул слов в рамках подстановочных таблиц дает возможность сводить к минимуму количество неудачных фраз, генерируемых компьютером. В большинстве случаев деление на подклассы в рамках классов слов, замещающих друг друга при изменении смысла, но сохранении осмысленности, происходит на уровне свойств и выше по дереву классификации. Например, для группы слов ОТНОШЕНИЕ СУЩЕСТВО МЕСТО  имеются следующие подклассы слов:

малоустойчивое МЕСТО – «небо», «облака», «туман», «дымка»,

среднеустойчивое МЕСТО – «океан», «море», «озеро», «пруд», «лужа», «река»,

очень устойчивое МЕСТО – «земля», «континент», «остров», «полуостров» и т. д.

С точки зрения визуализации данных в форме табличного интерфейса, в каждый столбец подстановочной таблицы могут вводиться обозначения уровня, которому принадлежит слово. Таким образом, каждый столбец Smart таблицы будет представлен в форме отдельного дерева-классификации. Определенные уровни этой классификации соответствуют подклассам слов, определяющим комбинаторные свойства Smart таблицы. Например:

Таблица 3.1

Подстановочная таблица со столбцами-деревьями

1 существа

1 намереваются

1 ДЕЙСТВИЕ НАД ПРЕДМЕТОМ В СУЩЕСТВЕ

1.1 люди

1.1 хотят

1.1 есть

1.2 звери

1.2 планируют

1.2 пить

1.2.1 кошки

2 склонны

2 ДЕЙСТВИЕ НАД МЕСТОМ

1.2.2 собаки

2.1 любят

2.1 бегать

В таблице 3.1 показан пример Smart-таблицы, в которой в каждой колонке находится дерево понятийной классификации. Номера перед словами означают уровни деревьев.

Данный тип интерфейса основывается на Smart таблицах приведенного выше вида, где каждый столбец подстановочной таблицы представлен в форме дерева, с понятиями и формулами понятий на каждом его узле.

3.2.6. Уровень отношений

Далее на 5-ом уровне используется схема XaXaX, Xa(XaX), (XaX)aX и т.п. В ней «X» принадлежит множеству {существует,  не существует, возможно, необходимо}, а символ «a» принадлежит множеству {тождество, равенство, изменение, условие, …}.

Приведем примеры определения слов на 5-м уровне: приходить – «0 стало 1», уходить – «1 стало 0», проходить – «0 стало 1 стало 0», отлучиться – «1 стало 0 стало 1», сторониться – «0 стало 0», стоять – «1 стало 1». Под 1 и 0 подразумевается нахождение СУЩЕСТВА в каком-то месте в некий момент времени, поскольку все эти слова имеют общую схему:

ОТНОШЕНИЕ СУЩЕСТВО МЕСТО.  

Понятие «сводить (идею к идее)» подразумевает формулу:

ОТНОШЕНИЕ СУЩЕСТВО НЕЧТО НЕЧТО //  ИДЕЯ // 1 СТАЛО 1,

Понятие «понимать идею под идеей» описывается формулой :

ОТНОШЕНИЕ СУЩЕСТВО НЕЧТО НЕЧТО //  ИДЕЯ // 1 ВКЛЮЧАТЬ 1,

Понятие «выводить идею из идеи» задается формулой:

ОТНОШЕНИЕ СУЩЕСТВО НЕЧТО НЕЧТО //  ИДЕЯ // 1 ИМПЛИЦИРОВАТЬ 1.

Понятие «сопоставлять идею с идеей» задается формулой:

ОТНОШЕНИЕ СУЩЕСТВО НЕЧТО НЕЧТО //  ИДЕЯ // 1 ПОДОБНО 1.

Уровень оппозиций необходимо учитывать при составлении Smart таблиц. В частности, в зависимости от наличия определенных компонентов в значении слов, в колонках таблиц фразы могут быть более или менее противоречивыми и более или менее тавтологичными. Например, фраза «доктор лечит пациента» более тавтологична, чем фраза «мой шурин лечит его ученика». Фраза «убийца спас жертву» – осмысленна, но несколько противоречива, так же как и фраза «неуч хорошо осведомлен». Подобные фразы можно распознавать в рамках построения ЕЯ интерфейса, сравнивая компоненты слов на уровне оппозиций. Так, например, понятие «неуч» содержит обозначение сем ОТНОШЕНИЕ СУЩЕСТВО ИДЕЯ (0), а слово «осведомленный» – семы ОТНОШЕНИЕ СУЩЕСТВО ИДЕЯ (1), соответственно они составляют оппозицию и  принадлежат при этом к разным группам слов СУЩЕСТВО и ОТНОШЕНИЕ СУЩЕСТВО соответственно. Табличный естественно-языковой интерфейс должен давать возможность разрешать или не разрешать построение фраз того или иного типа, например, фраз с тавтологией или противоречием.

3.2.7. Рекурсивное порождение последующих уровней 

классификации

Дальнейшие  уровни классификации порождаются путем рекурсивного повторения предыдущих уровней. Например, слово «ноги» определяется через два рекурсивных уровня: СУЩНОСТЬ // МЕСТО // ИЗ ЖИВОГО и ДЕЙСТВИЕ // МЕСТО // ОКОЛО ЖИВОГО, то есть ноги это часть тела для передвижения.

За счет свойства рекурсии классификация может задавать ассоциации между различными группами и подгруппами слов. Например, группа слов «брать», «давать», «покупать», «продавать», «заказывать», «поставлять» группы ОТНОШЕНИЕ СУЩЕСТВО СУЩЕСТВО ПРЕДМЕТ ассоциируется с группой слов ПРЕДМЕТ (ОТНОШЕНИЕ СУЩЕСТВО СУЩЕСТВО ПРЕДМЕТ) – «товар», «подарок фирмы», «покупка», «заказ», а также подгруппой слов «магазин» группы слов «здания»: «киоск», «павильон», «супермаркет». В приложении к построению табличного интерфейса необходимо использовать ассоциативные связи между группами и подгруппами слов. Например, последовательность таблиц по следующим темам

  1.  «ПОЗИТИВНОЕ» и «покупать»;
  2.  «ПОЗИТИВНОЕ» и «товар»;
  3.  «КОЛИЧЕСТВО», «движение» и «магазин».

позволяет задавать множество осмысленных высказываний, например, «Я с удовольствием покупаю дорогие запчасти. Хорошие запчасти – прекрасный товар. Я часто хожу в павильон рядом с домом». Подобная организация данных в виде последовательности Smart таблиц может быть использована для создания естественно-языкового интерфейса, визуализирующего структуру человеческого общения, речи и текстов.

3.3. Примеры понятий и их кодовых обозначений

3.3.1. Примеры понятий для уровня основных сем

На первом этапе классификации выделяются 7 классов, в скобках приводятся предлагаемые для них обозначения:

НЕЧТО (a): МЕСТО (e), ОБЪЕКТ (o), ЖИВОТНОЕ (A),
ОТНОШЕНИЕ (
u), ИНФОРМАЦИЯ (E), ИДЕЯ (i), СОЗНАНИЕ (O).

Приведем примеры таких понятий:

A) «птица», «щука», «рыба», «дворник», «зять», «доктор» и т.д.;

o) «утюг», «ручка», «шкаф», «чашка», «яблоко», «трава», «библиотека» и т.д.;

O) «сознание», «душа», «дух», «Бог», «эгрегор» и т.д.;

e) «парк», «гора», «долина», «река», «океан», «небо», «космос», «вселенная»;

E) «детектив», «трагедия», «визитка», «заметка»;

i) «мысль», «мнение», «понятие», «убеждение», «чувство», «желание», «зуд»;

u) «любовь», «связь», «помощь», «знание», «привычка», «использование».

3.3.2. Примеры понятий для валентностного уровня 

классификации

Далее на валентностном уровне классификация уточняется на основе принципов комбинаторики.

AA  – СУЩЕСТВО СУЩЕСТВО: «чей-то доктор», «зять», «друг», «собеседник»

AAu  – СУЩЕСТВО  СУЩЕСТВО ОТНОШЕНИЕ: «чей-то помощник», «руководитель», «советчик», «учитель в чем-то»

Ao  – СУЩЕСТВО ОБЪЕКТ: «создатель»

Au  – СУЩЕСТВО ОТНОШЕНИЕ: «мастер чего-то», «профессионал в чем-то»

uAAu  – ОТНОШЕНИЕ СУЩЕСТВО  СУЩЕСТВО ОТНОШЕНИЕ: «помощь кого-то», «кому-то в чем-то», «уговоры», «руководство», «обучение», «приказ»

uAAo  – ОТНОШЕНИЕ  СУЩЕСТВО СУЩЕСТВО  ПРЕДМЕТ: «получение», «продажа»

uAo  – ОТНОШЕНИЕ  СУЩЕСТВО  ПРЕДМЕТ: «использование», «создание», «ремонт»

uAu  – ОТНОШЕНИЕ  СУЩЕСТВО  ОТНОШЕНИЕ: «любовь кого-то к чему-то», «желание», «умение», «попытка кого-то что-то сделать»

uAI – ОТНОШЕНИЕ  СУЩЕСТВО  ИДЕЯ «понимание кем-то чего-то», «знание», «размышления о» и т.д.

3.3.3. Примеры понятий уровня локализации

Третий этап классификации уточняет представленные выше семы при помощи понятий, означающих положение в пространстве: «ИЗ», «В», «НА», «У».

Ao(Azzo) – «жилец», «проживающий в»

oo(obbA) – «орган», «голова», «рука», «сердце»

oA(oddA) – «инъекция», «пища», «суп», «яблоко», «ананас», «сок»

o(oggo) – «одежда», «покрывало», «одеяло», «шапка», «сапоги»

oA(obbo) – «деталь», «гайка», «ручка»

oA(otto)  – «содержимое», «начинка», «фарш»

Ea – «книга», «газета», «роман», «детектив»

uAu – «попытка что-то сделать»

uAAu – «помощь кого-то кому-то в чем-то»

  1.  Семантический код описания смысла

3.4.1. Кодировка сочетаний групп слов

Первые три уровня деления слов на подклассы обеспечивают выделение групп слов, синтагматически сочетающихся друг с другом. Взяв по одному слову из каждой группы, можно с большой степенью вероятности получить осмысленное сочетание слов – синтагму. Эти группы представляют собой иерархию слов и понятий следующего вида, где ? – неопределенный символ.

? - have

ll? - swallow

lly - eat

?(L (uAo (bb))) - take

mm – drink

nny – breath with

nn (uAO) – smoke

ll – food

?  (uAO) – medicine

ll (uAO)  – pills

mm – a drink

mm (uAO)  – mixture

nny – air

nn (uAO) – cigarette

Каждой букве кодировки соответствует та или иная сема, например, nn – малая устойчивость (газ), mm – средняя устойчивость (жидкость), ll – высокая устойчивость (твердое тело). Знак (uAO) означает действие на сознание. Знак (L(uAo(bb))) означает позитивное действие на тело и т. д. Синтагмы записываются в форме подстановочной таблицы.

Таблица 3.2.

Подстановочная таблица, содержащая синтагму
ДЕЙСТВИЕ \\ НАД ЕДОЙ – СУ
ЩНОСТЬ \\ ЕДА

ДЕЙСТВИЕ \\ НАД ЕДОЙ

СУЩНОСТЬ \\ ЕДА

have
хАЕв
есть, пить

food
фУ:д
пища

taste
тейст
пробовать

dish
дИш
блюдо

eat
И:т
есть

soup
сУ:п
суп

cook
кУ:к
готовить

garnish
гА:ниш
гарнир

fry
фрАй
жарить

salad
сАЕлэт
салат

boil
бОил
варить

sandwich
сАЕнВИч
сандвич

roast
рОуст
тушить

sausage
сОсидж
колбаса

can
кАЕн
консервировать

ice-cream
Айс-крИ:м
мороженное

salt
сОлт
засолить

bread
брЕд
хлеб

cut
кАт
резать

cake
кЕйт
торт

serve
сЭ:в
сервировать

meat
мИ:т
мясо

drink
дрИнк
пить

fish
фИш
рыба

make
мЕйк
заваривать

poultry
пАултри
дичь

boil
бОил
кипятить

egg
Ег
яйцо

caviare
кАЕвиэ
икра

fruit
фрУ:т
фрукт

citrus
сИтрэс
цитрус

vegetable
вЕджетэбэл
овощь

greenery
грИ:нэри
зелень

onion
Аниэн
лук

mushroom
мАшрУ:м
гриб

nut
нАт
орех

berry
бЕри
ягода

cereals
сИ:риэлз
злаки

noodles
нУ:длз
лапша

drink
дрИнк
напиток

milk
мИлк
молоко

juice
джУ:с
сок

tea
тИ:
чай

coffee
кОфи
кофе

mineral water
мИнэрэл-ВОтэ
минеральная вода

lemonade
лЕмэнейд
лимонад

alcohol
АЕлкэхэл
алкоголь

beer
бИэ
пиво

wine
ВАйн
вино

В таблице 3.2 показана подстановочная таблица, задающая синтагму

ДЕЙСТВИЕ С ЕДОЙ – ЕДА, например, сочетания слов «пить сок» и «готовить суп».

Вычисления в такой подстановочной таблице происходят следующим образом: слово с формулой p1p2pn сочетается со словом с формулой t1t2tn, если для любой pi=ti или pi=? Или ti=?. То есть, если все соответствующие символы в неких формулах равны, или хотя бы один из символов не определен, то они определяют понятия, сочетание которых возможно. Подстановочные таблицы со встроенной программной обработкой вектора признаков каждого слова будем называть Smart – таблицами.

Доказательством работоспособности предложенной классификации служит компьютерная программа, генерирующая предложения на английском языке, использующая подстановочные таблицы, генерируемые в программе «Электронный словарь».

3.4.2. Кодировка стилистики языка

Мы можем также отличать синонимы по стилю и этимологии.

Стиль речи определяется отдельно дополнительной последовательностью классификаций:

В рамках этого уровня слова делятся на следующие подклассы:

  1.  ПОЗИТИВНОЕ – НЕЙТРАЛЬНОЕ – НЕГАТИВНОЕ;
  2.  ЮМОРИСТИЧЕСКОЕ – НЕЙТРАЛЬНОЕ – НЕЛЕПОЕ;
  3.  ИНТЕЛЛЕКТУАЛЬНОЕ – НЕЙТРАЛЬНОЕ – ПРОСТОЕ;
  4.  ВОЗВЫШЕННОЕ – НЕЙТРАЛЬНОЕ – НИЗКОЕ.

Слово «кушать» содержит в себе стилистическое значение ПОЗИТИВНОЕ

Слово «съесть» – НЕЙТРАЛЬНОЕ.

«Харчеваться» – НЕЛЕПОЕ, ПРОСТОЕ (ПРОСТОНАРОДНОЕ)

«Уплетать» – ЮМОРИСТИЧЕСКОЕ

«Питаться», «Потреблять (в пищу)» – ИНТЕЛЛЕКТУАЛЬНЫЙ

«Вкусить» – ВОЗВЫШЕННОЕ

«Отведать» – ВОЗВЫШЕННОЕ, НЕЛЕПОЕ (УСТАРЕВШЕЕ)

«Жрать» – НИЗКОЕ, НЕГАТИВНОЕ

«Хавать» – НИЗКОЕ, ЮМОРИСТИЧЕСКОЕ (МОЛОДЕЖНЫЙ СЛЕНГ)

Помимо прочих параметров в Smart-таблицах можно задавать стилистические характеристики того или иного слова и автоматически отбрасывать слова, стилистические характеристики которых неприемлемы для пользователя.

3.4.3. Формула слова и плановые языки

Объединение единиц языка в классификацию дает,  по существу, очередной плановый язык межнационального общения типа Эсперанто или языка Волапюк, что вряд ли найдет широкое применение, даже при всей логичности, строгости и законченности предложенной классификации. Хотя этот язык отличается чрезвычайной краткостью и лаконичностью, например, 60 букв фразы на этом языке (названном языком «oi» или «oig», что в переводе означает «то, на чем я сейчас говорю»): «ii ita U Al. ai qunp ziod. pU udl epU pa jugi. pU ita hal ilig. pU udE ugn ii Et U olE»  переводятся следующими русскими фразами из 109 букв: «Я знаю этого человека. Это – молодой строитель. Он работает здесь пять лет. Он знает много языков. Он может помочь нам прочитать эту книгу».

В языке oi слова сами по себе не имеют определенного конфессионального значения, заранее определенный смысл имеют буквы-звуки этого языка, обладающие определенным значением в зависимости от позиции в слове. Выучив около 100-200 основных значимых букв, изучающий язык должен научиться комбинировать их в слова, а слова в предложения.

Сопоставление фонетико-графической и семантической классификации позволяет получить язык, удобный для кодировки значения слов и групп слов в словаре-классификации понятий и соответственно Smart таблицах. Приведем пример слов со своей кодировкой из группы слов «здания».

Здание – (ozzA)

Больница – (…)(L(uAo (ozzA)))

 Госпиталь – (…)(…)(N (vveFvve))

 Санаторий – (…)(…(aaii))

Пункт питания – (uAo (oddA))

 Ресторан – (…)(l (oog))

 Столовая – (..)(n (oog))

 Бар – (…(mm, uAO))

 Здание для действий с одеждой – (uAo (oggA)

 Прачечная –  (…(o (oN)kko)(1q0))

 Ателье – (…)(1f (0q1))

Данная кодировка позволяет очень компактно записывать значения слов в виде логико-лингвистического кода.

3.5. Типы классификаций

3.5.1. Словарь гиперонимов

Под гиперонимом в лингвистике принято понимать более общее по значению слово, например, слово «родитель» по отношению к слову «отец» и слово «животное» по отношению к слову «кошка» являются гиперонимами.

Словарь порождения высказываний состоит из групп слов, комбинаторно сочетающихся друг с другом. Порядок расположения слов в этом словаре зависит от того, в какой последовательности расположены  признаки, определяющие деление слов словаря на подклассы. Основные последовательности признаков определяют основные разновидности словаря порождения высказываний, в число которых входит три вида словарей: описываемый выше словарь гипонимов, тематический словарь и словарь дефинонимов. Словарь гипонимов показывает, какое понятие языка является общим, а какое частным, так, например: понятие «действие» соответствует более частному понятию «действие с идеей». В свою очередь, еще более частными понятиями являются понятия «степень уверенности» и далее группа антонимов: «утверждать», «верить», «допускать», «сомневаться», «отрицать», образующих шкалу по степени уверенности (количественный признак). Словарь гипонимов может быть использован для определения того, может ли одно понятие быть тождественным другому. Так. например, понятие «верить в А» вряд ли может означать «сомневаться в А», и «утверждать А» – никак не может означать «отрицать А», как говорил Аристотель «в одно и то же время, в одном и том же месте, в одном и том же смысле». На основании той же классификации можно заключить, что «яблоко» может являться «десертом», но не может являться «одеждой». Таким образом, можно отождествлять не только верхний и нижний узлы классификации (все A суть B), но и параллельные узлы разных уровней классификации (некоторые A суть некоторые B).

3.5.2. Тематический словарь

Тематический словарь представляет собой иное расположение групп слов словаря гипонимов. Те слова, которые успешно сочетаются друг с другом, образуют особые группы слов. Например, «глаголы движения» сочетаются с группой «места»: «Я еду в горы», «Он прибыл к морю». Множества групп слов, хорошо сочетающихся друг с другом, образуют темы. Сочетания групп слов могут быть валентностными, например, «едоки», «операции с пищей», «еда», и не валентностными (ассоциативными), например, «еда» и «здания для еды». Как в первом, так и во втором случае, эти группы слов выявляют связи слов в тексте, например: «Мы плотно поели. Кафе было роскошным. Официанты были очень обходительны». В этой фразе слова «плотно», «есть», «кафе», «официанты» относятся к одной теме «еда», что делает эти три грамматически не связанных предложения связанными по смыслу. (в противоположность следующим трем высказываниям: «Мы плотно поели. Парикмахерская была роскошной. Строители были очень обходительны»). Итак, если словарь гипонимов показывал соотношение общего и частного на множестве слов и понятий языка, то тематический словарь выводит на первый план той же самой классификации синтагматические и ассоциативные отношения между словами. Структура тематического словаря заключается в сопоставлении первому уровню классификации уровня больше пяти и далее – классификаций уровня меньше пяти:

Приведем фрагмент тематического словаря:

1. «еда»

1.1. «повар»

1.1.1. «кок»

1.1.2. «шеф-повар»

1.2. «посуда»

  1.  «стакан»
    1.  «чашка»
      1.  «тарелка»

1.3. «пункт питания»

  1.  «ресторан»
    1.  «кафе»
      1.  «бар»

2.  «одежда»

2.1. «платяной шкаф»

2.2. «утюг»

2.3.  «вешалка»

Тематический словарь, в отличие от комбинаторного словаря, основывается на ином, чем в комбинаторном словаре, порядке определяющих признаков классификации.

3.5.3. Словарь дефинонимов

Поясним, что понимается под неологизмом «дефиноним». Дефинонимы это – слова, определяющие друг друга при соединении определяющих их более общих понятий. Например, фраза «Действовать так, чтобы кто-то что-то делал» определяет такие понятия как:

Начальник – тот, кто действует

Исполнитель – кто-то

Руководить – действовать

Исполнять – делал

Задание – что делал

Таким образом, при отождествлении элементов значения слов последние  конкретизируются до более частных значений. В приведенном примере понятие «существо» перешло в  понятие «подчиненный», а понятие «делать» в понятие «руководить» и т.д. Если тематический словарь дает оригинальный комбинаторный словарь (и источник подстановочных таблиц для обучения языку), то в словаре дефинонимов классификация содержит группы слов, выражающих в рамках этой группы одно и то же понятие. Это производные дефинонимы от понятия ОТНОШЕНИЕ СУЩЕСТВО СУЩЕСТВО ОТНОШЕНИЕ – «руководить» и сопутствующих ему понятий: «приказывать», «просить», «заставлять». Дефинонимами могут быть не только слова, но и группы слов, а также понятия, не соответствующие ни одному слову. Например, для вектора СУЩЕСТВО // ОТНОШЕНИЕ СУЩЕСТВО МЕСТО к понятию ОТНОШЕНИЕ относятся понятия «идти», «ехать», к понятию СУЩЕСТВО – слова «путник», «прохожий», а к понятию МЕСТО – слова «место назначения», «гора». В результате можно строить тавтологичные фразы типа: «путник идет к месту назначения». Другой пример тавтологичной фразы: «Хирург оперирует пациента»

Структура словаря дефинонимов заключается в сопоставлении первому уровню классификации валентностного уровня, а не уровня основных сем как в словаре гиперонимов.

1.  «торговля»

1.1.  «продавец»

  1.  «продавщица»
    1.  «торгаш»

2.  «мышление»

2.1.  «мысль»

2.2.  «мыслитель»

  1.  «производство»
    1.  «продукт»
    2.  «производитель»

4.  «петь»

  1.  «песня»
    1.  «певец»

Все эти классификации задаются общим, но по-разному сгруппированным множеством слов. Словарь ассоциаций, тематический словарь, словарь гиперонимов определяются различной последовательностью элементов фиксированного вектора классификации.  

Выводы к главе 3

Показана возможность задавать значения вектора признаков, определяющие понятийное пространство и включающие любые слова естественного языка. Представленный в работе словарь на 10000 слов английского языка сопоставляет смысловым понятиям слова естественного языка. В результате становится возможным оперировать любым осмысленным подмножеством понятийного пространства слов и понятий языка и упорядочивать подмножества слов в рамках естественно-языкового интерфейса для эффективного взаимодействия программ с пользователем. Предложенный тип интерфейса может явиться посредником между естественным языком общения людей и языком команд и запросов в интеллектуальных системах. Можно комбинировать эти группы слов в подстановочные таблицы, позволяющие порождать осмысленные фразы языка. Подстановочные таблицы служат основой построения простых и продуктивных естественно-языковых интерфейсов, где выбор конкретной фразы языка доступен как компьютеру, так и пользователю, в результате чего достигается соответствие внутренней структуры данных, алгоритмов порождения языка и доступа к данным через естественно-языковой интерфейс.


ГЛАВА 4. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ИНТЕРФЕЙСОВ

4.1. Системы «Электронный словарь» и «Электронный разговорник»

На основе алгоритмов порождения естественного языка при помощи подстановочных таблиц выполнена программная реализация систем «Электронный словарь» и «Электронный разговорник». Эти системы предназначены для:

  1.  автоматической генерации фраз и текстов на естественном языке;
  2.  полуавтоматического построения шаблонов для последующей генерации фраз и текстов.

Разработанные системы заключают в себе алгоритмическое и программное ядро для построения естественно-языковых интерфейсов.

Системы прошли апробацию на задачах обучения иностранным языкам. Системы с одинаковой эффективностью функционирует на различных естественных языках – английском, немецком, испанском, русском. На этих языках были полуавтоматически сгенерированы подстановочные таблицы, достаточные для последующей генерации семантически и грамматически осмысленной речи.

Данный комплекс программных систем реализует следующую схему порождения фраз естественного языка для естественно-языкового интерфейса.

  1.  Полуавтоматическое построение шаблонов для последующей генерации естественного языка.
    1.  Выбор грамматических шапок для каждой колонки таблицы.
    2.  Выбор лексических групп для каждой колонки таблицы.
    3.  Копирование таблицы в особый файл.
    4.  При необходимости возможен просмотр и постредактирование полученного файла в программе Microsoft Word, или любом другом редакторе, поддерживающем формат html.

2. Создание базы данных для генерации осмысленных фраз на основе полученных таблиц – шаблонов.

  1.  Создание иерархии названий файлов, содержащих таблицы генерации высказываний. Последовательности подстановочных таблиц связаны синтагматическими комбинаторными отношениями, то есть генерируемые при их помощи предложения объединяются в ассоциативно или логически связный текст.
    1.  Подсоединение в полученную иерархию сгенерированных файлов подстановочных таблиц.
  2.  Автоматическая генерация осмысленных фраз и текстов естественного языка.
    1.  Цикл:
      1.  Выбор нужного шаблона – файла с подстановочной таблицей из иерархии шаблонов.
      2.  Выбор одного из двух вариантов генерации фраз:
        1.  Либо автоматическая генерация одного из множества осмысленных высказываний на основе подстановочной таблицы шаблона.
        2.  Либо выбор одного из множества осмысленных высказываний шаблона.
    2.  Сохранение полученной информации в виде текстов.
    3.  Использование полученных текстов, например, для отправки их в виде писем по сети Internet.
  3.  Создание базы когнитивных функций на основе сгенерированных и присоединенных к иерархии таблиц шаблонов.
    1.  Цикл:
      1.  Выбор нужного шаблона – файла с подстановочной таблицей из иерархии шаблонов.
      2.  Выбор одного из двух вариантов генерации фраз:
        1.  Либо автоматическая генерация одного из множества осмысленных высказываний на основе подстановочной таблицы шаблона.
        2.  Либо выбор одного из множества осмысленных высказываний шаблона.
    2.  Сохранение полученной информации в виде базы когнитивных функций – обучающей таблицы.
    3.  Использование полученных обучающих таблиц, например, для обмена информацией приведенного вида или процесса обучения.
  4.  Генерация фраз естественного языка на основе базы истинных когнитивных функций (пока программно не реализована).
    1.  Выбор одного из вариантов развития мысли в иерархии подстановочных таблиц.
    2.  Выбор одного из истинных высказываний в соответствующей обучающей таблице.
    3.  Последовательное умножение этого высказывания или подфрагмента таблицы на ряд таблиц семантического шума из фиксированного множества таблиц семантического шума для получения текста на основе истинной информации приведенного вида.

Данная алгоритмическая схема может служить основой для построения естественно-языкового интерфейса и большей частью реализована в программах «Электронный словарь» и «Электронный разговорник», которые апробированы на задачах обучения иностранным языкам [94].

4.2. Назначение системы «Электронный словарь»

На основе изложенных выше теоретических принципов разработана электронная версия словаря-классификации слов английского и русского языка, позволяющая составлять подстановочные таблицы. Это единственный на сегодня словарь подстановочных таблиц. Разработка системы имело целью решение двух основных практических задач:

  1.  Унификация базы данных, в частности, по правилам, структурам и вокабуляру (словарному запасу) английского языка и автоматическая генерация учебников по иностранному языку для конкретной группы населения.
  2.  Генерация в самое короткое время индивидуальных учебных пособий для отдельных учащихся с учетом их конкретных пробелов в знаниях, потребностях в тех или иных группах слов, работе над теми или иными аспектами языка: разделами фонетики, грамматики, навыками письма, чтения, говорения и аудирования (восприятия речи на слух).

Подобная унификация и классификация учебного материала, очевидно, должна повысить эффективность обучения иностранному языку.

Предполагается, что для представления материалов в унифицированном виде необходимо использовать принцип понятийного пространства, то есть схожая по смыслу информация должна находиться в структурах данных, «расположенных» близко друг к другу. На этом принципе основаны следующие разделы Электронного словаря:

  1.  Словарь-классификация слов английского и русского языков.
  2.  Тематический словарь ссылок на словарь-классификацию.
  3.  Древесная классификация грамматических, фонетических и прочих теоретических материалов, описывающих правила английского языка.
  4.  Алфавитный словарь в виде поисковой системы слов и его синонимов, антонимов и оппозиций.

Данный словарь содержит также ряд других разделов, функции которых описаны далее. В основу словаря положена методика «Открой и говори», позволяющая ученику говорить на английском языке в рамках некоторой темы-ситуации при помощи подстановочных таблиц, генерируемых в словаре. Основу словаря составляет наиболее употребительная лексика на бытовые и общепрофессиональные темы, научная лексика. Он также содержит специальные темы из ряда областей: компьютеры, дизайн, музыка, биология, парикмахерское искусство, математика и др.

Наличие гибкой системы подбора лексики и подстановочных таблиц позволяет, добавив в словарь от нескольких десятков до нескольких сотен слов по какой-либо дополнительной тематике, иметь возможность  подбора материалов к урокам английского языка в рамках более чем 1000 единиц универсальной лексики и вновь добавленных слов. По нашим данным на сегодняшний день не получила сколько-нибудь широкого распространения ни одна программа, позволяющая профессиональному преподавателю гибко и оперативно подбирать материалы к урокам английского языка. Все существующие электронные учебники ориентированны, в первую очередь, на изучение материалов непосредственно учеником, некоторые из них позволяют распечатывать рисунки или иную информацию в ограниченном объеме и без должной гибкости в подборе учебных материалов.  Программа «Электронный словарь» позволяет использовать авторский метод «Открой и говори» в работе с учениками. Этот метод дает возможность говорить на незнакомом языке без знания слов и правил на основе подстановочных таблиц, генерируемых при помощи электронного словаря.

Отличительными особенностями словаря являются следующие характеристики. Словарь составлен на основе принципов, описанных в главах 2-3, место каждого слова в словаре раскрывает его внутреннюю семантическую структуру. Словарь использует существующие частотные методики в подборе лексики (лексиколизации).

Деление слов в словаре по группам имеет следующие преимущества. Заучивание слов в логических группах более эффективно, чем заучивание слов вразброс или даже просто по темам. Кроме того, если пользователь ощутил нехватку известных ему слов в какой-либо области, он может направленно выбрать из классификации нужные ему группы слов и компенсировать пробел в этой области. Использование словаря способствует развитию «комплексного мышления»: ученик учится оперировать не отдельными словами, а целыми классами слов в речи. В словаре проведено сопоставление слов в синонимических, антонимических и оппозиционных группах, например, «лежать на – сидеть на – стоять на; ползти по – шагать по». Словарь поддерживает функции нахождения слов по семантическому признаку, используя родовидовые отношения на каждом уровне классификации

Пользователь программы может использовать как алфавитный, так и семантический, как англо-русский, так и русско-английский словарь (а также  транскрипционно-английский и транскрипционно-русский словари).

Поиск отдельного нужного слова в словаре может проходить по следующим критериям:

  •  по форме слова английского языка
  •  по форме слова русского языка
  •  по произношению слова в английском языке

Пользователь может ограничить словарь наиболее употребительными словами языка. Темы в словаре разбиты на повседневные (для начала обучения) и специальные (для специалистов или профессионалов).

  •  уровень starter
  •  уровень beginner
  •  уровень intermediate
  •  уровень advanced
  •  уровень professional

В словаре предусмотрен также уровень minus intermediate, в котором отброшены наиболее простые и известные слова английского языка.

Электронный словарь представляет собой набор программ, целью которых является изучение и использование английского языка русскоязычным пользователем. Он также является средством составления преподавателем эксклюзивных материалов для каждого отдельно взятого ученика. Он предназначен также для подбора материалов к урокам английского языка, а также словарей, учебников и разговорников по обучению иностранным языкам в целом. Словарь представляет средство подбора и копирования различных методических материалов для уроков английского языка не только преподавателем, но и конкретными пользователями.

Пользователь имеет возможность ознакомиться с классификацией слов английского языка. В основе этой классификации лежит иерархия понятий, более общие понятия находятся на вершине, более частные на более низких узлах. При составлении классификации была учтена возможность добавления любых понятий внутрь классификации, без расширения ее вовне. Принципы  построения этой классификации подробно изложены в 1-3 главах. Реализация принципов классификации слов и понятий языка в системе «Электронный словарь» выражается в построении классификации слов языка на основе фиксированного вектора признаков.

Данный словарь содержит более чем 10000 слов и конструкций английского языка. Применение подстановочных таблиц при подборе лексики резко повышает количество запоминаемых учениками слов за урок. Пример такой подстановочной таблицы приводится ниже:

Таблица 4.1

Пример подстановочной таблицы из электронного словаря

THE

Зэ …

этот …

THE

Зэ …

этот …

I
Ай
я

scan
скАЕн
просматривать

rough_copy_of
рА:ф_кОпи
черновой_вариант

book
бУк
книга

we
ВИ
мы

read
рИ:д
читать

draft_of
дрАфт
черновик

newspaper
нйуспЕйпэ
газета

you
йУ:
вы

write
рАйт
писать

manuscript_of
мАЕнйускрипт
рукопись

paper
пЕйпэ
газета

they
Зей
они

scrawl
скрО:л
писать_(плохо)

typescript_of
тАйпскрипт
машинописная_копия

magazine
мэгэзИ:н
журнал

scribble
скрИбл
писать_(плохо)

copy_of
кОпи
копия 

journal
джЭ:нэл
журнал

print
прИнт
напечатать

edition_of
Едишн
издание 

cutting
кАтиН
вырезка

publish
пАблиш
опубликовать

column_in
кОлэм
колонка

letter
лЕтэ
письмо

understand
андэстЕнд
понимать

page_of
пЕйдж
страница

post-card
пОуст-кА:д
почтовая_карточка

acquaint_with
экВЕинт_ВИЗ
ознакомиться

double_page_of
дАбл_пЕйдж
разворот 

telegram
тЕлэгрэм
телеграмма

tear
тИэ
рвать

volume_of
Волйум
том 

report
рипО:т
доклад

type
тАйп
печатать

chapter_of
чАЕптэ
глава 

announcement
энАунсмэнт
объявление__заявление

correct
корЕкт
исправлять

part_of
пА:т
часть 

advertisement
эдвЭ:тисмэнт
реклама 

edit
Едит
редактировать

paragraph_of
пАЕрэгрэф
параграф__абзац

piece_of_writing
пИсэврАйтиН
произведение

headline_of
хЕдлайн
заголовок

article
А:тикл
статья

contents_of
кОнтентс
содержание

story
стОри
рассказ

abstract_of
АЕбстраект
краткий_обзор

literature
лИтричэ
литература

introduction_of
интрэдАкшн
введение 

novel
нОвел
роман

conclusion_of
конклУ:жн
вывод 

poetry
пОуэтри
поэзия

item_of
Айтэм
пункт 

verse
вЭ:с
стих

article_of
А:тикл
пункт 

detective..story
дитЕктивстОри
детектив

conclusion_of
кэнклУ:жн
вывод 

adventure..story
эдвЕнчэстОри
приключенческий_роман

date-line_of
дЕйт-лАйн
выходные_данные

fairy..tale
фЕэритЕйл
сказка

line_in
лАйн
строка 

spy..thriller
спАйСрИлэ
книга_про_шпионов

indented_line_in
индЕнтид_лАйн
красная_строка

contemporary..novel
контЕмпэрэринОвл
современный_роман

break_line_in
брЕйк_лайн
красная_строка

fiction
фИкшн
художественное_произведение

capital_letter_in
кАЕпитл_лЕтэ
большая_буква 

science..fiction
сАйэнсфИкшн
научная_фантастика 

argument_in
А:гйумэнт
аргумент 

non-fiction
нонфИкшн
документальное_произведение

reason_from
рИзн
довод 

biography
бАйогрэфи
биография 

idea_of
айдИэ
идея 

memoir
мемВА:
мемуары 

statement_from
стЕйтмэнт
утверждение 

travel..book
трАЕвлбУк
книга_о_путешествиях 

main_idea_of
мЕйн_айдИэ
главная_мысль

classics
клАЕсикс
классика

theme_of
СИ:м
тема 

chronicle
крОникл
хроника


В таблице 4.1 приводится пример подстановочной таблицы, генерируемой
при помощи программы «Электронный словарь».

Для построения предложения на основе подстановочных таблиц необходимо взять по одному слову из каждой колонки, и если выше выбранного слова стоит знак типа: «the …», «I have toa(n)» и т.п. нужно подставить выбранное слово вместо многоточия. Получаемые предложения отличаются как грамматической, так и смысловой корректностью. Электронный словарь, позволяет подбирать любые подстановочные таблицы за очень короткое время, порядка одной таблицы в минуту. Также он позволяет копировать теоретические объяснения и задания в специальном формате, доступном для программы «Комбинаторный разговорник».

В личном письме автор одних из самых известных Кембриджских курсов английского языка Michel Swan указал на достоинства метода подстановочных таблиц, который, по его словам, пока не нашел места в современных методиках обучения иностранному языку.

Данный метод используется непосредственно автором. С первых же дней ученики изучают несколько десятков новых слов в семантических группах и овладевают школьным курсом английского языка за несколько месяцев.

Метод используется также другими преподавателями из различных школ и вузов города Красноярска.

4.3. Функции системы «Электронный словарь»

Электронный словарь может обеспечить просмотр, подбор слов и материалов, а также печать полученных материалов в файл. Для реализации этих функций следует использовать закладку «классы». Если пользователь еще не освоил принципы расположения слов в классификации, он может найти любое слово и соответствующий класс слов, используя закладку «Алфавитный словарь».

 Пользователь может получить доступ одновременно к ряду классов, относящихся к одной теме, используя закладку «темы», опцию «последовательность обучения».

Чтобы распечатать материалы к уроку в виде файла или файлов необходимо использовать опцию главного меню «файл».

 Чтобы заучить слова по какой-либо теме, необходимо использовать закладку «запоминание» и всплывающее меню окошек «1», «2», «3» и т.д.

 Если пользователю необходимо выучить материалы по теории языка, он может использовать краткий самоучитель на закладке «самоучитель».

 Если пользователю необходимы специальные задания к изучаемым темам, он может использовать закладку «Темы». Далее в форме таблицы приводится список основных функций словаря.

Таблица 4.2

Функции электронного словаря порождения высказываний

Название операции

Назначение операции

1

Копирование файлов из словаря в подстановочную таблицу

Для создания и последующего копирования подстановочных таблиц

2

Редактирование подстановочных таблиц

Исключение ненужных слов из подстановочных таблиц

3

Копирование таблиц в урок

Добавление таблицы в материалы урока

4

Копирование теории в урок

Добавление текстов, заданий и теории в материалы урока

5

Поиск слова в словаре по английскому написанию

Нахождение перевода слова и схожих по смыслу слов, если известно не значение, а написание этого слова на английском языке

6

Поиск слова в словаре по английской транскрипции

Нахождение перевода слова и схожих по смыслу слов, если известно не значение, а произношение этого слова на английском языке

7

Поиск слова в словаре по русскому написанию

Нахождение перевода слова и схожих по смыслу слов, если известно не значение, а написание этого слова на русском языке

8

Проверка запоминания слов

Повторение и оценка степени усвоения слов

9

Создание пользовательских словарей

Создание пользователем своего словаря для введения новых слов.

В таблице 4.2. приведены основные функции программы «Электронный словарь», в первой колонке приведены функции словаря, во второй колонке указывается назначение выполняемой операции.

4.4. Состав и структура системы «Электронный словарь»

Программа «Электронный словарь» содержит следующие компоненты

  •  подстановочную таблицу
  •  базы данных: словари, грамматические справочники, рисунки
  •  подпрограммы по контролю усвоения материалов
  •  алфавитный и пользовательский словарь
  •  окно сообщений и статистики

Рассмотрим далее приведенные компоненты программы подробнее.

Подстановочная таблица представляет собой 10 закладок с полями для деревьев. Деревья слов могут копироваться из поддеревьев соответствующих словарей. Любой крупный класс слов ниже 3-го уровня классификации может быть скопирован в подстановочную таблицу. Предусмотрено редактирование этих поддеревьев при помощи всплывающего меню, которое содержит следующие разделы, отвечающие за соответствующие функции:

Таблица 4.3

Основные составляющие компоненты программы «Электронный словарь»

Название раздела

Местоположение раздела

Функция

Файл

Главное меню

Запись информации в файлы

Вид печати

Главное меню

Настройка вида печати информации в файлы, например, количества столбцов в подстановочной таблице

Настройка

Главное меню

Вид и режим копирования поддеревьев в подстановочные таблицы, вид и расположение окон и настроек

Опции

Главное меню

Изменение шрифта и вида копирования поддеревьев – поверх или после предыдущих

Помощь

Главное меню

Информация о том, как пользоваться программой

Копировать словарь

Главное меню/Файл

Копирование всего словаря в файл

Копировать тему

Главное меню/Файл

Копирование подстановочной таблицы или отдельных слов из закладок 1-10 в файл.

Выход

Главное меню/Файл

Выход, завершение работы программы

3 столбика

Главное меню/Вид печати

Распечатка слов в три столбика

3 подряд

Главное меню/Вид печати

Распечатка слов в одну строчку

Расклад 1-10

Главное меню/Вид печати

Распечатка слов в виде подстановочной таблицы

2 колонки

Главное меню/Вид печати/Расклад 1-10

Распечатка двух колонок подстановочной таблицы

3 колонки и т. д.

Главное меню/Вид печати/Расклад 1-10

Распечатка трех колонок подстановочной таблицы

По русскому алфавиту

Главное меню/Вид печати

Упорядочение слов в колонках по алфавиту русского языка

По английскому алфавиту

Главное меню/Вид печати

Упорядочение слов в колонках по алфавиту английского языка

По транскрипции

Главное меню/Вид печати

Упорядочение слов в колонках по транскрипционному алфавиту

С транскрипцией

Главное меню/Вид печати

Печать слов с транскрипцией

Без транскрипции

Главное меню/Вид печати

Печать слов без транскрипции

Файл txt

Главное меню/Вид печати

Распечатка таблицы материалов в виде текстового файла с псевдографикой

Начать подрезать

Главное меню/Вид печати

Способ пустить нижнюю часть таблицы не в 1, а в N столбцов

С 1-ой колонки

Главное меню/Вид печати

Задает число N = 1

Со 2-ой колонки

Главное меню/Вид печати

Задает число N = 2

Подрезать

Главное меню/Вид печати

Перераспределить  нижнюю часть таблицы по N столбцам

Минимум

Главное меню/Настройка

Оставить только слова на уровне starter

Новичок

Главное меню/Настройка

Оставить только слова на уровне beginner

Профессионал

Главное меню/Настройка

Оставить только слова на уровне professional

Минус новичок

Главное меню/Настройка

Оставить все слова кроме слов на уровне beginner

Англо-русский

Главное меню/Настройка

Назначить верхние узлы дерева отвечающими за английские слова, а нижние – за транскрипцию и русские слова

Русско-английский

Главное меню/Настройка

Назначить верхние узлы дерева отвечающими за русские слова, а нижние за английские и транскрипцию слова

Подсчет ряда тем

Главное меню/Настройка

Отображение в окне сообщений количества всех скопированных тем, включая копирование поверх предыдущих

Подсчет 1-й темы

Главное меню/Настройка

Отображение в окне сообщений количества всех скопированных тем, не включая копирование поверх предыдущих

Без транскрипции

Главное меню/Настройка

Отображать транскрипцию

С транскрипцией

Главное меню/Настройка

Не отображать транскрипцию

Увеличить окно сообщений

Главное меню/Настройка

Увеличить размер закладки сообщений так, что последнее закрывает закладки 1-10

Уменьшить окно сообщений

Главное меню/Настройка

Уменьшить закладку сообщений до стандартных размеров

Без определений

Главное меню/Настройка

Не писать определения слов рядом с словоформами

С определениями

Главное меню/Настройка

Писать определения слов рядом со словоформами

Настроить пользовательский словарь

Главное меню/Настройка

Привести все настройки программы в соответствие с последующей работой с пользовательским словарем

Шрифт

Главное меню/Опции

Изменить шрифт до F пунктов

8-ой

Главное меню/Опции

F = 8

10-ый

Главное меню/Опции

F = 10

12-ый

Главное меню/Опции

F = 12

Стирать предыдущие

Главное меню/Опции

Записывать далее новые поддеревья поверх старых

Добавлять к предыдущим

Главное меню/Опции

Записывать далее новые поддеревья вслед за старыми

Что с этим делать

Главное меню/Помощь

Отобразить помощь на закладке «Инфо»

1

Закладки внизу справа

Первая колонка подстановочной таблицы или первый список слов

2 и т. д.

Закладки внизу справа

Вторая колонка подстановочной таблицы или второй список слов

Словарь

Закладки слева

Основной словарь-классификация

Курс

Закладки слева

Словарь ссылок на основной словарь, группы слов в этом словаре расположены в другом порядке, также на этой закладке находится классификация упражнений для обучения

Теория

Закладки слева

Словарь-классификация теоретических материалов по фонетике, грамматике и т.д.

Опоры

Закладки слева

Подборка грамматических опор в виде рисунков

Урок

Закладки слева

Опция для составления уроков, включающих таблицы, задания, теорию и, в перспективе, рисунки

Запоминание

Закладки слева

Опция, позволяющая проверить усвоение материала, а именно, знание перевода слов

Ваш словарь

Закладки слева

Опция для составления собственных словарей пользователем

Инфо

Закладки слева

Опция показа помощи и вывода информационных сообщений

Сообщения

Закладки вверху справа

Опция показа помощи и вывода информационных сообщений

Алфавитный словарь

Закладки вверху справа

Опция поиска значения слова и его места в классификации по форме этого слова

Ваш словарь

Закладки вверху справа

Поле ввода слов для пользовательского словаря

В таблице 4.3 приведены основные компоненты программы «Электронный словарь», в первой колонке указан раздел словаря, во второй колонке указывается, на какой части главной формы программы располагается соответствующий раздел, а в третьей колонке указывается его функция и назначение.

4.5. Входные и выходные данные

Входными данными программы «Электронный словарь» является следующая информация

  1.  информация из баз данных;
  2.  информация, вводимая пользователем;
  3.  данные представленные в виде древесных классификаций;
  4.  данные представленные в виде таблиц, рисунков и т. д.

Выходными данными программы «Электронный Словарь» является следующая информация

  1.  распечатанные в файлы таблицы;
    1.  распечатываемые словари;
      1.  распечатываемые уроки;
        1.  наглядная информация на экране дисплея.

Далее приводятся две таблицы, поясняющие структуру входных и выходных данных описываемой программы.

Таблица 4.4

Входные данные программы «Электронный словарь»

Входные данные

Как и где вводятся

Куда записываются

База данных – словарь

При запуске программы

В специальный массив данных, вывод на дисплей

База данных – ссылки на словарь*

При запуске программы

В специальный массив данных, вывод на дисплей

База данных – теория языка

При запуске программы

В специальный массив данных, вывод на дисплей

По одному из файлов – рисунков и пользовательских словарей

При запуске программы

Копирование в объект Делфи, вывод на дисплей

Поддеревья базы данных словаря

При двойном нажатии мышкой на узел дерева 3-го уровня

В Объекты Ttree и в массив-буфер подстановочной таблицы

В таблице 4.4 приведены входные данные программы «Электронный словарь». Выходная информация программы представлена в виде следующей таблицы.

Таблица 4.5

Выходные данные программы «Электронный словарь»

Входные данные

Как и где организуются

Куда записываются

Подстановочные таблицы в формате txt или специальном формате li1, для загрузки и просмотра подстановочных таблиц

Организуются копированием поддеревьев в закладки 1-10

Записываются в файл в папку «topic»

Уроки английского языка в формате txt

Организуются копированием поддеревьев в закладки 1-10, копированием сообщений из дерева теории и упражнений

Записываются в файл в папку «lesson»

Информация о структуре классификации, грамматике и упражнениях

Деревья, отображаемые на главной форме

Записываются на диск только в результате выполнения особых команд

Программа проверки запоминия слов.

Копирование слов для проверки из закладок 1-10

Запись результатов на диск пока не предусмотрена.

В таблице 4.5. приведены выходные данные программы «Электронный словарь». Эти данные содержат информацию, используемую для изучения иностранного языка или для генерации подстановочных таблиц – средства автоматического порождения естественного языка.

4.6. Функционирование системы «Электронный словарь»

Операции, выполняемые при помощи системы «Электронный словарь»,

это ряд следующих функций:

  1.  Запуск программы.
  2.  Создание таблицы.
  3.  Создание урока.
  4.  Проведение обучения.
  5.  Поиск слова в словаре.

На генерируемых в словаре подстановочных таблицах основывается новый метод «Open and speak» («Открой и говори»). В соответствии с этим методом, ученик, еще не зная языка, открывает подстановочную таблицу по нужной теме и говорит на незнакомом ему языке в рамках текущей ситуации или учебного задания. Задания повторяются вплоть до запоминания всех слов и конструкций. Используя транскрипцию на родном языке, ученик может говорить с первой секунды урока в рамках одной из четырнадцати бытовых тем или какой-либо научно-профессиональной темы. На основе предложенного метода небольшим тиражом был выпущен разговорник, содержащий четырнадцать бытовых тем, который прошел апробацию при поездке в Египет и Европу рядом пользователей.

Кроме того, в основе словаря лежит модель, описывающая семантику языка, которая делает его не произвольной, как современные тезаурусы, а логически необходимой системой.

Примеры работы рассматриваемой программы приведены в виде следующей таблицы

Таблица 4.6

Задача 1 – заучивание слов при помощи программы «Электронный словарь»

Операция

Путь задания начала операции

Назначение или результат  операции