23599

Автоматизация анализа письменного текста: основные подходы к решению проблемы

Доклад

Иностранные языки, филология и лингвистика

ТБД автоматизированная система инвентаризации и машинного представления терминологической лексики и ее семантизации в системах машинного и человекомашинного речевого общения. Научные задачи: моделирование терминологической системы РЯ как системы подсистем построение общенаучных и общетеоретических тезаурусов исследование русской терминологии Типы традиционного использования ТБД: справочноинформационное обслуживание специалистов различных областей знания обеспечение традиционного перевода научнотехнической литературы обеспечение АСОТ...

Русский

2013-08-05

16 KB

1 чел.

Билет 14

1. Автоматизация анализа письменного текста: основные подходы к решению проблемы.

Существует 2 основные стратегии решения проблемы:

1. модульный подход - последовательный анализ по уровням (морфологический, синтаксический, семантический, прагматический)

2. интегральный подход (более современный и более адекватный, Р. Шенк)

1.   Системы модульного типа (Леонтьева):

модуль морфологического анализа

-> полное морф. представление

модуль синтаксического анализа

-> полное синт.представление

модуль семантического анализа

-> частичное (фрагментарное) представл.

прагматический анализ

(пока не реализован)

Для широких ПО может быть использован в нескольких системах:

СМП (SYSTRAN)

системах извлечения знаний

ИПС

2.   Системы интегрального типа

Концептуальный анализ

->

фрагментарные концептуальные представления:

морф.анализ

синт.анализ

сем. анализ

сценарии, фреймы. планы.

Ищет в тексте диагностические слова

заполняет пустые слоты в сценарии

делает ряд концептуальных выводов (inferences) о смысле текста (в результате чего способна отвечать на поставленные вопросы по содержанию)

на определенных этапах подключает процедуры

нельзя получить уровневое представление

тексты узко ограниченной тематики

Пример: интегральная система анализа Шенка:

1. MARGE (Memory Response Generation in English) - обработка концептуальной информации.  В основе лежит теория концептуальных зависимостей - комплексная теория человеческого мышления.

Работает в двух режимах:

перефразирование (перевод входной фразы на ЯКЗ)

концептуальный вывод

2. Модель SAM (Script Applying Mechanism) является компьютерной программой, которая позволяет понимать связность текста за счет применения сценариев:

 POLITICS (ведет диалог, моделирует политическую идеологию)

 PAM  -> TALE-SPIN - порождение сказок

 FRUMP - машинное реферирование сообщений на нескольких языках, чтение , опирающееся на понятие интереса (Integral Partial Parser)

2. Терминологические банки данных: структуры, функции, методы построения.

ТБД - автоматизированная система инвентаризации и машинного представления терминологической лексики и ее семантизации в системах машинного и человеко-машинного речевого общения. Это единая служба с удобным доступом, описывающая все сведения о термине и ликвидирующая неравномерность описания терминологии.

Научные задачи:

моделирование терминологической системы РЯ как системы подсистем

построение общенаучных и общетеоретических тезаурусов

исследование русской терминологии

Типы традиционного использования ТБД:

справочно-информационное обслуживание специалистов различных областей знания

обеспечение традиционного перевода научно-технической литературы

обеспечение АСОТ, включая системы машинного перевода

лингвистическое обеспечение авт. систем информации

обеспечение работ по упорядочению терминологии

подготовка и издание терминологических словарей

унификация определенных терминов

подготовка научных отчетов о составе РЯ

Организационная структура ТБД:

терминологические центры

службы переводов (переводческая функция)

службы стандартизации (нормативная функция)

университеты (исследовательская функция)

всероссийские органы НТИ (по АСУ и ИПС)

Функциональная структура ТБД:

1. Головной ТБД - справочно-поисковый аппарат  по видовым банкам данных:

ведение коммуникативного формата данных

организация и руководство работами по передаче данных в ТБД

обработка и ввод данных

обслуживание предприятий

2. Специализированные ТБД (сбор, хранение , обработка информации), могут включать существующие ТБД, словарно-терминологические службы НТИ:

отбор представительного массива источников

ввод и обновление терминологической информации в БД

передача информации другим СТБД и ГТБД

эксплуатация СТБД в соответствии с конкретными задачами организации.

ТБД состоит из ряда массивов, которые называются подфондами.

Подфонды - массивы терминов, которые создаются и хранятся в центральном органе МФРЯ (Машинный фонд РЯ) на базе массивов первичного типа.

Подфонды:

специальных и межотраслевых терминов, фигурирующих в отдельных отраслях знаний и деятельности

общенаучных и общетехнических терминов

терминоэлементов (используются в нескольких терминосистемах).

3. Примеры оформления сложных документов (сноски, газетная верстка, колонтитулы и т. д) в MS Word 5.0.

Сноски:

1. курсор на месте символа ссылки на сноску

2. Format, Footnote

3. в поле reference mark ввести ссылку на сноску (не более 28 символов)

4. enter

5. ввести текст сноски (до нескольких абзацев)

перемещение между сноской и текстом: Jump Footnote

использование окна сносок: Esc W S F

переход из окна в окно: F1

местоположение сносок:

по умолчанию - на той же стр., где ссылка

 Format Division Layout: same page, end

Газетная верстка:

колонки:

1. Options: Show Layout Yes или Alt-F4

2. Esc Format Division Layout

колонтитулы:

1. курсор в начало документа

2. ввести текст + enter

3. курсор внутрь текста или выделить текст

4. Esc Format Running Head: Position:

Top Bottom None Odd Even First      Alignment: left margin Edge-of-paper

5. enter

Быстрое создание колонтитулов:

1-3 - то же самое

4. верхний  колонтитул: Ctrl+F2

нижний колонтитул: Alt+F2

На каждой странице может быть не более двух колонтитулов: верхний и нижний

Выравнивание колонтитулов: Format Paragraph или Alt C, Alt R.

Вывод номера страницы/даты:

1. курсор в то место колонтитула, где будет страница.

2. набрать page/date

3. F3 


 

А также другие работы, которые могут Вас заинтересовать

53404. Розв’язування задач з використанням циклічних операторів 69.5 KB
  Мета: створити умови для формування навичок розвязування найпростіших задач що містять цикли використовуючи різні команди повторення; розвивати логічне мислення операторську культуру; продемонструвати виконання на компютері різних циклічних програм; виховувати працьовитість інтерес до предмета. Вправа Online Вибудуємо лінію ключових слів з теми Циклічні оператори Цикл повторення параметр циклдоки циклдо циклдля змінна лічильник оператор логічний вираз умова while repet begin end pscl програма виконання. На...
53405. Оформлення тексту в HTML – документі 234 KB
  Хід уроку Перед початком уроку на учнівські компютери та робоче місце вчителя має бути розміщено папки : Організаційний момент Актуалізація опорних знань Учитель пропонує учням виконати завдання “Магічний квадрат. Завдання має бути виведене на інтерактивну дошку а кожен учень повинен отримати картку з наступним текстом : Юний друже Для виконання даного завдання знайди файл що міститься за наступною адресою : C: Documents nd Settings Учень Рабочий стол HTML Урок _3 mgic. Бажаю успіху D O C T I T H B T B D L E H Y G T...
53406. Занимательная Информатика 57.5 KB
  Вопросы Мозг компьютера Процессор Устройство для запуска считывания информации с магнитных дисков Дисковод Устройство для распечатки информации на бумаге Принтер Лицо компьютера Монитор Наиболее распространенный манипулятор Мышь Устройство введения графической информации Сканер Устройство введения звуковой информации Микрофон Устройство для сохранения информации Память Устройство которое обеспечивает запись и считывание информации с магнитной ленты...
53407. Введення, редагування й форматування тексту 151.5 KB
  ОБЛАДНАННЯ: персональні компютери роздатковий матеріал таблиці Клавіатура Текстовий редактор MS Word. Заповнюють опитувальний лист: Підпишіть рисунок що зображує вікно ТП MS Word. Виберіть підкресліть із запропонованого списку можливості які надає ТП MS Word: створення і редагування текстів форматування абзаців створення таблиць вставка в текст обєктів інших програм форматування дисків форматування символів створення малюнків форматування сторінки друк документа копіювання дисків.
53408. Компьютерная среда и алгоритмы 47 KB
  Тема: Компьютерная среда и алгоритмы. Цель: закрепление и проверка знаний учащихся по теме Алгоритмы и изучение нового материала по теме Компьютерная среда Логомиры Задачи: Обучающая: усвоить понятие алгоритма компьютерная среда логомиры. Она называется Компьютерная среда и алгоритмы Напомните мне что такое алгоритм Правильно. Среда каждой программы имеет свои инструменты и допускает определённый набор действий которые можно выполнить.
53409. Настроювання параметрів сторінок. Створення колонтитулів. Робота з редактором формул 651.5 KB
  Тому важливо оформити документ так щоб він гарно виглядав не тільки на екрані але й на аркуші паперу вміти правильно задати параметри сторінки. План Розмір сторінки поля. Орієнтація сторінки. Встановлення параметрів сторінки.
53410. Алгоритми та їх властивості 55 KB
  Алгоритми та їх властивості Епіграф до уроку: Коль кругом все будет мирно Так сидеть он будет смирно; Но лишь чуть со стороны Ожидать тебе войны Иль набега силы бранной Иль другой беды незваной Вмиг тогда мой петушок Приподымет гребешок Закричит и встрепенется И в то место обернется. Навчальна: дати поняття про алгоритм його властивості; навчити розпізнавати алгоритми навколо себе; вміти розрізняти правильно та неправильно сформульовані алгоритми; формувати цілісну уяву про картину всесвіту; формувати науковий світогляд;...
53411. оздание документов в текстовом процессоре 45 KB
  Задачи: помочь учащимся получить представление об офисном пакете OpenOffice познакомиться с возможностями программы Word научить основным операциям редактирования и форматирования текста в Word. Вопрос: Назовите этапы подготовки текстовых документов. Вопрос: Какие операции входят в процесс редактирования текстового документа Ответ: Исправление ошибок правописание удаление и добавление фрагментов.
53412. Кодирование 71 KB
  Прогнозируемые результаты: Дети познакомятся с новыми понятиям кодирование и декодирование. Дети научатся решать задачи при помощи кодирования и декодирования. № Этапы Деятельность учителя Деятельность учащихся Примечания 1 Организационный момент Здравствуйте дети Меня зовут Алиса Андреевна.Что такое графыКак обозначаются графы Что такое круг Что такое точкаЧто такое стрелочки Дети называют тему.