40067

Создание лексико-семантической основы ИПЯ. Часть 1. Отбор и нормализация лексики

Лабораторная работа

Информатика, кибернетика и программирование

Требования к отчету: Итоги выполнения задания представить в виде таблицы 1 Таблица 1 Способы достижения однозначности лексических единиц в ИПЯ Наименование ИПЯ Наименование элемента организационной структуры Устранение синонимии Устранение многозначности 1. Выявить все использованные в заданном ИПЯ ссылки для устранения синонимии: см. Привести примеры использования в заданном ИПЯ различных способов устранения полисемии и омонимии: развертывание слова до словосочетания и лексикографический способ.

Русский

2013-10-15

49 KB

9 чел.

Лабораторная работа 4

4 часа

Создание лексико-семантической основы ИПЯ. Часть 1. Отбор и нормализация лексики

Цель работы: Познакомиться с методами отбора и нормализации  лексических единиц.

Задачи работы: 1. Овладеть методикой выделения ключевых слов в текстах;

                            2. Изучить способы  устранения синонимии, полисемии,

                                омонимии;

                            3. Приобрести навыки нормализации лексики.

Обеспечивающие средства: тексты первичных и вторичных документов; карточки для записи ключевых слов; справочные издания; информационно-поисковые языки (УДК, ББК, ГРНТИ).

Задание 1:  Выявить способы достижения  однозначности лексических единиц в информационно-поисковых языках.

Требования к отчету: Итоги выполнения задания представить в виде таблицы 1

         Таблица 1

Способы достижения  однозначности лексических единиц в ИПЯ

Наименование ИПЯ

Наименование элемента организационной структуры

Устранение синонимии

Устранение многозначности

1. УДК

АПУ

Морские огурцы см. Голутории

Дерево см. также Древесина

Рыболовство

  •  (лесное хозяйство)
  •  (сельское хозяйство)
  •  (спорт)

Основные таблицы

004.71 Сетевая аппаратура

  621.39 Телекоммуни-кационное оборудование

        004.355.085.22 Накопители на оптических компакт-дисках (CD-ROM)

659.2 Система информации. Справки (реклама)

Технология работы:

  1.  Проанализировать основные таблицы и АПУ к таблицам УДК, ББК, ГРНТИ.
  2.  Выявить все использованные в заданном ИПЯ ссылки для устранения синонимии: см., см. также, экв. Привести примеры.
  3.  Привести примеры  использования  в заданном ИПЯ различных  способов  устранения полисемии и омонимии: развертывание слова до словосочетания и  лексикографический способ.

Задание 2:  Проанализировать проявление многозначности в естественном языке.

Требования к отчету: Итоги выполнения задания представить следующим образом:

  1.  Байка – мягкая ворсистая хлопчато-бумажная ткань.
  2.  Байка – побасенка, выдумка, басня.

ОМОНИМИЯ.

Технология работы:

  1.  Используя справочную литературу (словари, справочники, энциклопедии),  найдите заданное понятие (см. табл.2)  и выпишите его определения.
  2.  Назовите обнаруженное явление: омонимия, полисемия. Объясните причины его возникновения.

Таблица 2

Перечень лексических единиц

Вариант - 1

Вариант –2

Вариант-3

Вариант-4

Знак запятая

Символ

Знак точка

Код

Классификационная система

Схема классификации

Генератор отчетов

Акцептор

Задача

Блок

Команда

Блок-маркер

Генератор

Путь

Показатель

Метка

Аттестат

Ленивец

Бумага

Диверсия

Франк

Фаланга

Струг

Буфет

Задание 3: Осуществить  информационный анализ массива документов с целью выявления ключевых слов.

Требования к отчету: Итоги выполнения задания представить в виде массива карточек, оформленных следующим  образом:

 

Технология работы:

  1.  Проанализировать заданные документы и   выделить ключевые слова.
  2.  Провести лексикографическую обработку лексики, обеспечив стандартизацию записи выделенных  лексических единиц: исчисляемые понятия записываются в форме множественного числа, неисчисляемые – в той форме, в которой принято использовать; если ключевое слово представлено словосочетанием, то оно записывается в инверсированной форме.
  3.  Каждое ключевое слово записать на отдельную карточку с указанием того номера документа, в котором оно присутствует.

Задание 4:  Провести нормализацию лексики.

Технология работы:

  1.  В массиве ключевых слов, полученном в ходе выполнения  задания 3,   выделить слова-синонимы и многозначные слова.
  2.  С помощью отсылок и помет устранить синонимию и многозначность. Например:

Устранение синонимии:  Подчиненный директорий  см. Подкаталог

Устранение многозначности:

                      Технологии библиотечные

                      Технологии информационные

                      Технологии программирования

                            Библиография (деятельность)

                            Библиография (наука)

                            Библиография (указатель литературы)

  1.  Расставить  полученный массив карточек в алфавитном порядке.

Контрольные вопросы

  1.  Каким требованиям должен соответствовать словник ИПЯ?
  2.  Каковы последствия несоблюдения требований однозначности лексических единиц в ИПЯ?
  3.  Установите общие и отличительные признаки таких понятий, как «ключевое слово», «термин», «лексическая единица».

Список рекомендуемой литературы

  1.  Гендина Н.И. Лингвистическое обеспечение автоматизированных библиотечных систем. – Алма-Ата: Гылым, 1991. – С. 64-77.
  2.  Гендина Н.И., Скипор И.Л. Лингвистические основы информатики: Гипертекстовый учебный терминологический словарь-справочник. – Кемерово: Кузбассвузиздат, 2002.-124 с.


 

А также другие работы, которые могут Вас заинтересовать

45480. ТЕЛЕКОММУНИКАЦИОННЫЕ ТЕХНОЛОГИИ 139.5 KB
  Особенность данного класса систем состоит в децентрализации архитектуры автономных вычислительных систем и их объединении в глобальные компьютерные сети.13 представлена типовая архитектура клиент сервер однако различают несколько моделей отличающихся распределением компонентов программного обеспечения между компьютерами сети. На основе распределения перечисленных компонентов между рабочей станцией и сервером сети выделяют следующие модели архитектуры клиент сервер: модель доступа к удаленным данным; модель сервера управления...
45481. Аспекты информатизации образования 43 KB
  Компьютерные программы и обучающие системы представляющие собой: компьютерные учебники предназначенные для формирования новых знаний и навыков; диагностические или тестовые системы предназначенные для диагностирования оценивания и проверки знаний способностей и умений; тренажеры и имитационные программы представляющие тот или иной аспект реальности отражающие его основные структурные и функциональные характеристики и предназначенные для формирования практических навыков; лабораторные комплексы в основе которых...
45482. ИТ АВТОМАТИЗИРОВАННОГО ПРОЕКТИРОВАНИЯ 132 KB
  Наиболее полно возможности САПРпродукта на уровне универсального графического пакета можно проследить на примере utoCD 2000 новой версии самого популярного в России чертежного пакета.; наличие средств моделирования позволяющих редактировать твердотельные объекты на уровне ребер и граней; возможность обращения к свойствам объектов; возможность выбора группировки и фильтрации объектов по типам и свойствам; наличие технологии создания и редактирования блоков; возможность вставки в чертеж гиперссылок; включение...
45484. ФОРМИРОВАНИЕ МОДЕЛИ ПРЕДМЕТНОЙ ОБЛАСТИ 4.08 MB
  Таким образом для современного состояния информационных технологий необходим переход от информационного описания предметной области к представлению на уровне данных осуществляемый на основе декомпозиции абстракции агрегирования. При анализе предметной области принято выделять три этапа: анализ требований и информационных потребностей; определение информационных объектов и связей между ними; конструирование концептуальной модели предметной области. Этап анализа требований и информационных потребностей включает следующие задачи:...
45485. Объектно-ориентированная технология проектирования ИС 52 KB
  В основу объектноориентированной технологии проектирования ИС положены разработка анализ и спецификация концептуальной объектноориентированной модели предметной области. Концептуальная объектноориентированная модель предметной области является основой проекта и реализации системы и обеспечивает: необходимый уровень формализации описания проектных решений; высокий уровень абстрагирования типизации и параметризации проектных решений; компактность описания; удобство сопровождения готовой системы. Отличительными...
45486. ОЦЕНКА КАЧЕСТВА ИНФОРМАЦИОННЫХ СИСТЕМ 75 KB
  В настоящее время наибольшее распространение получила иерархическая модель взаимосвязи компонент качества ИС. В начале определяются характеристики качества в числе которых. Каждому показателю качества ставится в соотвествие группа критериев.
45487. ПРОГРАММНЫЕ СРЕДСТВА ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ 76.5 KB
  Базовые программные средства относятся к инструментальной страте информационных технологий и включают в себя: операционные системы ОС; языки программирования; программные среды; системы управления базами данных СУБД. Большинство алгоритмических языков программирования Си Паскаль созданы на рубеже 60х и 70х годов за исключением Jv. За прошедший период времени периодически появлялись новые языки программирования однако на практике они не получили широкого и продолжительного распространения. Другим направлением в эволюции...
45488. ТЕХНИЧЕСКИЕ СРЕДСТВА ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ 75.5 KB
  Для преодоления ограничений организации памяти были предложены ассоциативные запоминающие устройства. Вторая характеристика определяется скоростью доступа устройства чтения к информации на компактдиске скорость чтения особенно важна при воспроизведении аудио и видеоинформации. Что означает название восьмискоростной CDROM Это и есть характеристика быстродействия устройства чтения.