40067

Создание лексико-семантической основы ИПЯ. Часть 1. Отбор и нормализация лексики

Лабораторная работа

Информатика, кибернетика и программирование

Требования к отчету: Итоги выполнения задания представить в виде таблицы 1 Таблица 1 Способы достижения однозначности лексических единиц в ИПЯ Наименование ИПЯ Наименование элемента организационной структуры Устранение синонимии Устранение многозначности 1. Выявить все использованные в заданном ИПЯ ссылки для устранения синонимии: см. Привести примеры использования в заданном ИПЯ различных способов устранения полисемии и омонимии: развертывание слова до словосочетания и лексикографический способ.

Русский

2013-10-15

49 KB

9 чел.

Лабораторная работа 4

4 часа

Создание лексико-семантической основы ИПЯ. Часть 1. Отбор и нормализация лексики

Цель работы: Познакомиться с методами отбора и нормализации  лексических единиц.

Задачи работы: 1. Овладеть методикой выделения ключевых слов в текстах;

                            2. Изучить способы  устранения синонимии, полисемии,

                                омонимии;

                            3. Приобрести навыки нормализации лексики.

Обеспечивающие средства: тексты первичных и вторичных документов; карточки для записи ключевых слов; справочные издания; информационно-поисковые языки (УДК, ББК, ГРНТИ).

Задание 1:  Выявить способы достижения  однозначности лексических единиц в информационно-поисковых языках.

Требования к отчету: Итоги выполнения задания представить в виде таблицы 1

         Таблица 1

Способы достижения  однозначности лексических единиц в ИПЯ

Наименование ИПЯ

Наименование элемента организационной структуры

Устранение синонимии

Устранение многозначности

1. УДК

АПУ

Морские огурцы см. Голутории

Дерево см. также Древесина

Рыболовство

  •  (лесное хозяйство)
  •  (сельское хозяйство)
  •  (спорт)

Основные таблицы

004.71 Сетевая аппаратура

  621.39 Телекоммуни-кационное оборудование

        004.355.085.22 Накопители на оптических компакт-дисках (CD-ROM)

659.2 Система информации. Справки (реклама)

Технология работы:

  1.  Проанализировать основные таблицы и АПУ к таблицам УДК, ББК, ГРНТИ.
  2.  Выявить все использованные в заданном ИПЯ ссылки для устранения синонимии: см., см. также, экв. Привести примеры.
  3.  Привести примеры  использования  в заданном ИПЯ различных  способов  устранения полисемии и омонимии: развертывание слова до словосочетания и  лексикографический способ.

Задание 2:  Проанализировать проявление многозначности в естественном языке.

Требования к отчету: Итоги выполнения задания представить следующим образом:

  1.  Байка – мягкая ворсистая хлопчато-бумажная ткань.
  2.  Байка – побасенка, выдумка, басня.

ОМОНИМИЯ.

Технология работы:

  1.  Используя справочную литературу (словари, справочники, энциклопедии),  найдите заданное понятие (см. табл.2)  и выпишите его определения.
  2.  Назовите обнаруженное явление: омонимия, полисемия. Объясните причины его возникновения.

Таблица 2

Перечень лексических единиц

Вариант - 1

Вариант –2

Вариант-3

Вариант-4

Знак запятая

Символ

Знак точка

Код

Классификационная система

Схема классификации

Генератор отчетов

Акцептор

Задача

Блок

Команда

Блок-маркер

Генератор

Путь

Показатель

Метка

Аттестат

Ленивец

Бумага

Диверсия

Франк

Фаланга

Струг

Буфет

Задание 3: Осуществить  информационный анализ массива документов с целью выявления ключевых слов.

Требования к отчету: Итоги выполнения задания представить в виде массива карточек, оформленных следующим  образом:

 

Технология работы:

  1.  Проанализировать заданные документы и   выделить ключевые слова.
  2.  Провести лексикографическую обработку лексики, обеспечив стандартизацию записи выделенных  лексических единиц: исчисляемые понятия записываются в форме множественного числа, неисчисляемые – в той форме, в которой принято использовать; если ключевое слово представлено словосочетанием, то оно записывается в инверсированной форме.
  3.  Каждое ключевое слово записать на отдельную карточку с указанием того номера документа, в котором оно присутствует.

Задание 4:  Провести нормализацию лексики.

Технология работы:

  1.  В массиве ключевых слов, полученном в ходе выполнения  задания 3,   выделить слова-синонимы и многозначные слова.
  2.  С помощью отсылок и помет устранить синонимию и многозначность. Например:

Устранение синонимии:  Подчиненный директорий  см. Подкаталог

Устранение многозначности:

                      Технологии библиотечные

                      Технологии информационные

                      Технологии программирования

                            Библиография (деятельность)

                            Библиография (наука)

                            Библиография (указатель литературы)

  1.  Расставить  полученный массив карточек в алфавитном порядке.

Контрольные вопросы

  1.  Каким требованиям должен соответствовать словник ИПЯ?
  2.  Каковы последствия несоблюдения требований однозначности лексических единиц в ИПЯ?
  3.  Установите общие и отличительные признаки таких понятий, как «ключевое слово», «термин», «лексическая единица».

Список рекомендуемой литературы

  1.  Гендина Н.И. Лингвистическое обеспечение автоматизированных библиотечных систем. – Алма-Ата: Гылым, 1991. – С. 64-77.
  2.  Гендина Н.И., Скипор И.Л. Лингвистические основы информатики: Гипертекстовый учебный терминологический словарь-справочник. – Кемерово: Кузбассвузиздат, 2002.-124 с.


 

А также другие работы, которые могут Вас заинтересовать

50770. Использование динамических переменных 27.5 KB
  Цель: Научиться использовать переменные разных типов. Задание 1. Создадим первую типовую программу на PHP
50771. Программирование циклов в РНР 31.5 KB
  Цель: Научиться использовать различные циклы. Задание 1. Проверить работоспособность кода программ из 3 примеров.
50772. Работа с массивами РНР 25.5 KB
  Цель: Научиться использовать массивы при написании программ. Разобрать особенности каждого вида массивов. Задание 1. Создать массив A 1-10 из десяти целых чисел.
50773. Работа с датой и временем 25 KB
  Цель: Научиться работать с датой и временем. Разобрать основные функции даты и времени. Задание 1. Проработать фрагменты кода из теоритической части. Задание 2. Вывести дату и время в различных форматах. Задание 3. Вывести дату и время на другой странице при помощи форм.
50774. Разработка макета динамических страниц 30 KB
  С страницу следующего примерного содержания Заголовок сайта Навигация Страница1 Страница2 Страница3 Содержание страницы 1 Информация об авторе...
50775. Использование метода GET 28 KB
  Создать форму и результат передачи методом GET поместить в тот же файл. Создать форму. Поместить на нее 4 текстовых поля(Фамилию, Имя, Отчество, Группу). Передать значения этих полей другому файлу. Поместить на форму стандартные кнопки, проверить работу данных кнопок.
50776. Передача данных методом POST 25.5 KB
  Получить данные при помощи метода POST. Создать форму для ввода Фамилии, Имени, Отчества, Группы. Получить данные при помощи метода POST.Расположить в одной webстранице 2 формы с методом Get и Post.
50777. Разработка страниц с формами 32 KB
  Цель: Научиться создавать формы содержащие различные элементы. Задание 1. Создать форму содержащую 10 различных элементов.