4710

Вивчення методів доступу та роботи з лексичним ресурсами

Лабораторная работа

Информатика, кибернетика и программирование

Мета роботи: Вивчення основ програмування на мові Python. Вивчення методів доступу та роботи з лексичним ресурсами. Семантичний словник англійської мови WordNet. Короткі теоретичні відомості При програмуванні часто необхідно частин...

Украинкский

2012-11-25

261 KB

14 чел.

Мета роботи:

  •  Вивчення основ програмування на мові Python.
  •  Вивчення методів доступу та роботи з лексичним ресурсами.
  •  Семантичний словник англійської мови WordNet.

Короткі теоретичні відомості

При програмуванні часто необхідно частину програми виконати (використати) декілька разів. Наприклад, потрібно написати програму, яка здійснює утворення множини з однини іменників і вона буде виконуватись в різних місцях програми. Швидше ніж повторювати той самий код декілька разів і більш ефективно і надійно організувати цю роботу через функцію. Функція - це програмна конструкція, яку можна викликати з одним або більше вхідними параметрами, і отримувати результат на виході. Визначаємо функцію, використовуючи ключове слово def далі потрібно дати назву функції і визначити вхідні параметри, після двокрапки записується тіло функції. Ключове слово return використовується для відображення значення, яке ми хочемо отримати на виході функції.

Лексичний ресурс або просто словник це набір слів тa/або словосполучень, які асоціюються з такою інформацією, як частина мови та опис значення. Лексичні ресурси є вторинними по відношенню до текстів і зазвичай створюються і вдосконалюються з використанням текстів. Наприклад, якщо визначити текст my_text тоді vocab = sorted(set(my_text)) побудує словник тексту  my_text,  word_freq = FreqDist(my_text)  визначить частоту кожного слова в тексті. vocab та word_freq – приклад простих лексичних ресурсів. Так само конкорданс дає інформацію про використання слів і ця інформація може бути використана при побудові словників.

WordNet, це семантично орієнтований словник англійської мови, подібний до традиційних тезаурусів але з більш багатою структурою. У WordNet слова групуються у набори синонімів – синсети, кожен із своїм визначенням і зв’язками з іншими синсетами. WordNet 3.0 розповсюджується разом з NLTK  і містить 155287 слів та 117659 синсетів. Хоча WordNet розроблявся для психолінгвістики - цей словник широко використовується в NLP та в задачах інформаційного пошуку.


                                                   
Хід роботи

1. Дослідити зв’язки голонім-меронім для іменників. Знайти іменники для демонстрації наступних зв’язків: member_meronyms(), part_meronyms(), substance_meronyms(), member_holonyms(), part_holonyms(), та substance_holonyms().

>>> from nltk.corpus import wordnet as wn

>>> wn.synset('university.n.01').member_meronyms()

[Synset('graduate_school.n.01')]

>>> wn.synset('nose.n.01').part_meronyms()

[Synset('nostril.n.01'), Synset('internasal_suture.n.01'), Synset('bridge.n.04'), Synset('nasal_cavity.n.01'), Synset('turbinate_bone.n.01'), Synset('ethmoidal_artery.n.01')]

>>> wn.synset('tree.n.01').substance_meronyms()

[Synset('heartwood.n.01'), Synset('sapwood.n.01')]

>>> wn.synset('student.n.01').member_holonyms()

[Synset('teacher-student_relation.n.01')]

>>> wn.synset('limb.n.01').part_holonyms()

[Synset('appendicular_skeleton.n.01')]

>>> wn.synset('iron.n.01').substance_holonyms()

[Synset('iron_ore.n.01'), Synset('steel.n.01')]

4. Здійснити аналіз словника вимов. Знайти скільки різних слів він містить. Який відсоток слів з цього словника можуть мати різну вимову?

5. Який відсоток синсетів іменників не мають гіпонімів? До всіх синсетів можна доступитися за допомогою wn.all_synsets('n').  

7. Модифікувати програму генерації випадкового тексту для виконання наступного: зберігати можливі наступні слова у списку та вибирати їх за допомогою random.choice() попередньо виконавши import random.

12. Полісемія - це явище коли одне слово має декілька значень ( іменник dog має 7 значень, кількість яких визначити можна як len(wn.synsets('dog', 'n'))). Знайдіть середнє значення полісемії для дієслів.

16. Використовуючи один з методів визначення подібності слів побудуйте відсортований по спаданню список значень подібності для наступних пар слів: monk-oracle, cemetery-woodland, food-rooster, coast-hill, forest-graveyard, shore-woodland, monk-slave, coast-forest, lad-wizard, chord-smile, glass-magician, rooster-voyage, noon-string.

>>> monk = wn.synset('monk.n.01')

>>> oracle = wn.synset('oracle.n.01')

>>> oracle.path_similarity(monk)

0.125

>>> cemetery = wn.synset('cemetery.n.01')

>>> woodland = wn.synset('woodland.n.01')

>>> cemetery.path_similarity(woodland)

0.1111111111111111

>>> food = wn.synset('food.n.01')

>>> rooster = wn.synset('rooster.n.01')

>>> food.path_similarity(rooster)

0.0625

>>> coast = wn.synset('coast.n.01')

>>> hill = wn.synset('hill.n.01')

>>> hill.path_similarity(coast)

0.20000000000000001

>>> forest = wn.synset('forest.n.01')

>>> graveyard = wn.synset('graveyard.n.01')

>>> forest.path_similarity(graveyard)

0.071428571428571425

>>> shore = wn.synset('shore.n.01')

>>> woodland = wn.synset('woodland.n.01')

>>> shore.path_similarity(woodland)

0.20000000000000001

>>> slave = wn.synset('slave.n.01')

>>> monk.path_similarity(slave)

0.20000000000000001

>>> coast.path_similarity(forest)

0.090909090909090912

>>> lad = wn.synset('lad.n.01')

>>> wizard = wn.synset('wizard.n.01')

>>> lad.path_similarity(wizard)

0.20000000000000001

>>> chord = wn.synset('chord.n.01')

>>> smile = wn.synset('smile.n.01')

>>> chord.path_similarity(smile)

0.090909090909090912

>>> glass = wn.synset('glass.n.01')

>>> magician = wn.synset('magician.n.01')

>>> glass.path_similarity(magician)

0.1111111111111111

>>> voyage = wn.synset('voyage.n.01')

>>> rooster.path_similarity(voyage)

0.041666666666666664

>>> noon = wn.synset('noon.n.01')

>>> string = wn.synset('string.n.01')

>>> noon.path_similarity(string)

0.058823529411764705

>>>

Висновок:

на даній лабораторній роботі я ознайомилася з методами доступу та роботою з лексичним ресурсами, семантичним словником англійської мови WordNet, поняттями функції та модуля, словником з позначенням мови, лексичними зв’язками та оцінкою подібності WordNet.


 

А также другие работы, которые могут Вас заинтересовать

42310. ОПРЕДЕЛЕНИЕ ОПТИЧЕСКИХ ХАРАКТЕРИСТИК ОКРАШЕННЫХ РАСТВОРОВ И РАССЕИВАЮЩИХ СРЕД 995.5 KB
  Изучение особенностей прохождения света через оптически однородные и неоднородные среды. КРАТКИЕ ТЕОРЕТИЧЕСКИЕ СВЕДЕНИЯ При прохождении света через среды и через растворы в частности происходит уменьшение его интенсивности вследствие взаимодействия световой волны с частицами вещества. Такое ослабление света называется экстинкцией. Экстинция обусловлена двумя причинами: поглощением и рассеянием света.
42311. ОПРЕДЕЛЕНИЕ КОНЦЕНТРАЦИИ РАСТВОРОВ С ПОМОЩЬЮ КРУГОВОГО ПОЛЯРИМЕТРА 301 KB
  Исследование процесса поляризации света при прохождении его через растворы определение концентрации оптически активного раствора по величине угла поворота плоскости поляризации. Если колебания светового вектора происходят только в одной проходящей через луч плоскости свет называется плоско или линейно поляризованным. Это приборы которые свободно пропускают колебания параллельные плоскости поляризатора и полностью или частично задерживают колебания перпендикулярные его плоскости. Поляризатор частично...
42312. ОПРЕДЕЛЕНИЕ КАЧЕСТВА ОБРАБОТКИ ПОВЕРХНОСТИ С ПОМОЩЬЮ МИКРОИНТЕРФЕРОМЕТРА 672.5 KB
  Теория и опыт неопровержимо свидетельствуют что свет представляет собой электромагнитные волны диапазона 040106 076106 метров. Электромагнитные волны поперечные характеризуются колебанием двух векторов: напряженности электрического поля и магнитной индукции . Колебания электрической и магнитной составляющих поля световой волны происходят в одинаковых фазах во взаимно перпендикулярных плоскостях. Как показывает исследование векторы и единичный вектор направления вдоль которого происходит распространение волны образуют...
42313. ОПРЕДЕЛЕНИЕ ГРАНИЦ СПЕКТРА БЕЛОГО СВЕТА С ПОМОЩЬЮ ДИФРАКЦИОННОЙ РЕШЕТКИ 1.49 MB
  Волновая поверхность падающей волны плоскость щели и экран параллельны друг другу. Поскольку щель бесконечна картина наблюдаемая в любой плоскости перпендикулярной к щели будет одинакова. Разобьем открытую часть волновой поверхности на параллельные краям щели элементарные зоны ширины . Ее можно найти проинтегрировав по всей ширине щели : .
42314. Дисперсия света. Изучение дисперсии света 735.5 KB
  Наблюдение дисперсии света определение зависимости показателя преломления от длины волны светового излучения для конкретного вещества. Одним из наиболее давно известных человеку оптических эффектов является преломление света заключающееся в том что при переходе через границу двух сред луч света скачком меняет свое направление как бы претерпевает излом. Преломление света характеризуется относительным показателем преломления.
42315. ИССЛЕДОВАНИЕ РЕЗОНАНСНЫХ ЯВЛЕНИЙ В ЭЛЕКТРИЧЕСКИХ ЦЕПЯХ 735.5 KB
  Падение напряжения на конденсаторе . Для тока в катушке имеем: сдвиг фаз между током в контуре и напряжением на конденсаторе составляет π 2 ток опережает по фазе напряжения на конденсаторе на π 2 рис. Для напряжения закон изменения имеет вид: При колебаниях происходит периодический переход электрической энергии конденсатора в магнитную энергию катушки . Для определения напряжения на конденсаторе разделим 1 на С имеем Чтобы найти закон изменения силы тока продифференцируем 1 по времени: Обозначим...
42316. ОСНОВЫ ЦИФРОВОЙ ТЕХНИКИ 2.89 MB
  Заготовки отчетов должны содержать цель работы далее по каждому пункту задания: функции реализуемые цифровым устройством представленные в аналитической или и табличной форме их преобразования поясняющие процесс проектирования; схему спроектированного узла или устройства; в случаях оговоренных в описании временные диаграммы поясняющие работу цифрового устройства; таблицы для записи результатов экспериментов; Исследуемые цифровые узлы и устройства собираются на одном и том же закрепленном за бригадой универсальном...
42317. ДОСЛIДЖЕННЯ РЕЖИМIВ РОБОТИ ГРАФОПОБУДУВАЧА 31.5 KB
  Ознайомитися з принципом дї та системою команд графопобудувача HPGLдод. Дослiдити роботу графопобудувача в режимі емуляції. Принципи дiї та основнi команди графопобудувача.
42318. Использование шаблонов при создании презентаций 191 KB
  На панели задач щелкните на кнопке Пуск Strt. В стартовом диалоговом окне щелкните на кнопке выбора Шаблон презентации Templte и затем на кнопке ОК. Примечание: Если вы продолжаете сеанс работы после предыдущего урока щелкните на меню Файл File и затем на команде Создать New. Щелкните на вкладке Дизайны презентаций Presenttion Designs.