4710

Вивчення методів доступу та роботи з лексичним ресурсами

Лабораторная работа

Информатика, кибернетика и программирование

Мета роботи: Вивчення основ програмування на мові Python. Вивчення методів доступу та роботи з лексичним ресурсами. Семантичний словник англійської мови WordNet. Короткі теоретичні відомості При програмуванні часто необхідно частин...

Украинкский

2012-11-25

261 KB

12 чел.

Мета роботи:

  •  Вивчення основ програмування на мові Python.
  •  Вивчення методів доступу та роботи з лексичним ресурсами.
  •  Семантичний словник англійської мови WordNet.

Короткі теоретичні відомості

При програмуванні часто необхідно частину програми виконати (використати) декілька разів. Наприклад, потрібно написати програму, яка здійснює утворення множини з однини іменників і вона буде виконуватись в різних місцях програми. Швидше ніж повторювати той самий код декілька разів і більш ефективно і надійно організувати цю роботу через функцію. Функція - це програмна конструкція, яку можна викликати з одним або більше вхідними параметрами, і отримувати результат на виході. Визначаємо функцію, використовуючи ключове слово def далі потрібно дати назву функції і визначити вхідні параметри, після двокрапки записується тіло функції. Ключове слово return використовується для відображення значення, яке ми хочемо отримати на виході функції.

Лексичний ресурс або просто словник це набір слів тa/або словосполучень, які асоціюються з такою інформацією, як частина мови та опис значення. Лексичні ресурси є вторинними по відношенню до текстів і зазвичай створюються і вдосконалюються з використанням текстів. Наприклад, якщо визначити текст my_text тоді vocab = sorted(set(my_text)) побудує словник тексту  my_text,  word_freq = FreqDist(my_text)  визначить частоту кожного слова в тексті. vocab та word_freq – приклад простих лексичних ресурсів. Так само конкорданс дає інформацію про використання слів і ця інформація може бути використана при побудові словників.

WordNet, це семантично орієнтований словник англійської мови, подібний до традиційних тезаурусів але з більш багатою структурою. У WordNet слова групуються у набори синонімів – синсети, кожен із своїм визначенням і зв’язками з іншими синсетами. WordNet 3.0 розповсюджується разом з NLTK  і містить 155287 слів та 117659 синсетів. Хоча WordNet розроблявся для психолінгвістики - цей словник широко використовується в NLP та в задачах інформаційного пошуку.


                                                   
Хід роботи

1. Дослідити зв’язки голонім-меронім для іменників. Знайти іменники для демонстрації наступних зв’язків: member_meronyms(), part_meronyms(), substance_meronyms(), member_holonyms(), part_holonyms(), та substance_holonyms().

>>> from nltk.corpus import wordnet as wn

>>> wn.synset('university.n.01').member_meronyms()

[Synset('graduate_school.n.01')]

>>> wn.synset('nose.n.01').part_meronyms()

[Synset('nostril.n.01'), Synset('internasal_suture.n.01'), Synset('bridge.n.04'), Synset('nasal_cavity.n.01'), Synset('turbinate_bone.n.01'), Synset('ethmoidal_artery.n.01')]

>>> wn.synset('tree.n.01').substance_meronyms()

[Synset('heartwood.n.01'), Synset('sapwood.n.01')]

>>> wn.synset('student.n.01').member_holonyms()

[Synset('teacher-student_relation.n.01')]

>>> wn.synset('limb.n.01').part_holonyms()

[Synset('appendicular_skeleton.n.01')]

>>> wn.synset('iron.n.01').substance_holonyms()

[Synset('iron_ore.n.01'), Synset('steel.n.01')]

4. Здійснити аналіз словника вимов. Знайти скільки різних слів він містить. Який відсоток слів з цього словника можуть мати різну вимову?

5. Який відсоток синсетів іменників не мають гіпонімів? До всіх синсетів можна доступитися за допомогою wn.all_synsets('n').  

7. Модифікувати програму генерації випадкового тексту для виконання наступного: зберігати можливі наступні слова у списку та вибирати їх за допомогою random.choice() попередньо виконавши import random.

12. Полісемія - це явище коли одне слово має декілька значень ( іменник dog має 7 значень, кількість яких визначити можна як len(wn.synsets('dog', 'n'))). Знайдіть середнє значення полісемії для дієслів.

16. Використовуючи один з методів визначення подібності слів побудуйте відсортований по спаданню список значень подібності для наступних пар слів: monk-oracle, cemetery-woodland, food-rooster, coast-hill, forest-graveyard, shore-woodland, monk-slave, coast-forest, lad-wizard, chord-smile, glass-magician, rooster-voyage, noon-string.

>>> monk = wn.synset('monk.n.01')

>>> oracle = wn.synset('oracle.n.01')

>>> oracle.path_similarity(monk)

0.125

>>> cemetery = wn.synset('cemetery.n.01')

>>> woodland = wn.synset('woodland.n.01')

>>> cemetery.path_similarity(woodland)

0.1111111111111111

>>> food = wn.synset('food.n.01')

>>> rooster = wn.synset('rooster.n.01')

>>> food.path_similarity(rooster)

0.0625

>>> coast = wn.synset('coast.n.01')

>>> hill = wn.synset('hill.n.01')

>>> hill.path_similarity(coast)

0.20000000000000001

>>> forest = wn.synset('forest.n.01')

>>> graveyard = wn.synset('graveyard.n.01')

>>> forest.path_similarity(graveyard)

0.071428571428571425

>>> shore = wn.synset('shore.n.01')

>>> woodland = wn.synset('woodland.n.01')

>>> shore.path_similarity(woodland)

0.20000000000000001

>>> slave = wn.synset('slave.n.01')

>>> monk.path_similarity(slave)

0.20000000000000001

>>> coast.path_similarity(forest)

0.090909090909090912

>>> lad = wn.synset('lad.n.01')

>>> wizard = wn.synset('wizard.n.01')

>>> lad.path_similarity(wizard)

0.20000000000000001

>>> chord = wn.synset('chord.n.01')

>>> smile = wn.synset('smile.n.01')

>>> chord.path_similarity(smile)

0.090909090909090912

>>> glass = wn.synset('glass.n.01')

>>> magician = wn.synset('magician.n.01')

>>> glass.path_similarity(magician)

0.1111111111111111

>>> voyage = wn.synset('voyage.n.01')

>>> rooster.path_similarity(voyage)

0.041666666666666664

>>> noon = wn.synset('noon.n.01')

>>> string = wn.synset('string.n.01')

>>> noon.path_similarity(string)

0.058823529411764705

>>>

Висновок:

на даній лабораторній роботі я ознайомилася з методами доступу та роботою з лексичним ресурсами, семантичним словником англійської мови WordNet, поняттями функції та модуля, словником з позначенням мови, лексичними зв’язками та оцінкою подібності WordNet.


 

А также другие работы, которые могут Вас заинтересовать

73858. Роль налога как основной категории налогового права 110.5 KB
  Роль налога как основной категории налогового права. Понятие налога и виды налогов. Категория налога исследуется учеными с различных позиций. Финансовый аспект связан с выражением экономической сущности налога и проявляется в экономической природе отношений возникающих между государством и налогоплательщиком.
73859. Характеристика элементов юридической конструкции налога. 235.5 KB
  Характеристика элементов юридической конструкции налога. Между элементами юридической конструкции налога образуются системные связи которые определяют особенности функционирования этой системы и определяют характеристики устанавливаемого налога как целостного правового механизма. Поэтому целесообразно рассматривать характеристики элементов юридической конструкции налога в той последовательности в которой они используются при формировании законопроекта о конкретном налоге и при исследовании действующих законов о налогах. Группа элементов...
73860. Налоговое право как подотрасль финансового права 58 KB
  Налоговое право как подотрасль финансового права. Понятие подотрасли налогового права и его место в системе финансового права. Налоговое право в качестве подотрасли финансового права начинает формироваться с конца 20 века в связи с законодательным установлением в Российской Федерации системы налогообложения нового типа. Подотрасль налогового права включает всю совокупность юридических норм осуществляющих правовое регулирование в сфере налогообложения.
73861. Федеральные налоги и сборы 341 KB
  Налогоплательщиками налога на добавленную стоимость признаются: организации; индивидуальные предприниматели; лица признаваемые налогоплательщиками налога на добавленную стоимость в связи с перемещением товаров через таможенную границу Таможенного союза определяемые в соответствии с таможенным законодательством Таможенного союза и законодательством Российской Федерации о таможенном деле. Освобождение не применяется также в отношении обязанностей возникающих в связи с ввозом товаров на территорию Российской Федерации и иные территории...
73862. Региональные и местные налоги 166.5 KB
  Исходя из этого в юридической конструкции каждого регионального местного налога можно выделить две группы элементов: нормативное содержание которых строго устанавливается федеральным законом для их неизменного действия на всей территории Российской Федерации;
73863. Соотношение понятий «налоговая система», «система налогообложения» и «система налогов» 125.5 KB
  Опираясь на выработанные в науке теоретические характеристики отдельных сторон налоговой системы, представляется возможным рассматривать налоговую систему как сложное правовое, социальное, экономическое и политическое явление общественной жизни и сложную систему, включающую комплекс взаимосвязанных и взаимообусловливающих друг друга элементов. Можным выделить следующие образующие налоговую систему элементы
73864. Налогово-правовые нормы и отношения 179 KB
  Именно поэтому нормы входящие в состав юридической конструкции конкретного налога являются изначально обязывающими и императивными за исключением нормы устанавливающей льготы. Закон не предусматривает диспозитивного регулирования отношения возникающего между налогоплательщиком и государством по поводу уплаты налога. Все юридические характеристики элементов юридической конструкции конкретного налога не имеют альтернативы а метод воздействия норм на отношение при их реализации является императивным методом. При этом установление...
73865. Контрольно-налоговое производство 183.5 KB
  Система налогового администрирования и контроля складывается в составе налоговой системы России с марта 1991 года с момента образования налоговых органов. Это: налоговые органы; система норм права на основании которых строится контрольнонадзорная деятельность налоговых органов; правоотношения складывающиеся в процессе деятельности налоговых органов в том числе правоотношения возникающие при осуществлении налогового процесса и налогового производства. Последовательное исследование этих правовых категорий позволяет выявить место и роль...
73866. Налоговая ответственность за налоговые правонарушения в сфере налогообложения 275.5 KB
  Под юридической ответственностью за нарушения налогового законодательства понимается совокупность принудительных мер посредством которых государство воздействует на нарушителя применяя меры карательного характера в качестве наказания в установленных Налоговым кодексом РФ случаях и порядке.