4710

Вивчення методів доступу та роботи з лексичним ресурсами

Лабораторная работа

Информатика, кибернетика и программирование

Мета роботи: Вивчення основ програмування на мові Python. Вивчення методів доступу та роботи з лексичним ресурсами. Семантичний словник англійської мови WordNet. Короткі теоретичні відомості При програмуванні часто необхідно частин...

Украинкский

2012-11-25

261 KB

11 чел.

Мета роботи:

  •  Вивчення основ програмування на мові Python.
  •  Вивчення методів доступу та роботи з лексичним ресурсами.
  •  Семантичний словник англійської мови WordNet.

Короткі теоретичні відомості

При програмуванні часто необхідно частину програми виконати (використати) декілька разів. Наприклад, потрібно написати програму, яка здійснює утворення множини з однини іменників і вона буде виконуватись в різних місцях програми. Швидше ніж повторювати той самий код декілька разів і більш ефективно і надійно організувати цю роботу через функцію. Функція - це програмна конструкція, яку можна викликати з одним або більше вхідними параметрами, і отримувати результат на виході. Визначаємо функцію, використовуючи ключове слово def далі потрібно дати назву функції і визначити вхідні параметри, після двокрапки записується тіло функції. Ключове слово return використовується для відображення значення, яке ми хочемо отримати на виході функції.

Лексичний ресурс або просто словник це набір слів тa/або словосполучень, які асоціюються з такою інформацією, як частина мови та опис значення. Лексичні ресурси є вторинними по відношенню до текстів і зазвичай створюються і вдосконалюються з використанням текстів. Наприклад, якщо визначити текст my_text тоді vocab = sorted(set(my_text)) побудує словник тексту  my_text,  word_freq = FreqDist(my_text)  визначить частоту кожного слова в тексті. vocab та word_freq – приклад простих лексичних ресурсів. Так само конкорданс дає інформацію про використання слів і ця інформація може бути використана при побудові словників.

WordNet, це семантично орієнтований словник англійської мови, подібний до традиційних тезаурусів але з більш багатою структурою. У WordNet слова групуються у набори синонімів – синсети, кожен із своїм визначенням і зв’язками з іншими синсетами. WordNet 3.0 розповсюджується разом з NLTK  і містить 155287 слів та 117659 синсетів. Хоча WordNet розроблявся для психолінгвістики - цей словник широко використовується в NLP та в задачах інформаційного пошуку.


                                                   
Хід роботи

1. Дослідити зв’язки голонім-меронім для іменників. Знайти іменники для демонстрації наступних зв’язків: member_meronyms(), part_meronyms(), substance_meronyms(), member_holonyms(), part_holonyms(), та substance_holonyms().

>>> from nltk.corpus import wordnet as wn

>>> wn.synset('university.n.01').member_meronyms()

[Synset('graduate_school.n.01')]

>>> wn.synset('nose.n.01').part_meronyms()

[Synset('nostril.n.01'), Synset('internasal_suture.n.01'), Synset('bridge.n.04'), Synset('nasal_cavity.n.01'), Synset('turbinate_bone.n.01'), Synset('ethmoidal_artery.n.01')]

>>> wn.synset('tree.n.01').substance_meronyms()

[Synset('heartwood.n.01'), Synset('sapwood.n.01')]

>>> wn.synset('student.n.01').member_holonyms()

[Synset('teacher-student_relation.n.01')]

>>> wn.synset('limb.n.01').part_holonyms()

[Synset('appendicular_skeleton.n.01')]

>>> wn.synset('iron.n.01').substance_holonyms()

[Synset('iron_ore.n.01'), Synset('steel.n.01')]

4. Здійснити аналіз словника вимов. Знайти скільки різних слів він містить. Який відсоток слів з цього словника можуть мати різну вимову?

5. Який відсоток синсетів іменників не мають гіпонімів? До всіх синсетів можна доступитися за допомогою wn.all_synsets('n').  

7. Модифікувати програму генерації випадкового тексту для виконання наступного: зберігати можливі наступні слова у списку та вибирати їх за допомогою random.choice() попередньо виконавши import random.

12. Полісемія - це явище коли одне слово має декілька значень ( іменник dog має 7 значень, кількість яких визначити можна як len(wn.synsets('dog', 'n'))). Знайдіть середнє значення полісемії для дієслів.

16. Використовуючи один з методів визначення подібності слів побудуйте відсортований по спаданню список значень подібності для наступних пар слів: monk-oracle, cemetery-woodland, food-rooster, coast-hill, forest-graveyard, shore-woodland, monk-slave, coast-forest, lad-wizard, chord-smile, glass-magician, rooster-voyage, noon-string.

>>> monk = wn.synset('monk.n.01')

>>> oracle = wn.synset('oracle.n.01')

>>> oracle.path_similarity(monk)

0.125

>>> cemetery = wn.synset('cemetery.n.01')

>>> woodland = wn.synset('woodland.n.01')

>>> cemetery.path_similarity(woodland)

0.1111111111111111

>>> food = wn.synset('food.n.01')

>>> rooster = wn.synset('rooster.n.01')

>>> food.path_similarity(rooster)

0.0625

>>> coast = wn.synset('coast.n.01')

>>> hill = wn.synset('hill.n.01')

>>> hill.path_similarity(coast)

0.20000000000000001

>>> forest = wn.synset('forest.n.01')

>>> graveyard = wn.synset('graveyard.n.01')

>>> forest.path_similarity(graveyard)

0.071428571428571425

>>> shore = wn.synset('shore.n.01')

>>> woodland = wn.synset('woodland.n.01')

>>> shore.path_similarity(woodland)

0.20000000000000001

>>> slave = wn.synset('slave.n.01')

>>> monk.path_similarity(slave)

0.20000000000000001

>>> coast.path_similarity(forest)

0.090909090909090912

>>> lad = wn.synset('lad.n.01')

>>> wizard = wn.synset('wizard.n.01')

>>> lad.path_similarity(wizard)

0.20000000000000001

>>> chord = wn.synset('chord.n.01')

>>> smile = wn.synset('smile.n.01')

>>> chord.path_similarity(smile)

0.090909090909090912

>>> glass = wn.synset('glass.n.01')

>>> magician = wn.synset('magician.n.01')

>>> glass.path_similarity(magician)

0.1111111111111111

>>> voyage = wn.synset('voyage.n.01')

>>> rooster.path_similarity(voyage)

0.041666666666666664

>>> noon = wn.synset('noon.n.01')

>>> string = wn.synset('string.n.01')

>>> noon.path_similarity(string)

0.058823529411764705

>>>

Висновок:

на даній лабораторній роботі я ознайомилася з методами доступу та роботою з лексичним ресурсами, семантичним словником англійської мови WordNet, поняттями функції та модуля, словником з позначенням мови, лексичними зв’язками та оцінкою подібності WordNet.


 

А также другие работы, которые могут Вас заинтересовать

20381. КАК УЗНАТЬ ХАРАКТЕР ЧЕЛОВЕКА ПО ЕГО ПОДПИСИ ИЛИ ПРАКТИЧЕСКАЯ ГРАФОЛОГИЯ 217.5 KB
  Наджимов КАК УЗНАТЬ ХАРАКТЕР ЧЕЛОВЕКА ПО ЕГО ПОДПИСИ ИЛИ ПРАКТИЧЕСКАЯ ГРАФОЛОГИЯ ВВЕДЕНИЕ Графология это наука изучающая законы зависимости между почерком и личностью характером человека. РЕКОМЕНДАЦИИ ПО ПРОВЕДЕНИЮ ГРАФОЛОГИЧЕСКОГО АНАЛИЗА В данной работе в основном внимание уделено анализу подписи так как обычное письмо человека как бы причесано оно подчиняется многочисленным правилам правописания и индивидуум не может проявить себя полностью. Умело применять метод логических цепей это значит что если по подписи точно определена...
20382. СУДЕБНАЯ ЭКСПЕРТИЗА (ЭКСПЕРТОЛОГИЯ) 654 KB
  Раскрывается специфика их классификации дается описание каждого класса экспертиз с наименованием предмета объекта и наиболее часто встречаемые вопросы при назначении того или иного вида судебной экспертизы. Типография УВД Оренбургской области ВВЕДЕНИЕ Институт судебной экспертизы в дореформенных правовых актах России существовал в виде отдельных предписаний относящихся к деятельности сведущих лиц...
20383. Курс международного уголовного права 1.15 MB
  Курс международного уголовного права. ПОНЯТИЕ ПРЕДМЕТ РЕГУЛИРОВАНИЯ ПРИНЦИПЫ И ИСТОЧНИКИ МЕЖДУНАРОДНОГО УГОЛОВНОГО ПРАВА 1. Понятие и предмет международного уголовного права 1. Принципы международного уголовного права 1.
20384. Сращивание организованной и экономической преступности – новая форма криминальной активности 270 KB
  Общая характеристика организованной преступности в сфере экономики Современная криминальная ситуация закономерный результат действия комплекса факторов связанных с переходным периодом ошибками и просчетами в решении стратегических и тактических задач реформирования социальной жизни. Многократно повысилась доходность от преступлений совершаемых не только в традиционном криминальном бизнесе но и в новых отраслях и сферах легальной экономики нефтебизнесе кредитнофинансовой сфере обороте спирта и алкогольных напитков операциях с...
20385. Методика расследования происшествий на железнодорожном и авиатранспорте 1.17 MB
  Нарушения правил безопасности движения и эксплуатации железнйдорожного и воздушного транспорта могут выражаться как в форме действия превышение скорости перевод стрелки под поездом прием поезда на занятый путь самовольное занятие перегона и т. Так не могут быть привлечены к уголовной ответственности осмотрщикиремонтники которые в нарушение действующих правил безопасности не осмотрели тормозную систему и отправили поезд с перекрытым концевым краном если машинист поезда проверяя на перегоне действие тормозной системы на...
20386. Основи підприємницької діяльності 1.1 MB
  Визначення переваг створюваного підприємства. Припинення діяльності підприємства. Конкурентоспроможність підприємства 68 Тема 10. 83 Гозділ №3 ЕКОНОМІКА ПІДПРИЄМСТВА ТА ЗОВНІШНІ ЧИННИКИ ЙОГО ДІЯЛЬНОСТІ.
20387. Информатика и математика. Математика для юристов 1.07 MB
  Теория множеств.1] Понятие способы задания и виды множеств [2.2] Операции над множествами [2.3] Неупорядоченные и упорядоченные множества.
20388. УГОЛОВНАЯ ОТВЕТСТВЕННОСТЬ ЮРИДИЧЕСКИХ ЛИЦ: ЗА И ПРОТИВ 381 KB
  Настоящая работа посвящена дискуссионной проблеме - проблеме уголовной ответственности юридических лиц, актуальной в научном и практическом отношении, но недостаточно освещенной в юридической литературе. Она подготовлена доктором юридических наук...
20389. ДОКАЗЫВАНИЕ В СОВЕТСКОМ УГОЛОВНОМ СУДОПРОИЗВОДСТВЕ 672 KB
  66 УПК УССР и И. 66 и 97 УПК УССР ст. 70 и 109 УПК РСФСР. Здесь были высказаны суждения как о том что их применение допустимо и по действующему за кону так как они объединяют в себе свойства соответ ственно киносъемки звукозаписи и фотоснимков так и о том что сначала нужно урегулировать в УПК возмож ность и порядок их применения.