4710

Вивчення методів доступу та роботи з лексичним ресурсами

Лабораторная работа

Информатика, кибернетика и программирование

Мета роботи: Вивчення основ програмування на мові Python. Вивчення методів доступу та роботи з лексичним ресурсами. Семантичний словник англійської мови WordNet. Короткі теоретичні відомості При програмуванні часто необхідно частин...

Украинкский

2012-11-25

261 KB

11 чел.

Мета роботи:

  •  Вивчення основ програмування на мові Python.
  •  Вивчення методів доступу та роботи з лексичним ресурсами.
  •  Семантичний словник англійської мови WordNet.

Короткі теоретичні відомості

При програмуванні часто необхідно частину програми виконати (використати) декілька разів. Наприклад, потрібно написати програму, яка здійснює утворення множини з однини іменників і вона буде виконуватись в різних місцях програми. Швидше ніж повторювати той самий код декілька разів і більш ефективно і надійно організувати цю роботу через функцію. Функція - це програмна конструкція, яку можна викликати з одним або більше вхідними параметрами, і отримувати результат на виході. Визначаємо функцію, використовуючи ключове слово def далі потрібно дати назву функції і визначити вхідні параметри, після двокрапки записується тіло функції. Ключове слово return використовується для відображення значення, яке ми хочемо отримати на виході функції.

Лексичний ресурс або просто словник це набір слів тa/або словосполучень, які асоціюються з такою інформацією, як частина мови та опис значення. Лексичні ресурси є вторинними по відношенню до текстів і зазвичай створюються і вдосконалюються з використанням текстів. Наприклад, якщо визначити текст my_text тоді vocab = sorted(set(my_text)) побудує словник тексту  my_text,  word_freq = FreqDist(my_text)  визначить частоту кожного слова в тексті. vocab та word_freq – приклад простих лексичних ресурсів. Так само конкорданс дає інформацію про використання слів і ця інформація може бути використана при побудові словників.

WordNet, це семантично орієнтований словник англійської мови, подібний до традиційних тезаурусів але з більш багатою структурою. У WordNet слова групуються у набори синонімів – синсети, кожен із своїм визначенням і зв’язками з іншими синсетами. WordNet 3.0 розповсюджується разом з NLTK  і містить 155287 слів та 117659 синсетів. Хоча WordNet розроблявся для психолінгвістики - цей словник широко використовується в NLP та в задачах інформаційного пошуку.


                                                   
Хід роботи

1. Дослідити зв’язки голонім-меронім для іменників. Знайти іменники для демонстрації наступних зв’язків: member_meronyms(), part_meronyms(), substance_meronyms(), member_holonyms(), part_holonyms(), та substance_holonyms().

>>> from nltk.corpus import wordnet as wn

>>> wn.synset('university.n.01').member_meronyms()

[Synset('graduate_school.n.01')]

>>> wn.synset('nose.n.01').part_meronyms()

[Synset('nostril.n.01'), Synset('internasal_suture.n.01'), Synset('bridge.n.04'), Synset('nasal_cavity.n.01'), Synset('turbinate_bone.n.01'), Synset('ethmoidal_artery.n.01')]

>>> wn.synset('tree.n.01').substance_meronyms()

[Synset('heartwood.n.01'), Synset('sapwood.n.01')]

>>> wn.synset('student.n.01').member_holonyms()

[Synset('teacher-student_relation.n.01')]

>>> wn.synset('limb.n.01').part_holonyms()

[Synset('appendicular_skeleton.n.01')]

>>> wn.synset('iron.n.01').substance_holonyms()

[Synset('iron_ore.n.01'), Synset('steel.n.01')]

4. Здійснити аналіз словника вимов. Знайти скільки різних слів він містить. Який відсоток слів з цього словника можуть мати різну вимову?

5. Який відсоток синсетів іменників не мають гіпонімів? До всіх синсетів можна доступитися за допомогою wn.all_synsets('n').  

7. Модифікувати програму генерації випадкового тексту для виконання наступного: зберігати можливі наступні слова у списку та вибирати їх за допомогою random.choice() попередньо виконавши import random.

12. Полісемія - це явище коли одне слово має декілька значень ( іменник dog має 7 значень, кількість яких визначити можна як len(wn.synsets('dog', 'n'))). Знайдіть середнє значення полісемії для дієслів.

16. Використовуючи один з методів визначення подібності слів побудуйте відсортований по спаданню список значень подібності для наступних пар слів: monk-oracle, cemetery-woodland, food-rooster, coast-hill, forest-graveyard, shore-woodland, monk-slave, coast-forest, lad-wizard, chord-smile, glass-magician, rooster-voyage, noon-string.

>>> monk = wn.synset('monk.n.01')

>>> oracle = wn.synset('oracle.n.01')

>>> oracle.path_similarity(monk)

0.125

>>> cemetery = wn.synset('cemetery.n.01')

>>> woodland = wn.synset('woodland.n.01')

>>> cemetery.path_similarity(woodland)

0.1111111111111111

>>> food = wn.synset('food.n.01')

>>> rooster = wn.synset('rooster.n.01')

>>> food.path_similarity(rooster)

0.0625

>>> coast = wn.synset('coast.n.01')

>>> hill = wn.synset('hill.n.01')

>>> hill.path_similarity(coast)

0.20000000000000001

>>> forest = wn.synset('forest.n.01')

>>> graveyard = wn.synset('graveyard.n.01')

>>> forest.path_similarity(graveyard)

0.071428571428571425

>>> shore = wn.synset('shore.n.01')

>>> woodland = wn.synset('woodland.n.01')

>>> shore.path_similarity(woodland)

0.20000000000000001

>>> slave = wn.synset('slave.n.01')

>>> monk.path_similarity(slave)

0.20000000000000001

>>> coast.path_similarity(forest)

0.090909090909090912

>>> lad = wn.synset('lad.n.01')

>>> wizard = wn.synset('wizard.n.01')

>>> lad.path_similarity(wizard)

0.20000000000000001

>>> chord = wn.synset('chord.n.01')

>>> smile = wn.synset('smile.n.01')

>>> chord.path_similarity(smile)

0.090909090909090912

>>> glass = wn.synset('glass.n.01')

>>> magician = wn.synset('magician.n.01')

>>> glass.path_similarity(magician)

0.1111111111111111

>>> voyage = wn.synset('voyage.n.01')

>>> rooster.path_similarity(voyage)

0.041666666666666664

>>> noon = wn.synset('noon.n.01')

>>> string = wn.synset('string.n.01')

>>> noon.path_similarity(string)

0.058823529411764705

>>>

Висновок:

на даній лабораторній роботі я ознайомилася з методами доступу та роботою з лексичним ресурсами, семантичним словником англійської мови WordNet, поняттями функції та модуля, словником з позначенням мови, лексичними зв’язками та оцінкою подібності WordNet.


 

А также другие работы, которые могут Вас заинтересовать

44847. Оболочка bash 39.55 KB
  Если в командной строке стоит commnd1 commnd2 то commnd2 выполняется в том и только в том случае если статус выхода из команды commnd1 равен нулю что говорит об успешном ее завершении. Аналогично если командная строка имеет вид commnd1 commnd2 то команда commnd2 выполняется тогда и только тогда когда статус выхода из команды commnd1 отличен от нуля. Итак первый этап поиск кода команды. Команды бывают встроенные те код которых включен в код самой оболочки и внешние код которых расположен в отдельном файле на диске.
44848. Цели обучения РЯ в школе. Формирования лингвистической, языковой и коммуникативной компетенции в процессе обучения РЯ 14.38 KB
  Цели того или иного школьного предмета в том числе русского языка определяются следующими факторами: социальным заказом; уровнем развития соответствующей науки в данном случае лингвистики; уровнем развития педагогики детской психологии и самой методики преподавания русского языка. Лингвистическая наука достаточно полно описала все уровни русского языка и все функциональностилистические разновидности русской речи. Это позволило поставить задачу изучения языка во всех его основных проявлениях. Методика преподавания русского языка...
44849. Культура речи как качество 15.93 KB
  Центральным понятием нормативного аспекта является понятие языковой нормы. Нормы литературного языка включают единнообразную систему образцов общепринятые элементы языка обусловленные правилами исполнения речевых средств исторически принятые в языковом коллективе. Нормы отражают процесс. Признаки языковой нормы.
44851. Взаимоотношения связей с общественностью и смежных видов деятельности 19.67 KB
  Взаимоотношения связей с общественностью и смежных видов деятельности Смежные коммуникационные форматы: PR реклама журналистика. PR – управленческая коммуникативная деятельность совокупность социальных практик направленная на оптимизацию взаимодействий социального субъекта со значимыми сегментами социальной среды – с его общественностью. Цель Согласие с общественностью Стратегическая цель – Понимание Задачи Обеспечение равноправного диалога с общественностью Методы – медиарилейшнз спец. Цель ...
44852. Українська літературна мова і мова професійного спрямування 22.5 KB
  Літературна мова і мова професійного спрямування. Літературна мова унормована стандартна правильна з погляду усталених кодифікованих норм форма національної мови що обслуговує культурноосвітні потреби нації виконує консолідуючу функцію шляхом використання у сферах державного управління ЗМІ науки культури та літератури; це мова освіти науки культури державних інституцій. Вона має такі ознаки: унормованість стандартність внутрішня єдність і цілісність уніфікованість наддіалектність поліфункціональність наявність усної і...
44854. Оборотный капитал предприятия 16.77 KB
  Бухгалтерское деление Оборотные средства также именуемые оборотным капиталом это те средства которые компания употребляет для воплощения собственной ежедневной деятельности полностью потребляемые в промежуток производственного цикла. К ним точно относятся: Запасы материалы полуфабрикаты сырьё энергия запчасти топливо затраты в незаконченном производстве уже полностью готовые товары и продукция расходы в дальнейшем будущем периоде НДС по купленным ценностям Дебиторский долг больше 12 месяцев Краткосрочные финансовые...
44855. Язык SQL. Особенности языка SQL как инструмента работы с реляционными БД. Подмножества языка SQL 28.5 KB
  Набор операторов языка для определения данных и ограничения целостности. Набор операторов языка для извлечения изменения данных. Язык SQL наиболее распространённый язык управления базами данных типа клиент – сервер. В SQL определены два подмножества языка: SQLDDL Dt Definition Lnguge язык определения структур и ограничений целостности баз данных.