4710

Вивчення методів доступу та роботи з лексичним ресурсами

Лабораторная работа

Информатика, кибернетика и программирование

Мета роботи: Вивчення основ програмування на мові Python. Вивчення методів доступу та роботи з лексичним ресурсами. Семантичний словник англійської мови WordNet. Короткі теоретичні відомості При програмуванні часто необхідно частин...

Украинкский

2012-11-25

261 KB

11 чел.

Мета роботи:

  •  Вивчення основ програмування на мові Python.
  •  Вивчення методів доступу та роботи з лексичним ресурсами.
  •  Семантичний словник англійської мови WordNet.

Короткі теоретичні відомості

При програмуванні часто необхідно частину програми виконати (використати) декілька разів. Наприклад, потрібно написати програму, яка здійснює утворення множини з однини іменників і вона буде виконуватись в різних місцях програми. Швидше ніж повторювати той самий код декілька разів і більш ефективно і надійно організувати цю роботу через функцію. Функція - це програмна конструкція, яку можна викликати з одним або більше вхідними параметрами, і отримувати результат на виході. Визначаємо функцію, використовуючи ключове слово def далі потрібно дати назву функції і визначити вхідні параметри, після двокрапки записується тіло функції. Ключове слово return використовується для відображення значення, яке ми хочемо отримати на виході функції.

Лексичний ресурс або просто словник це набір слів тa/або словосполучень, які асоціюються з такою інформацією, як частина мови та опис значення. Лексичні ресурси є вторинними по відношенню до текстів і зазвичай створюються і вдосконалюються з використанням текстів. Наприклад, якщо визначити текст my_text тоді vocab = sorted(set(my_text)) побудує словник тексту  my_text,  word_freq = FreqDist(my_text)  визначить частоту кожного слова в тексті. vocab та word_freq – приклад простих лексичних ресурсів. Так само конкорданс дає інформацію про використання слів і ця інформація може бути використана при побудові словників.

WordNet, це семантично орієнтований словник англійської мови, подібний до традиційних тезаурусів але з більш багатою структурою. У WordNet слова групуються у набори синонімів – синсети, кожен із своїм визначенням і зв’язками з іншими синсетами. WordNet 3.0 розповсюджується разом з NLTK  і містить 155287 слів та 117659 синсетів. Хоча WordNet розроблявся для психолінгвістики - цей словник широко використовується в NLP та в задачах інформаційного пошуку.


                                                   
Хід роботи

1. Дослідити зв’язки голонім-меронім для іменників. Знайти іменники для демонстрації наступних зв’язків: member_meronyms(), part_meronyms(), substance_meronyms(), member_holonyms(), part_holonyms(), та substance_holonyms().

>>> from nltk.corpus import wordnet as wn

>>> wn.synset('university.n.01').member_meronyms()

[Synset('graduate_school.n.01')]

>>> wn.synset('nose.n.01').part_meronyms()

[Synset('nostril.n.01'), Synset('internasal_suture.n.01'), Synset('bridge.n.04'), Synset('nasal_cavity.n.01'), Synset('turbinate_bone.n.01'), Synset('ethmoidal_artery.n.01')]

>>> wn.synset('tree.n.01').substance_meronyms()

[Synset('heartwood.n.01'), Synset('sapwood.n.01')]

>>> wn.synset('student.n.01').member_holonyms()

[Synset('teacher-student_relation.n.01')]

>>> wn.synset('limb.n.01').part_holonyms()

[Synset('appendicular_skeleton.n.01')]

>>> wn.synset('iron.n.01').substance_holonyms()

[Synset('iron_ore.n.01'), Synset('steel.n.01')]

4. Здійснити аналіз словника вимов. Знайти скільки різних слів він містить. Який відсоток слів з цього словника можуть мати різну вимову?

5. Який відсоток синсетів іменників не мають гіпонімів? До всіх синсетів можна доступитися за допомогою wn.all_synsets('n').  

7. Модифікувати програму генерації випадкового тексту для виконання наступного: зберігати можливі наступні слова у списку та вибирати їх за допомогою random.choice() попередньо виконавши import random.

12. Полісемія - це явище коли одне слово має декілька значень ( іменник dog має 7 значень, кількість яких визначити можна як len(wn.synsets('dog', 'n'))). Знайдіть середнє значення полісемії для дієслів.

16. Використовуючи один з методів визначення подібності слів побудуйте відсортований по спаданню список значень подібності для наступних пар слів: monk-oracle, cemetery-woodland, food-rooster, coast-hill, forest-graveyard, shore-woodland, monk-slave, coast-forest, lad-wizard, chord-smile, glass-magician, rooster-voyage, noon-string.

>>> monk = wn.synset('monk.n.01')

>>> oracle = wn.synset('oracle.n.01')

>>> oracle.path_similarity(monk)

0.125

>>> cemetery = wn.synset('cemetery.n.01')

>>> woodland = wn.synset('woodland.n.01')

>>> cemetery.path_similarity(woodland)

0.1111111111111111

>>> food = wn.synset('food.n.01')

>>> rooster = wn.synset('rooster.n.01')

>>> food.path_similarity(rooster)

0.0625

>>> coast = wn.synset('coast.n.01')

>>> hill = wn.synset('hill.n.01')

>>> hill.path_similarity(coast)

0.20000000000000001

>>> forest = wn.synset('forest.n.01')

>>> graveyard = wn.synset('graveyard.n.01')

>>> forest.path_similarity(graveyard)

0.071428571428571425

>>> shore = wn.synset('shore.n.01')

>>> woodland = wn.synset('woodland.n.01')

>>> shore.path_similarity(woodland)

0.20000000000000001

>>> slave = wn.synset('slave.n.01')

>>> monk.path_similarity(slave)

0.20000000000000001

>>> coast.path_similarity(forest)

0.090909090909090912

>>> lad = wn.synset('lad.n.01')

>>> wizard = wn.synset('wizard.n.01')

>>> lad.path_similarity(wizard)

0.20000000000000001

>>> chord = wn.synset('chord.n.01')

>>> smile = wn.synset('smile.n.01')

>>> chord.path_similarity(smile)

0.090909090909090912

>>> glass = wn.synset('glass.n.01')

>>> magician = wn.synset('magician.n.01')

>>> glass.path_similarity(magician)

0.1111111111111111

>>> voyage = wn.synset('voyage.n.01')

>>> rooster.path_similarity(voyage)

0.041666666666666664

>>> noon = wn.synset('noon.n.01')

>>> string = wn.synset('string.n.01')

>>> noon.path_similarity(string)

0.058823529411764705

>>>

Висновок:

на даній лабораторній роботі я ознайомилася з методами доступу та роботою з лексичним ресурсами, семантичним словником англійської мови WordNet, поняттями функції та модуля, словником з позначенням мови, лексичними зв’язками та оцінкою подібності WordNet.


 

А также другие работы, которые могут Вас заинтересовать

25506. Методы воспитания детей в семье 12.17 KB
  Они имеют свою специфику: влияние на ребенка индивидуальное основанное на конкретных поступках и приспособлениях к личности; выбор методов зависит от педагогической культурыродителей: понимания целей воспитания родительской роли представлений о ценностях стиля отношений в семье и т. Поэтому методы семейного воспитания несут на себе яркий отпечаток личности родителей и неотделимы от них. Сколько родителей – столько разновидностей методов.
25507. Многодетная семья 17.28 KB
  Воспитательный потенциал многодетной семьи имеет свои положительные и отрицательные характеристики а процесс социализации детей свои трудности проблемы.С одной стороны здесь как правило воспитываются разумные потребности и умение считаться с нуждами других; ни у кого из детей нет привилегированного положения а значит нет почвы для формирования эгоизма асоциальных черт; больше возможностей для общения заботы о младших усвоения нравственных и социальных норм и правил общежития; успешнее могут формироваться такие нравственные...
25508. Основные направления комплексной поддержки молодой семьи 15.66 KB
  В обоих случаях является повышение качества жизни семьи. В РФ не существует единого ведомства которая занималась бы исключительно проблемами молодой семьи.; Совершенствование налоговой политики в отношении членов молодых семей занятых трудовой деятельностью пктем установления налоговых льгот и соц выплат достаточных для удовлетворения основных потребностей молодой семьи; Обеспечение гос контроля за соблюдение законодательства в РФ в части защиты прав и интересов молодой семьи работающих члденов семьи не зависимо от формы собственности...
25509. Направления семейного воспитания (физическое, трудовое, нравственное, умственное, эстетическое) 14.12 KB
  Направление семейного воспитания Цель задачи содержание ЧТО воспитываем формируем Методы формы реализации КАК воспитываем формируем СредстваС ПОМОЩЬЮ ЧЕГО воспитываем формируем Физическое: Цели задачи  укрепление здоровья содействие физическому развитию и закаливанию детей;  совершенствование у детей умений и навыков в естественных видах движений;  привитие интереса и привычки к занятиям физической культуры и спорта. Методы: 1УГГутренняя гигиенич. Среда:  Физические упражнения  Оздоровительные силы природы  Гигиенические...
25510. Неполная семья 13.95 KB
  В больших семьях с их богатыми внутренними связями возможно перераспределение возникающих напряжений а в диадических мать ребенок отец ребенок любое событие может приобретать преувеличенное значение. Такая мать а иногда это может быть и отец очень болезненно воспринимает неизбежный кризис в своих взаимоотношениях с подростком когда первоначальный эмоциональный альянс разрушается. Это происходит в том случае если мать находится от него в сильной эмоциональной зависимости и начинает тяжело переживать его первые шаги в самостоятельной...
25511. Нормативно правовая основа реализации государственной политики в отношении молодых семей 18.2 KB
  В нашей стране отсутствует четкая и единая согласованная политика в отношении молодой семьи а попытки ее выстраивания носят случайный характер. Однако в рамках государственной молодежной политики статус молодой семьи более определен. В отдельном отделе отражены меры по государственной поддержке молодой семьи: Предусмотреть для молодых семей льготы в выделении земельных участков для индивидуального жилищного строительства при предоставлении долгосрочных кредитов на строительство и приобретение жилых домов отдельных квартир для уплаты...
25512. Конструкционные материалы, обрабатываемые давлением. Свойства материалов 200 KB
  Диаграмма фазового равновесия (диаграмма состояния) железо-углерод (иногда говорят железо-цементит) — графическое отображение фазового состояния сплавов железа с углеродом в зависимости от их химического состава и температуры.
25513. Особенности межличностной коммуникации в молодой семье 14.23 KB
  Межличностное общение в семье является ключевым моментом ее жизнедеятельности. Задачи коммуникации: естественный обмен информации согласование усилий выполнение ролей в совместной деятельности установление и развитие межличностных отношений познание партнёра и самопознание Особенностью межличностной коммуникации в семье является высокая эмоциональная насыщенность и интенсивность общения. В работах Петровской андреевой Сатир Роджерса Гордона и других выделены условия эффективного межличностного общения в семье: 1 открытость 2 высокая...