4707

Вивчення основ програмування на мові Python. Регулярні вирази для обробки текстів

Лабораторная работа

Информатика, кибернетика и программирование

Вивчення основ програмування на мові Python. Використання регулярних виразів для обробки текстів Короткі теоретичні відомості Синтаксис регулярних висловів залежить від інтерпретатора, що використовується для їх обробки. Пошук слів із за...

Украинкский

2012-11-25

256.5 KB

14 чел.

  •  Вивчення основ програмування на мові Python.
  •  Використання регулярних виразів для обробки текстів

Короткі теоретичні відомості

Синтаксис регулярних висловів залежить від інтерпретатора, що використовується для їх обробки. Пошук слів із закінченням ed можна здійснити використовуючи регулярний вираз «ed$». Потрібно використати функцію re.search(p, s), яка перевіряє чи може зразок p бути знайдений у будь-якому місці стрічки s. Потрібно визначити символи, які шукаємо та використати символ долара , який в регулярних виразах позначає кінець слова:

Символ ”.” універсальний символ , якому відповідає будь-який один символ. Нехай потрібно знайти слова з восьми літер, де  j – третя літера та t – шоста літера. При створенні регулярного виразу у місцях де може бути будь-який символ вказується крапка. Символ ”^” вказує на початок стрічки:

Символ “ ? “ вказує на те що попередній символ не є обовязковим. Вираз «^e-?mail$» відповідає двом стрічкам email та e-mail. Можна знайти загальну кількість таких стрічок (врахувавши різні способи їх запису) у будь-якому тексті скориставшись sum(1 for w in text if re.search('^e-?mail$', w)).

Вираз re.search(regexp, w) дозволяє знаходити слова  w , які відповідають регулярному виразу regexp . Регулярні вирази також можна використовувати для виявлення фрагментів слів, або для модифікації слів різними способами.

Метод re.findall() ("знайти всеl") дозволяє знайти всі відповідності даному регулярному виразу. В наступному прикладі показано знаходження та підрахунок всіх голосних:

Тут, re.findall() знаходить тільки суфікс, хоча регулярний вираз відповідає всьому слову. Це сталося тому, що круглі дужки задають не тільки область дії оператора диз’юнкції але і виконують функцію вибору підстрічки яку  потрібно вилучити. Коли потрібно в регулярному виразі використовувати круглі дужки для вказання області дії оператор,а але не потрібно здійснювати вилучення в регулярний вираз потрібно додати ?: , .

Спеціальний тип регулярних виразів може використовуватися  для пошуку серед слів у тексті (текст – послідовність окремих слів). Наприклад, за допомогою виразу "<a> <man>" можна знайти всі випадки вживання  a man в тексті. Кутові дужки використовуються для позначення меж і всі пробіли мід цими дужками ігноруються (індивідуальна особливість  NLTK's findall() методу для тексту). В наступному прикладі включено  <.*> #1 для виявлення всіх окремих слів, а круглі дужки дозволять вибрати ці слова окремо від словосполучень ( a monied man). Інший приклад дозволяє знайти всі словосполучення з трьох слів де останнє слово  bro #2.

Хід роботи

  1.  Описати, які класи стрічок відповідають наступному регулярному виразу. [a-zA-Z]+. Результати перевірити використовуючи nltk.re_show()

              import nltk, re, pprint 

             f = open('Corpus.txt')

raw = f.read()

            nltk.re_show('[a-zA-Z]+', raw) 

шукаємо всі слова, які складаються з малих та великих літер англійського алфавіту

Слова, в яких є повторення будь-якої літери один або більше разів.

  1.  Описати, які класи стрічок відповідають наступному регулярному виразу. [A-Z][a-z]*. Результати перевірити використовуючи   nltk.re_show()

import nltk, re, pprint

f = open('Corpus.txt')

raw = f.read()

nltk.re_show('[a-zA-Z]*', raw)

шукаємо послідовності символів, що починаються з великої літери англійського алфавіту

  1.  Описати, які класи стрічок відповідають наступному регулярному виразу. \d+(\.\d+)?. Результати перевірити використовуючи nltk.re_show()

import nltk, re, pprint

f = open('Corpus.txt')

raw = f.read()

nltk.re_show('\d+(\.\d+)?', raw)

шукаємо послідовності символів, що складаються з цифр, які пвторюються з 1 і більше разів; (\.\d+)? – послідовність цифр після крапки не є обов’язковою

  1.  Описати, які класи стрічок відповідають наступному регулярному виразу. ([^aeiou][aeiou][^aeiou])*. Результати перевірити використовуючи nltk.re_show()

import nltk, re, pprint

f = open('Corpus.txt')

raw = f.read()

nltk.re_show('([^aeiou][aeiou][^aeiou])*', raw)

шукаємо послідовності символів, що складаються з трьох символів, перший і третій з яких не є голосною, а другий – будь-яка голосна з набору [aeiou] і зустрічаються 0 і більше разів. Якщо послідовність не знайдено – виводиться {}

  1.  Описати, які класи стрічок відповідають наступному регулярному виразу. \w+|[^\w\s]+.. Результати перевірити використовуючи nltk.re_show()

import nltk, re, pprint

f = open('Corpus.txt')

raw = f.read()

nltk.re_show('\w+|[^\w\s]+.', raw)

шукаємо послідовності, що складаються з літер чи цифр, які повторюються 1 і більше разів

  1.  Описати, які класи стрічок відповідають наступному регулярному виразу. p[aeiou]{,2}t  Результати перевірити використовуючи nltk.re_show()

import nltk, re, pprint

f = open('Corpus.txt')

raw = f.read()

nltk.re_show('p[aeiou]{,2}t', raw)

шукаємо стрічки, які складаються з букви “p”, жодної, одної або двох голосних з набору і літери “t”.

  1.  Написати регулярний вираз, який встановлює відповідність наступному класу стрічок: всі артиклі (a, an, the).

import nltk, re

words = sorted(set(nltk.corpus.nps_chat.words()))

rez = [w for w in words if re.search('^(an?|the)$', w)]

print rez

['a', 'an', 'the']

  1.  Написати регулярний вираз, який встановлює відповідність наступному класу стрічок:арифметичний вираз з цілими значеннями і, який містить операції множення та додавання (2*3+8).

import nltk, re

f = open('Corpus.txt')

raw = f.read()

print 'TEXT:'

print

print raw

print 'RESULT:'

print re.findall(r"\d+[+|*]\d+[+|*]\d+", raw)

  1.  Зберегти довільний текст у файлі corpus.txt. Визначити функцію  для читання з цього файлу (назва файлу аргумент функції) і повертає стрічку, яка містить текст з файлу. Використовуючи nltk.regexp_tokenize() розробити токенізатор для токенізації різних типів пунктуації в цьому тексті. Використовувати багаторядковий запис регулярного виразу з коментарями та «verbose flag» 

import nltk,re

def MyLoad(fl,text):

   sl=''

   for line in fl:

       ls = line.strip()

       if text in ls:

           sl=ls

   print sl

f = open('Corpus.txt')

MyLoad(f,'and')

f = open('Corpus.txt')

raw = f.read()

print 'TEXT:'

print raw

print 'TOKENIZED TEXT'

     pattern = r'''(?x)    # set flag to allow verbose regexps

    ([A-Z]\.)+        # abbreviations, e.g. U.S.A.

  | \w+(-\w+)*        # words with optional internal hyphens

  | \$?\d+(\.\d+)?%?  # currency and percentages, e.g. $12.40, 82%

  | \.\.\.            # ellipsis

  | [][.,;"'?():-_`]  # these are separate tokens

'''

print nltk.regexp_tokenize(raw, pattern)

  1.  Написати функцію unknown(), яка приймає інтернет адресу як аргумент і повертає невідомі слова, які зустрічаються в тексті. При розробці функції використовувати re.findall() для виявлення всіх підстрічок та корпус Words Corpus (nltk.corpus.words) для виявлення не відомих слів.

import nltk, re

def unknown(text):

   wordlist = [w for w in nltk.corpus.words.words('en')]

   f = open(text)

   raw = f.read()

   print 'TEXT:'

   print raw

   print 'WORDS OF THE TEXT:'

   new_text = re.findall(r"[A-Za-z]+", raw)

   print new_text

   print

   print 'UNKNOWN WORDS:'

   for w in new_text:

       if w not in wordlist:

           print w

text='Corpus.txt'

unknown(text)

           

15. Прочитати Додаток А. Дослідити явища описані у Додатку А використовуючи корпуси текстів та метод findall()для пошуку в токенізованому тексті.

ВИСНОВКИ

   Під час виконання даної лабораторної роботи я вивчила основи програмування на мові Python, а також навчилась використовувати регулярні вирази для опрацювання текстів.


 

А также другие работы, которые могут Вас заинтересовать

64776. Отримання порожнистих деталей із змінною товщиною стінки на базі використання способів радіально-прямого видавлювання 336.5 KB
  Для виготовлення розповсюджених в промисловості порожнистих вісесиметричних деталей із змінною товщиною стінки використовуються способи поздовжнього зворотного та прямого видавлювання витягування локальної обробки та процеси штампування...
64777. МУЗИКА Й ЖИВОПИС У ТВОРЧОСТІ О. КОБИЛЯНСЬКОЇ ТА Я. ІВАШКЕВИЧА: СИНКРЕТИЗМ ХУДОЖНЬОЇ ОБРАЗНОСТІ 162.5 KB
  Сучасність виводить синкретизм на рівень одного з основних понять філософії та культури, що зумовлено зростаючою роллю інтеграційних процесів та явищ у контексті глобалізації всього культурного життя суспільства, яке перетворює навколишній світ.
64778. ПЕДАГОГІЧНІ УМОВИ ФОРМУВАННЯ ПРОЕКТНО-ОБРАЗНОГО МИСЛЕННЯ МАЙБУТНІХ ДИЗАЙНЕРІВ У ВИЩОМУ НАВЧАЛЬНОМУ ЗАКЛАДІ 223 KB
  Сучасний етап розвитку українського суспільства ознаменувався значними трансформаціями в соціальноекономічній політичній культурній та освітній сферах що привели до переосмислення ролі дизайну як особливої діяльності яка завдяки естетичності екологічності технічності...
64779. Поліпшення паливно-економічних та екологічних показників автомобіля на основі оптимізації параметрів системи запалювання 820.26 KB
  Адаптивна настройка систем управління двигуном під конкретний режим руху автомобіля а також перерозподіл пріоритетів між ефективними показниками автомобіля залежно від умов його експлуатації є важливим експлуатаційним резервом економії палива й підвищення екологічної безпеки.
64780. ОПТИМІЗАЦІЯ ЕЛЕМЕНТІВ ТЕХНОЛОГІЇ ВИРОЩУВАННЯ СОЇ ТА КУКУРУДЗИ У ПІВДЕННО-ЗАХІДНІЙ ЧАСТИНІ СТЕПУ УКРАЇНИ 243.5 KB
  В ринкових умовах основою ефективного господарювання є інтенсивні технології вирощування сільськогосподарських культур, які базуються на використанні високопродуктивних сортів та раціональному використанні факторів життя.
64781. ФОРМУВАННЯ КОНКУРЕНТОСПРОМОЖНОСТІ ПІДПРИЄМСТВ ХЛІБОПЕКАРСЬКОЇ ГАЛУЗІ 632 KB
  З іншої сторони забезпечення конкурентоспроможності галузі та конкретних виробників хлібопекарської продукції в умовах жорсткої конкуренції є складним практичним і науковим завданням яке потребує багатоаспектного підходу із застосуванням системної теорії наукового управління.
64782. ТЕОРЕТИЧНІ ЗАСАДИ ФОРМУВАННЯ ФІНАНСОВОГО МЕХАНІЗМУ РЕСТРУКТУРИЗАЦІЇ ПІДПРИЄМСТВ ХАРЧОВОЇ ПРОМИСЛОВОСТІ 229 KB
  Процеси реорганізаційних дій зокрема і фінансової реструктуризації вимагають глибокого наукового обґрунтування. Більшість соціально-економічних індикаторів показують що в Україні реалізовано неефективний варіант реструктуризації який наклав відбиток на процес трансформації власності.
64783. ДОСЛІДНИЦЬКЕ ОБЛАДНАННЯ ДЛЯ КОМПЛЕКСНОЇ ОБРОБКИ ХАРЧОВИХ ПРОДУКТІВ ВИСОКИМ ТИСКОМ І УЛЬТРАЗВУКОМ 213.5 KB
  Світова сучасна практика збереження та поліпшення якості продуктів виробила принципово нову технологію обробки харчових продуктів шляхом використання високого тиску ВТ. У багатьох країнах Західної Європи США Японії розроблені технології обробки продуктів що знайшло відображення в наукових роботах...
64784. ВЕТЕРИНАРНО-САНІТАРНІ ЗАХОДИ ЩОДО ПРОФІЛАКТИКИ БАКТЕРІАЛЬНИХ ХВОРОБ СТРАУСІВ 417.5 KB
  Особливого розвитку набуває досить нова на Україні галузь страусівництво В. Зосередження на обмеженій території різновікових груп страусів неминуче веде до накопичення умовнопатогенної мікрофлори яка згодом стає стаціонарною й обумовлює хвороби бактеріальної етіології...