4707

Вивчення основ програмування на мові Python. Регулярні вирази для обробки текстів

Лабораторная работа

Информатика, кибернетика и программирование

Вивчення основ програмування на мові Python. Використання регулярних виразів для обробки текстів Короткі теоретичні відомості Синтаксис регулярних висловів залежить від інтерпретатора, що використовується для їх обробки. Пошук слів із за...

Украинкский

2012-11-25

256.5 KB

14 чел.

  •  Вивчення основ програмування на мові Python.
  •  Використання регулярних виразів для обробки текстів

Короткі теоретичні відомості

Синтаксис регулярних висловів залежить від інтерпретатора, що використовується для їх обробки. Пошук слів із закінченням ed можна здійснити використовуючи регулярний вираз «ed$». Потрібно використати функцію re.search(p, s), яка перевіряє чи може зразок p бути знайдений у будь-якому місці стрічки s. Потрібно визначити символи, які шукаємо та використати символ долара , який в регулярних виразах позначає кінець слова:

Символ ”.” універсальний символ , якому відповідає будь-який один символ. Нехай потрібно знайти слова з восьми літер, де  j – третя літера та t – шоста літера. При створенні регулярного виразу у місцях де може бути будь-який символ вказується крапка. Символ ”^” вказує на початок стрічки:

Символ “ ? “ вказує на те що попередній символ не є обовязковим. Вираз «^e-?mail$» відповідає двом стрічкам email та e-mail. Можна знайти загальну кількість таких стрічок (врахувавши різні способи їх запису) у будь-якому тексті скориставшись sum(1 for w in text if re.search('^e-?mail$', w)).

Вираз re.search(regexp, w) дозволяє знаходити слова  w , які відповідають регулярному виразу regexp . Регулярні вирази також можна використовувати для виявлення фрагментів слів, або для модифікації слів різними способами.

Метод re.findall() ("знайти всеl") дозволяє знайти всі відповідності даному регулярному виразу. В наступному прикладі показано знаходження та підрахунок всіх голосних:

Тут, re.findall() знаходить тільки суфікс, хоча регулярний вираз відповідає всьому слову. Це сталося тому, що круглі дужки задають не тільки область дії оператора диз’юнкції але і виконують функцію вибору підстрічки яку  потрібно вилучити. Коли потрібно в регулярному виразі використовувати круглі дужки для вказання області дії оператор,а але не потрібно здійснювати вилучення в регулярний вираз потрібно додати ?: , .

Спеціальний тип регулярних виразів може використовуватися  для пошуку серед слів у тексті (текст – послідовність окремих слів). Наприклад, за допомогою виразу "<a> <man>" можна знайти всі випадки вживання  a man в тексті. Кутові дужки використовуються для позначення меж і всі пробіли мід цими дужками ігноруються (індивідуальна особливість  NLTK's findall() методу для тексту). В наступному прикладі включено  <.*> #1 для виявлення всіх окремих слів, а круглі дужки дозволять вибрати ці слова окремо від словосполучень ( a monied man). Інший приклад дозволяє знайти всі словосполучення з трьох слів де останнє слово  bro #2.

Хід роботи

  1.  Описати, які класи стрічок відповідають наступному регулярному виразу. [a-zA-Z]+. Результати перевірити використовуючи nltk.re_show()

              import nltk, re, pprint 

             f = open('Corpus.txt')

raw = f.read()

            nltk.re_show('[a-zA-Z]+', raw) 

шукаємо всі слова, які складаються з малих та великих літер англійського алфавіту

Слова, в яких є повторення будь-якої літери один або більше разів.

  1.  Описати, які класи стрічок відповідають наступному регулярному виразу. [A-Z][a-z]*. Результати перевірити використовуючи   nltk.re_show()

import nltk, re, pprint

f = open('Corpus.txt')

raw = f.read()

nltk.re_show('[a-zA-Z]*', raw)

шукаємо послідовності символів, що починаються з великої літери англійського алфавіту

  1.  Описати, які класи стрічок відповідають наступному регулярному виразу. \d+(\.\d+)?. Результати перевірити використовуючи nltk.re_show()

import nltk, re, pprint

f = open('Corpus.txt')

raw = f.read()

nltk.re_show('\d+(\.\d+)?', raw)

шукаємо послідовності символів, що складаються з цифр, які пвторюються з 1 і більше разів; (\.\d+)? – послідовність цифр після крапки не є обов’язковою

  1.  Описати, які класи стрічок відповідають наступному регулярному виразу. ([^aeiou][aeiou][^aeiou])*. Результати перевірити використовуючи nltk.re_show()

import nltk, re, pprint

f = open('Corpus.txt')

raw = f.read()

nltk.re_show('([^aeiou][aeiou][^aeiou])*', raw)

шукаємо послідовності символів, що складаються з трьох символів, перший і третій з яких не є голосною, а другий – будь-яка голосна з набору [aeiou] і зустрічаються 0 і більше разів. Якщо послідовність не знайдено – виводиться {}

  1.  Описати, які класи стрічок відповідають наступному регулярному виразу. \w+|[^\w\s]+.. Результати перевірити використовуючи nltk.re_show()

import nltk, re, pprint

f = open('Corpus.txt')

raw = f.read()

nltk.re_show('\w+|[^\w\s]+.', raw)

шукаємо послідовності, що складаються з літер чи цифр, які повторюються 1 і більше разів

  1.  Описати, які класи стрічок відповідають наступному регулярному виразу. p[aeiou]{,2}t  Результати перевірити використовуючи nltk.re_show()

import nltk, re, pprint

f = open('Corpus.txt')

raw = f.read()

nltk.re_show('p[aeiou]{,2}t', raw)

шукаємо стрічки, які складаються з букви “p”, жодної, одної або двох голосних з набору і літери “t”.

  1.  Написати регулярний вираз, який встановлює відповідність наступному класу стрічок: всі артиклі (a, an, the).

import nltk, re

words = sorted(set(nltk.corpus.nps_chat.words()))

rez = [w for w in words if re.search('^(an?|the)$', w)]

print rez

['a', 'an', 'the']

  1.  Написати регулярний вираз, який встановлює відповідність наступному класу стрічок:арифметичний вираз з цілими значеннями і, який містить операції множення та додавання (2*3+8).

import nltk, re

f = open('Corpus.txt')

raw = f.read()

print 'TEXT:'

print

print raw

print 'RESULT:'

print re.findall(r"\d+[+|*]\d+[+|*]\d+", raw)

  1.  Зберегти довільний текст у файлі corpus.txt. Визначити функцію  для читання з цього файлу (назва файлу аргумент функції) і повертає стрічку, яка містить текст з файлу. Використовуючи nltk.regexp_tokenize() розробити токенізатор для токенізації різних типів пунктуації в цьому тексті. Використовувати багаторядковий запис регулярного виразу з коментарями та «verbose flag» 

import nltk,re

def MyLoad(fl,text):

   sl=''

   for line in fl:

       ls = line.strip()

       if text in ls:

           sl=ls

   print sl

f = open('Corpus.txt')

MyLoad(f,'and')

f = open('Corpus.txt')

raw = f.read()

print 'TEXT:'

print raw

print 'TOKENIZED TEXT'

     pattern = r'''(?x)    # set flag to allow verbose regexps

    ([A-Z]\.)+        # abbreviations, e.g. U.S.A.

  | \w+(-\w+)*        # words with optional internal hyphens

  | \$?\d+(\.\d+)?%?  # currency and percentages, e.g. $12.40, 82%

  | \.\.\.            # ellipsis

  | [][.,;"'?():-_`]  # these are separate tokens

'''

print nltk.regexp_tokenize(raw, pattern)

  1.  Написати функцію unknown(), яка приймає інтернет адресу як аргумент і повертає невідомі слова, які зустрічаються в тексті. При розробці функції використовувати re.findall() для виявлення всіх підстрічок та корпус Words Corpus (nltk.corpus.words) для виявлення не відомих слів.

import nltk, re

def unknown(text):

   wordlist = [w for w in nltk.corpus.words.words('en')]

   f = open(text)

   raw = f.read()

   print 'TEXT:'

   print raw

   print 'WORDS OF THE TEXT:'

   new_text = re.findall(r"[A-Za-z]+", raw)

   print new_text

   print

   print 'UNKNOWN WORDS:'

   for w in new_text:

       if w not in wordlist:

           print w

text='Corpus.txt'

unknown(text)

           

15. Прочитати Додаток А. Дослідити явища описані у Додатку А використовуючи корпуси текстів та метод findall()для пошуку в токенізованому тексті.

ВИСНОВКИ

   Під час виконання даної лабораторної роботи я вивчила основи програмування на мові Python, а також навчилась використовувати регулярні вирази для опрацювання текстів.


 

А также другие работы, которые могут Вас заинтересовать

67143. Полисемия. Понятие моно- и полисемии 179 KB
  Изменение лексического значения Типы переноса наименования. Метонимия Расширение и сужение лексического значения Улучшение и ухудшение лексического значения Типы метафор и метонимий по закрепленности в системе языка и степени образности Развитие семантической структуры слова в разных языках...
67144. ПОЛІТИЧНА СИСТЕМА СУСПІЛЬСТВА 93.5 KB
  Сутність структура і функції політичної системи. Поняття політичної системи Сучасні суспільства являють собою складні системні утворення що складаються з декількох органічно пов'язаних між собою підсистем: економічної політичної культурної правової етнічної та ін.
67145. МЕХАНИЗМ ПЕРЕДАЧИ ИНФОРМАЦИИ В СИНАПСАХ 100.5 KB
  Возникшие там возбуждающие постсинаптические потенциалы ВПСП пассивно распространяются к аксонному холмику при этом амплитуда этих локальных потенциалов уменьшается пропорционально расстоянию. И если даже максимальная величина ВПСП в контактной зоне не превышает 1 мВ то в триггерной зоне обнаруживается...
67146. Фонетическое членение речевого потока 60.8 KB
  Вокалические и консонантные системы – это проявление парадигматических отношений между звуковыми единицами. Посмотрим на звуковые единицы с точки зрения синтагматической фонетики (фонотактики). С фонетической точки зрения речь представляет собой поток звуков, который может быть расчленен на линейные, или сегментные единицы.
67147. Язык и речь. Речевая деятельность 110.5 KB
  Различение языка и речи было намечено выдающимся немецким теоретиком языкознания Вильгельмом фон Гумбольдтом (1767–1835). Позже, в отечественном языкознании эту мысль развивал Иван Александрович Бодуэн де Куртенэ (1845–1929). Более детально и последовательно идею о противопоставлении языка и речи разработал...
67148. ДИАГРАММЫ СОСТОЯНИЯ СПЛАВОВ. ПРАВИЛО ФАЗ 35.5 KB
  В сплавах: фазами могут быть чистые металлы жидкие или твердые растворы химические соединения. Число степеней свободы Степень свободы определяется числом независимых переменных например температура концентрация сплава давление которые можно изменять в определенных пределах не нарушая равновесия.
67149. Споживчий ринок товарів. Товарні ресурси 27.87 KB
  Поняття товарних ресурсів класифікація джерела їх створення Баланс ресурсів товарів народного споживання їх роль у прогнозуванні та плануванні внутрішнього ринку товарів народного споживання. За рахунок товарної продукції промисловості сільського господарства а також імпорту товарів формуються товарні ресурси держави.
67150. Геоинформатика и геоинформационные системы 88.5 KB
  Геоинформационная система (ГИС) это система направленная на хранение исходных данных и (или) решение задач связанных с получением конечных данных необходимых для пользователя данной системы.
67151. Последовательностные ИМС 324 KB
  Если выходные сигналы логических элементов и комбинационных микросхем однозначно определяются их текущими входными сигналами то выходные сигналы микросхем с внутренней памятью зависят также еще и от того какие входные сигналы и в какой последовательности поступали...