75857

Корпусна лінгвістика: проблемна галузь та корпус даних. Види корпусних текстів. Принципи розмітки текстів у лінгвістичних корпусах

Доклад

Иностранные языки, филология и лингвистика

Целесообразность создания текстовых корпусов объясняется: представлением лингвистических данных в реальном контексте; достаточно большой представительностью данных при большом объёме корпуса; возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач. Корпусная лингвистика занимается разработкой общих принципов построения и использования лингвистических корпусов данных с использованием компьютерных технологий. Она использует три приема: автоматическое извлечение сведений о языке из...

Украинкский

2015-01-26

34.09 KB

4 чел.

18, 38. Корпусна лінгвістика: проблемна галузь та корпус даних. Види корпусних текстів. Принципи розмітки текстів у лінгвістичних корпусах.

Корпусная лингвистика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому начиная с 80-х способствовало развитие вычислительной техники.

Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

Целесообразность создания текстовых корпусов объясняется:

  1.  представлением лингвистических данных в реальном контексте;
  2.  достаточно большой представительностью данных (при большом объёме корпуса);
  3.  возможностью многократного использования единожды созданного корпуса для решения различных лингвистических задач.

Корпусная лингвистика занимается разработкой общих принципов построения и использования лингвистических корпусов данных с использованием компьютерных технологий. Она использует три приема: – автоматическое извлечение сведений о языке из корпусов; – обработка информации; – проверка и интерпретация обработанных данных. Первые две ступени полностью алгоритмизированы, третья является спорной.

По мнению В.В. Рыкова, главной целью корпусной лингвистики являются: – лингвистическое описание языковой системы (подход от конкретного изучения коммуникации людей), – особый способ отражения речевого материала в корпусе текстов, который может использоваться в свою очередь другими лингвистическими дисциплинами.

Проблемная область. Под проблемной областью понимается область реализаций языковой системы, содержащая феномены, подлежащие лингвистическому описанию. Проблемная область для конкретного корпуса данных может быть сколь угодно велика или мала — все определяется выбранным объектом анализа. Существенно иметь в виду, что в идеале проблемная область имеет два измерения — языковое и речевое. Речевое представлено речевыми высказываниями (реализациями), а языковое измерение проявляется в существовании потенциальной возможности появления других употреблений, дополняющих массив имеющихся реализаций. Как правило, в корпусной лингвистике языковой аспект фактически игнорируется, поскольку изначально фиксируется область привлекаемых данных — реализаций языковой системы. Это совершенно естественно, поскольку вряд ли возможно зафиксировать, собрать «потенцию», «возможность». Однако для регулярно изменяемых корпусов данных языковой аспект проблемной области сразу «вылезает» при разработке принципов модификации корпуса. Кроме того, для лингвистического исследования (кроме специально оговариваемых случаев) в центре внимания стоит именно языковое измерение, поскольку его следует реконструировать в результате анализа.

С чисто практической точки зрения проблемная область чаще всего предстает перед разработчиком корпуса как множество данных, обработка которых затруднена из-за того, что языковых реализаций слишком много.

Корпус данных. Корпус данных представляет собой сформированную по определенным правилам выборку данных из проблемной области. Тем самым корпус данных представляет собой результат отображения из проблемной области. В отличие от проблемной области, корпус данных имеет только одно измерение — речевое, поскольку сам по себе он не обладает потенцией производства своих составляющих.

Корпус текстов. Корпус текстов — это вид корпуса данных, единицами которого являются тексты или их достаточно значительные фрагменты, включающие, например, какие-то полные фрагменты макроструктуры текстов данной проблемной области.

В зависимости от поставленной цели выделяют несколько типов корпусов текстов: 1. по форме хранения: – в звуковой форме; – письменные; – смешанные; 2. по языку представления текстов: – одноязычные; – многоязычные; 3. по жанровой принадлежности: – литературные; – диалектные; – разговорные; – публицистические; – смешанные; 4. по способам доступа: – свободно доступные; – коммерческие; – закрытые; 5. по назначению: – исследовательские; – иллюстративные; 6. по динамичности: – динамические (мониторные); – статические; 7. по наличию дополнительной информации: – аннотированные (размеченные); – неразмеченные. 

Принципи розмітки текстів у лінгвістичних корпусах.

Типы корпусной разметки

Для выполнения многих перечисленных выше задач мало лишь наличие корпуса как такового. Требуется также, чтобы текст содержал в себе явным образом разного рода лингвистическую информацию. Так в корпусной лингвистике возникла идея размеченного корпуса.

Лингвистическая разметка подразумевает присвоение словам особых кодов. Каждому коду соответствует определенный набор грамматических признаков, характеризующих данное слово. Коды также известны как тэги (от англ. tag – ярлык, метка), а сам процесс приписывания словам тэгов соответственно имеет название тэггинг (от англ. tagging).

В настоящее время не существует общепризнанных стандартов представления лингвистической и других видов информации в текстах. Специальный международный проект Text Encoding Initiative (TEI) предназначен для того, чтобы разработать стандартизированные средства разметки. Для этого применяется уже общепризнанный международный язык разметки документов SGML или его подмножество XML. Типы разметки, которые может содержать корпус, можно условно подразделить на лингвистические и внешне лингвистические.

К внешне лингвистическим относятся:

- разметка, отражающая особенности форматирования текста (заголовки, абзацы, отступы и т.д.);

- разметка, касающаяся сведений об авторе и тексте. Причем сведения об авторе могут включать не только его имя, но также и возраст, пол, годы жизни и многое другое, а сведения о тексте обычно содержат, кроме названия, еще и язык, на котором он написан, год и место издания и т.д.

Среди лингвистических типов разметки выделяются:

  1.  Морфологическая– частеречная разметка, в действительности она включает не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи. Это основной тип разметки в текстах, он рассматривается как основа для дальнейших этапов анализа – синтаксического и семантического.
  2.  Синтаксическая. Является результатом синтаксического анализа или парсинга (от англ. parsing). Чаще всего в его основе лежит грамматика структур непосредственно составляющих. На синтаксическом уровне, как и на морфологическом, проявляется тенденция к меньшей детализации схем грамматической разметки в целях увеличения скорости и последовательности анализа текста.
  3.  Семантическая - для ее представления используют код, состоящий из букв и цифр или только цифр, в котором первая буква или цифра обозначает общую семантическую категорию, в которую входит данное слово, а последующие символы – более узкие подкатегории, специализирующие его значение.
  4.  Анафорическая. Призвана правильно определялась референцию местоимений-заместителей.
  5.  Просодическая. В корпусах затранскрибированной звучащей речи применяются метки, описывающие ударение и интонацию. Просодической часто сопутствует так называемая дискурсная разметка, которая служит для обозначения пауз хезитации, повторов, оговорок и т. д.

Проблема разметки

К первичной разметке текстов относятся этапы, обязательные для каждого корпуса:

  1.   токенизация (разбиение на орфографические слова)
  2.  лемматизация (приведение словоформ к словарной форме)
  3.  морфологический анализ 

Токенизация – это когда в тексте выделяются слова, числа, и другие токены. Например, нахождение границ предложений.

Лемматиза́ция — процесс привода словоформы к лемме — её нормальной (словарной) форме.

Морфологический анализ - определение морфологических характеристик слова.


 

А также другие работы, которые могут Вас заинтересовать

24441. Преобразование Фурье и его основные свойства 157.5 KB
  Большинство ОМЭВМ представляет собой Гарвардскую архитектуру хранение программных кодов и данных происходит в раздельных областях памяти. Объем ОЗУ памяти даны меньше объема ПЗУ память программ. При выполнении прмы процессор осуществляет выбоку из памяти команд данных и запись результатов при этом он адресуется к ячейкам памяти по их номерам. Ячейки памяти имеют свой номер адрес памяти а совокупность адресов памяти состовляют адресное пространство.
24442. Преобразование Лапласа, Представление дискретной информации и способы ее отображения 93.5 KB
  Система команд однокристальной ЭВМ и способы адресации операндов Команда процессора код определяющий действие устройства при выполнении заданных операций фций. Способ адресации способ указания положения данных над которыми производятся операция адресация операндов либо способ определения точки перехода в командах передачи управления адресация переходов. При формировании команды один и тот же код операции может использоваться при различных способах адресации Пример на системе команд MCS51. Элементы в квадратных скобках могут...
24443. Параллельный и последовательный порты ЭВМ. Теорема Котельникова 279 KB
  Последовательный порт может работать в 4х режимах: В режиме 0 информация передается и принимается через ввод приемника RxD. В режиме 1 информация передается через выход передатчика TxD и принимается через вход приемника RxD В режиме 2 информация передается через выход передатTxD принимается через вход приемника RxD. Частота приема и передачи в режиме 2 задается программно и может быть равна fBQ 32 или fno 64. Режим 3 полностью идентичен режиму 2 за исключением параметров частоты приема и передачи которые в режиме 3 задаются Т С 1.
24444. Энтропия источника информации 179 KB
  Энтропия источника информации. Источник информации можно представить в виде случайной величины X принимающей одно из конечного числа возможных значений {1 2 ј m} с вероятностью pi pi вероятность того что X = i.Теорема Шеннона Если имеется источник информации с энтропией Нх и канал связи с пропускной способностью С то если С HX то всегда можно закодировать достаточно длинное сообщение таким образом что оно будет передано без задержек. Если же напротив С HX то передача информации без задержек невозможна.
24445. Технология сжатия информационных данных (Алгоритмы Шеннона-Фано, Хаффмана) 182 KB
  Выполнив выше сказанное для всех символов получим: C = 00 2 бита A = 0100 4 бита D = 0101 4 бита F = 011 3 бита B = 10 2 бита E = 11 2 бита Каждый символ изначально представлялся 8ю битами один байт и так как мы уменьшили число битов необходимых для представления каждого символа мы следовательно уменьшили размер выходного файла. Из этих комбинаций лишь 2 по длиннее равны 8 битам. Поэтому для дискретного управления в реальном масштабе времени наличие в системе команд операций...
24446. Цепи Маркова. Стационарное распределение вероятностей цепи Маркова 101.5 KB
  Марковские процессы это процессы которые в будущем и прошлом при фиксированном настоящем являются независимыми. Рассмотрим некоторый вероятностный процесс . Пространство X называют пространством состояний а его элементы называются состоянием процесса. Считаем что пространство состояний X состоит из неотрицательных целых чисел из этого следует что процесс дискретный.
24447. Цепь Маркова с непрерывным временем 240 KB
  Простейшая операция сложения используется в АЛУ для инкрементирования содержимого регистров продвижения регистрауказателя данных и автоматического вычисления следующего адреса РПП. В АЛУ выполняется 51 различная операция пересылки или преобразования этих данных. Так как используется 11 режимов адресации 7 для данных и 4 для адресов то путем комбинирования операция режим адресации базовое число команд 111 расширяется до 255 из 256 возможных при однобайтном коде операции. Память программ и память данных размещенные на кристалле МК5...
24448. Сущность метода статистических испытаний 193.5 KB
  Формат команды во многом определяется способом адресации операнда находящего в оперативной памяти длиной используемого непосредственного операнда а также наличием и длиной смещения используемого при относительных режимах адресации. Непосредственная адресация предполагает что операнд занимает одно из полей команды и следовательно выбирается из оперативной памяти одновременно с ней. Прямая адресация предполагает что эффективный адрес является частью команды. Так как ЭА состоит из 16 разрядов то и соответствующее поле команды должно...
24449. Пуассоновский процесс 218.5 KB
  б операционное устройство как преобразователь дискретной информации. Запоминающим устройством накопителем называется устройство предназначенное для хранения множества элементов информации и снабжённое средствами селекции обеспечивающего запись и или чтение заданного элемента информации. Устройством вводавывода называется устройство предназначенное для чтения информации с носителя и или записи информации на носитель путём преобразования электрических сигналов в сигналы иной физической природы т. передача информации из одной среды в...