39041

Документальные информационные системы

Лекция

Информатика, кибернетика и программирование

Практика показывает что чаще всего информация представлена не в виде структурированных массивов данных а в виде простых текстовых документов. В отличие от ФИПС в результате проведения информационного поиска ДИПС выдает потребителю не конкретные сведения факты а совокупность документов смысловое содержание которых соответствует его запросу. Поэтому для автоматизации информационного поиска необходимо формализовать представление смыслового содержания информационного запроса и документов то есть перейти от их записи на естественном языке...

Русский

2013-09-30

237 KB

124 чел.

Темы 5 – 8.  Документальные информационные системы

Общая характеристика документальных ИС.

Практика показывает, что чаще всего информация представлена не в виде структурированных массивов данных, а в виде простых текстовых документов. Вследствие этого наряду с фактографическими ИС получил развитие отдельный класс информационно-поисковых систем, которые были названы документальными или полнотекстовыми. Вообще термин «информационно-поисковые системы» (ИПС) в настоящее время связывают именно с документальными ИС, хотя, как уже говорилось, следует разделять ДИПС и ФИПС.

В отличие от традиционных БД, ориентированных на полное и точное представление данных достаточно простой смысловой структуры, документальные ИС ориентированы на частичное (приближенное) представление данных, имеющих значительно более сложную смысловую структуру – то есть представленных в форме текста.

Основная функция любой ДИПС – информационное обеспечение потребителей путем выдачи ответов на их запросы. Операция выдачи требуемых данных реализуется через проведение информационного поиска. В отличие от ФИПС, в результате проведения информационного поиска ДИПС выдает потребителю не конкретные сведения (факты), а совокупность документов, смысловое содержание которых соответствует его запросу. Процедура информационного поиска в системе проводится на основе поступившего от потребителя запроса на отыскание необходимой ему информации. Причиной запроса является наличие у пользователя некоторой информационной потребности. Фактически, информационный запрос можно рассматривать как частное значение информационной потребности в определенный момент времени, выраженное на естественном языке. При этом следует помнить, что запрос может быть неправильно сформулирован потребителем и не отражать его истинной информационной потребности в момент обращения к системе. Следовательно, при проведении информационного поиска в системе рассматривается не информационная потребность пользователя, а только информационный запрос, в ответ на который и выдаются те или иные документы системы. Для выражения данных отношений в теории ДИПС введены два фундаментальных понятия:

Определение 1. Под пертинентностъю понимается соответствие смыслового содержания документа информационной потребности потребителя. Документы, содержание которых удовлетворяет информационной потребности, называются пертинентными.

Определение 2. Под релевантностью понимается соответствие содержания документа сформулированному информационному запросу потребителя. Документы, содержание которых отвечает запросу потребителя, называются релевантными.

Различают смысловую и формальную релевантность. Смысловая релевантность характеризует соответствие смыслового содержания документа запросу. Очевидно, что определить степень смысловой релевантности под силу только человеку (и то не всегда и не всякому). Поэтому для автоматизации информационного поиска необходимо формализовать  представление смыслового содержания информационного запроса и документов, то есть перейти от их записи на естественном языке – к записи на специальных, информационно-поисковых языках (ИПЯ). В результате этого для информационного запроса потребителя можно сформировать поисковый образ запроса (ПОЗ), а для каждого документа – поисковый образ документа. Таким образом, в процессе проведения информационного поиска в ДИПС определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД с ПОЗ и  по результатам этого сопоставления принимается решение о выдаче документа (он признается релевантным) или его невыдаче (он считается нерелевантным). В данном случае релевантность выражает смысловую близость запроса и документа с точки зрения некоторых формализованных признаков, поэтому такая релевантность получила название формальной релевантности. Правила, по которым определяется степень смысловой близости между ПОД и ПОЗ называются критерием смыслового соответствия (КСС). Поисковый образ запроса (ПОЗ) в совокупности с правилами КСС образуют поисковое предписание (ПП), выполняя которое документальная ИС выдает потребителю некоторую совокупность документов.

Рис. 7.1. Общий принцип работы ДИПС

Структура ДИПС

Общая функциональная структура документальных информационно-поисковых систем обычно включает в себя четыре основные подсистемы:

  •  Подсистема ввода и регистрации.
  •  Подсистема обработки.
  •  Подсистема хранения.
  •  Подсистема поиска.

Текстовые документы, поступающие на вход системы, могут быть представлены как в бумажном, так и в электронном виде (в одном из многочисленных форматов). Поэтому подсистема ввода и регистрации решает следующие основные задачи:

  •  создание электронных копий бумажных документов (например, сканирование с последующим распознаванием текста или ввод с клавиатуры);
  •  обеспечение подключения к каналам доставки электронных документов;
  •  распознавание, а при необходимости и преобразование формата электронных документов;
  •  присвоение электронным документам уникальных идентификаторов (регистрация), а также ведение таблицы синхронизации имен (при необходимости сохранения прежних имен).

Все поступающие документы без внесения в них каких-либо изменений направляются в подсистему хранения для сохранения в базе документов. База документов может представлять собой простую совокупность файлов, распределенную по каталогам жесткого диска. Однако недостатками такого способа хранения, во-первых, является неэффективное использование  дискового пространства, а, во-вторых, низкая скорость доступа при большом количестве файлов. Поэтому для хранения документов применяют средства сжатия и быстрого поиска информации. В этом случае подсистема хранения представляет собой совокупность стандартных или специализированных средств архивации, СУБД и т.п., обеспечивающих возможность доступа к данным по предъявляемому идентификатору.

Рис. 7.2. Общая структура ДИПС

Далее документы поступают на вход подсистемы обработки, задачей которой является формирование для каждого документа ПОД, в который заносится информация, необходимая для последующего поиска документа. Поисковые образы документов сохраняются в индексе – специальной таблице, строки которой соответствуют документам, а столбцы –  информационным признакам, на основе которых строится ПОД. В ячейках таблицы могут храниться либо 1, либо 0, в зависимости от наличия или отсутствия данного признака в данном документе. Поскольку такая таблица является сильно разреженной, то хранить все ее значения не имеет смысла, поэтому на практике использую специальные форматы хранения таких таблиц, в том числе с использованием специальных средств СУБД.

При поступлении на вход системы запроса пользователя он преобразуется в поисковое предписание (ПП) и передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПОЗ с точки зрения КСС. Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.

Информационно-поисковые языки

На сегодняшний день не вызывает сомнений тот факт, что естественные языки (ЕЯ) нельзя использовать в качестве основного средства представления информации во время цикла функционирования ДИПС. Можно выделить следующие недостатки ЕЯ, препятствующие этому:

  •  Многообразие средств передачи смысла (не только лексика, но и контекст, парадигматические и текстуальные отношения между словами, ссылки на текст, встречавшийся ранее);
  •  Семантическая неоднозначность (синонимия отдельных слов и словосочетаний);
  •  Многозначность (полисемия, то есть совпадение названий различных предметов, имеющих между собой какие-либо общие свойства или признаки – например команда как экипаж судна и команда в футболе; омонимия, то есть совпадение названий различных предметов, не имеющих между собой общих свойств – например, лук репчатый и лук Амазонки; омография – совпадение написания слов при различном звучании, например дверной замок и средневековый замок);
  •  Эллипсность (пропуски подразумеваемых слов).

Невозможность использования ЕЯ в качестве основного средства представления информации в ДИПС приводит к необходимости применения искусственных языковых средств.

Определение 3. Информационно-поисковым языком (ИПЯ) называется специализированный искусственный язык, предназначенный для описания основного смыслового содержания поступающих в систему сообщений, с целью обеспечения возможности последующего их поиска.

Особенности ИПЯ:

  •  Создается на базе ЕЯ;
  •  Наличие четких грамматических правил;
  •  Отсутствие семантической неоднозначности;
  •  Компактность.

ИПЯ принято разбивать на два основных типа:

  •  Классификационные языки,
  •  Дескрипторные языки.

Классификационные ИПЯ служат для индексирования документов и информационных запросов посредством понятий и кодов некоторой выбранной классификационной системы. Лексика таких языков включает в себя не только отдельные слова, но и словосочетания и фразы для обозначения более сложных понятий. Для записи смыслового содержания сообщений в классификационных ИПЯ используются только элементы из заранее подготовленного словаря, который в совокупности с правилами употребления слов и набором кодов образует классификационную систему ИПЯ. Любая, сколь угодно сложная синтаксическая конструкция, построенная с помощью классификационного языка, представляет собой упорядоченный набор лексических единиц, например:

Законодательство

Законодательство.Гражданское

Законодательство.Гражданское.Вещные права

Законодательство.Гражданское.Вещные права.Право собственности

Законодательство.Уголовное

При помощи классификационных языков можно производить классификацию документов, то есть отнесение их к классам, обозначенным лексическими единицами (ЛЕ) этого языка. Поскольку сложные понятия задаются заранее, до начала процедуры записи сообщений с помощью ИПЯ, образующие их слова также заранее связаны (скоординированы) определенными связями. Поэтому такие языки носят название предкоординируемых.

В дескрипторных ИПЯ лексические единицы заранее не связаны никакими текстуальными отношениями. Сложные синтаксические конструкции (фразы и предложения)

создаются в этих языках путем объединения (координации) ЛЕ при построении поисковых образов документов системы. Это означает, что из сравнительно небольшого числа ЛЕ данные языки позволяют строить предложения любой сложности, выражающие практически любой смысл. Дескрипторные ИПЯ также носят название посткоординируемых, поскольку координация между словами предложения возникает во время его записи, после формирования лексики языка.

Основой любого дескрипторного языка является словарь, основу которого составляет множество ключевых слов, используемых для описания содержания документа. Некоторые из них могут быть специально выделены как рекомендованные для занесения в индекс и использования в ПОД или ПОЗ. Такие ключевые слова носят название дескрипторов языка  (все остальные ключевые слова иногда называют аскрипторами). Кроме того, на множестве ключевых слов в дескрипторном языке обычно задаются отношения, позволяющие выделить для каждого дескриптора группу слов, имеющих сходное (синонимичное) по смыслу значение. Эти отношения получили название парадигматических отношений лексических единиц. Таким образом, каждое ключевое слово в рассматриваемом словаре является либо дескриптором, либо синонимом некоторого дескриптора. При формировании поискового образа документа или запроса вместо аскрипторов в поисковый образ запроса или документа всегда записывается соответствующие им дескрипторы, что позволяет отбирать при поиске все документы, содержание которых описано одинаковыми по смыслу, но различными по написанию словами. Кроме дескрипторов и  аскрипторов в словарь ИПЯ также могут входить так называемые стоп-слова, которые являются «запрещенными» для анализа, то есть не могут записываться в ПОД или ПОЗ. К ним обычно относят служебные слова языка (предлоги, союзы, местоимения и проч.), а также слова, имеющие слишком неопределенное значение.

 Определение 4. Словарь дескрипторного информационно-поискового языка с зафиксированными в нем парадигматическими отношениями лексических единиц называется информационно-поисковым тезаурусом (ИПТ).

Следует помнить, что различают дескрипторные ИПЯ с контролируемой и со свободной лексикой. Лексический состав первых строго ограничен и зафиксирован в словаре ИПЯ, в то время как на лексический состав вторых не налагается никаких ограничений, и он может постоянно пополняться за счет включения новых лексических единиц. Очевидно, что ИПЯ с контролируемой лексикой используются а ДИПС, хранящих информацию относительно некоторой определенной области знаний, в то время как ИПЯ со свободной лексикой являются универсальными и позволяют вести полнотекстовый поиск по документам с любым содержанием.

Кроме того, выделяют дескрипторные ИПЯ с грамматикой и без грамматики. В первых имеются жесткие правила формирования синтаксических конструкций. Например, при использовании дескрипторного ИПЯ с позиционной грамматикой, в котором при описании действий принято на первом месте записывать наименование действия, далее субъекта, а затем объекта этого действия, фраза: «Иванов владеет автомобилем» может выглядеть так: «владеть Иванов автомобиль». В дескрипторных ИПЯ без грамматики такие правила отсутствуют, и порядок следования ЛЕ в ПОД или ПОЗ не играет роли. Приведенный пример может быть одинаково представлен последовательностями «владеть Иванов автомобиль», «Иванов владеть автомобиль» и т.п.

На сегодняшний день наиболее распространены дескрипторные языки без грамматики с неконтролируемым словарем (свободной лексикой).

Важнейшей функцией подсистемы ввода ДИПС является перевод текстов входных документов с естественного языка на информационно-поисковый. Если в системе используется ИПЯ дескрипторного типа, то такая операция называется индексированием, а при использовании классификационных ИПЯ – классификацией или рубрицированием.

В операции перевода можно выделить два этапа:

  1.  Анализ смыслового содержания текста с целью выделения из него сведений об известных системе объектах, их свойствах, а также отношениях между ними. На данном этапе проводят как лингвистический, так и экстралингвистический анализ текста. Лингвистический анализ включает в себя морфологический (выделение основ слов и приведение словоформ к каноническому виду) и синтаксический анализ (устранение неоднозначностей, грамматический разбор предложения) и проводится с целью получения терминов – понятий, которые используются в данном тексте. Экстралингвистические знания определяются предметной областью, к которой относится данный документ, поэтому универсальной формализации для них не существует. Эти знания используются для формирования информационно-поискового тезауруса.
  2.  Выражение этих сведений на ИПЯ, то есть принятие решения о приписывании данному сообщению выражений на ИПЯ (или иными словами о включении соответствующих выражений на ИПЯ в ПОД).

Основные методы классификации

Первоначальные подходы к классификации документов основывались на формировании списка предметных заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно-цифровой код. Содержание (тематика) документа индексировалось перечислением кодов тех рубрик, которые отражали предметы документа. Такие подходы получили название перечислительной классификации.

Особенностью систем перечислительной классификации является возможность индексирования документов любым количеством предметов (рубрик), отражающих содержание документа. Для осуществления поиска необходимых документов по классификатору (каталогу) определяются коды интересующих абонента предметов (рубрик) и далее отбираются из хранилища те документы, которые проиндексированы соответствующими кодами.

Перечислительная классификация иллюстрируется рис.7.3.

Наименование предметной рубрики

Код

Картотека

Вещные права

001

Гражданское право

002

Договорное право

003

Документ № 1 003,004,005,012

Договор аренды

004

Договор аренды транспортного средства

005

Договор дарения

006

Лица

007

Обязательственное право

008

Основы гражданского законодательства

009

Право собственности

010

Документ № 2 007,013,014

Сервитуты

011

Сроки

012

Физические лица

013

Юридические лица

014

Рис. 7.3. Пример перечислительной классификации

 

В приведенном на рис.7.3 примере некоторый документ № 1 проиндексирован кодами 003 («Договорное право»), 004 («Договор аренды»), 005 («Договор аренды транспортного средства») и 012 («Сроки»). Документ № 2 проиндексирован кодами 007 («Лица»), 013 («Физические лица») и 014 («Юридические лица»).

Достоинства метода: простота, достаточная эффективность (особенно в эпоху ручных ИС).

Недостаток метода: Отсутствие систематизированных связей и отношений между предметными рубриками. Так, в приведенном примере рубрика «Юридические лица» является подчиненной рубрикой рубрики «Лица» и интуитивно ясно, что если документ получил код 014, то тем самым он автоматически относится и к более широкой рубрике с кодом 007.

Для преодоления этого недостатка в списке рубрик документальных ИС нередко используют перекрестные ссылки, которые вводятся через конструкцию «см. также». В этом случае в классификаторе вместе с рубрикой «Лица» помещается следующая конструкция:

«см. также: 013 Юридические лица

                  014 Физические лица»

Перекрестные ссылки ориентируют пользователя на смысловую связь некоторых рубрик, позволяя более адекватно строить выражение своих информационных потребностей.

При систематизированной (иерархической) классификации список предметных рубрик строится в виде множества деревьев. Вся предметная область разбивается на несколько рубрик (обычно не пересекающихся), каждая из которых может включать несколько подрубрик. Рубрики и подрубрики должны быть связаны между собой отношением «Род-Вид», «Часть-целое» или «Класс-представитель». Таким образом, при систематизированной классификации используются уже семантические основы предметной области, выражаемые в указанных выше отношениях между категориями, понятиями или классами.

Представление иерархической классификации производится либо в виде древовидного графа (рис.7.4), либо в табличном виде (рис.7.5).

Рис. 7.4. Графическая форма представления иерархической классификации

Рис. 7.5. Табличная форма  представления иерархической классификации

Так же, как и при перечислительной классификации, содержание документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании более общих рубрик, к которым относятся отмеченные подрубрики. В результате индексирование и поиск документов на основе иерархической классификации позволяют более адекватно отражать содержание документов и обеспечивают большую точность поиска. Так, документ № 2 из предыдущего примера на основе иерархической классификации может быть проиндексирован только рубриками «Физические лица» и «Юридические лица», обозначение каждой из которых означает автоматическое отнесение содержания документа и к более широкой рубрике «Лица».

Перечислительный и иерархический подходы к классификации впоследствии воплотились в широко используемых в библиотечной практике алфавитно-предметных каталогах, наиболее распространенным из которых в настоящее время является универсальная десятичная классификация (УДК). В ее основе лежит классификационная схема М. Дьюи, дополненная правилами образования сложных рубрик, а также специальными определителями, служащими для более детального описания документов (определители формы и характера документа, определители времени и т.д.). При этом систематизированная классификация позволяет строить сам каталог (картотеку документов) в структурно-иерархическом виде, что существенно упрощает выражение пользователем своих информационных потребностей, и, тем самым, ускоряет и повышает точность поиска.

Согласно УДК весь универсум знаний делится на 10 больших тематических полей (главных классов):

0 Общие вопросы науки и информационной деятельности

1 Философия, логика, психология

2 Религия, богословие

3 Общественно-экономические науки

4 (Свободный резервный класс)

5 Естественные и точные науки

6 Прикладные области знания (включая медицину, технику и сельское хозяйство)

7 Искусство, развлечения, спорт

8 Язык и литература

9 История и география.

Каждый класс в свою очередь делится на 10 (или менее) подклассов. Подклассы делятся дальше и дальше до любого необходимого уровня подробности. Обычны, например, классы девятого уровня деления, отражающие важные прикладные проблемы – квантовую электронику, защиту техники от коррозии и тому подобное.

Каждое деление обозначается десятичной цифрой, а цифры последовательных делений соединяются в одном индексе, где первая цифра обозначает номер деления на главные классы, вторая – номер подкласса первого уровня, третья – подкласс второго уровня, и так далее. Для облегчения зрительного восприятия индекса через каждые три цифры ставится точка.

Пример. Тема «Нарушения налогового законодательства» имеет индекс УДК 336.225.682, где мы можем видеть следующую последовательность делений, постепенно уточняющих нашу тему:

3 – первая цифра индекса обозначает – общественно-экономические науки

33 – Экономические науки

336 – Финансы. Банковское дело. Деньги и денежное обращение

336.2 – Налоги, платежи, отчисления и сборы

336.22 – Налоги и сборы

336.225 – Методы налогообложения и налоговая администрация

336.225.6 – Механизм налогообложения

336.225.68 – Нарушения налогового законодательства и регулирования

336.225.682 – Нарушения налогового законодательства.

Полная расшифровка всех индексов УДК занимает 10 томов средней величины (по 30 авторских листов, что составляет около 200 страниц). Современным пользователям информацию по классификатору УДК можно получить из сети Интернет (например, по адресу: http://teacode.com/online/udc/)

Кроме тематической характеристики УДК позволяет отразить в индексе некоторые дополнительные особенности документа или его содержания. Для этого в индекс добавляют определители этих особенностей, обозначенные специальными символами:

= – язык документа (=111 английский, =161.1 русский)

(=      ) – народ, к которому относится содержание документа: (=111) англоязычное население, (=161.1) русскоязычное население

(0        ) – форма, назначение документа (закон, учебник, справочник, работа по истории предмета или что-либо другое в этом духе)

({4..9}…) – страна, к которой относится содержание документа: (4) Европа, (470) Россия в целом, (5) Азия, (571) Сибирь и Дальний Восток России

«           » - время, к которому относится содержание документа: «2005» нынешний год, «20» двадцать первый век, «19» двадцатый век

-0 – свойство основного предмета документа

.0, -1/9, ‘1/9 – специальные определители, значение которых раскрывается в таблицах применительно к каждому конкретному разделу.

Кроме того, допускается комбинировать разные классы для указания на документы, имеющие отношения к различным отраслям знания. Так что конкретный индекс УДК может иметь весьма сложную структуру.

Например:

[343.95+340.53](470)(091)=111 – работа по истории судебной психиатрии и судебной медицине России на английском языке,

где    343.95 – судебная медицина;

         340.53 – судебная психиатрия;

(470) – Россия;

(091) – история предмета;

=111 – английский язык.

Таким образом, характеристика документа индексом УДК читается и составляется действительно как языковое высказывание, в котором отдельные смысловые элементы (слова) при помощи вспомогательных знаков (препинания) по определённым правилам соединяются в единое целое, и число таких целых высказываний потенциально не ограничено.

Недостатком как перечислительной, так и иерархической классификации является принципиальная невозможность заранее перечислить все темы, по которым существуют или могут существовать документы. Выход из таких ситуаций путем добавления к классификатору новых рубрик (классов, предметов) не может эффективно решить проблему, так как требует в таких случаях переиндексирования всего ранее накопленного документального фонда, что чаще всего невозможно по техническим и технологическим причинам.

Интересная методика классификации, которая частично позволяет снять указанное ограничение, была предложена выдающимся индийским библиографом и математиком Ш. Р. Ранганатаном и впоследствии развита в работах английской группы по исследованию классификаций (Classification Research Group). Эта методика получила название фасетной классификации. 

Идея фасетной классификации состоит в том, что вся предметная область сведений разбивается на ряд исходных групп рубрик (фасет) по организационно-технологическому или семантическому принципу, отражающему специфику предметной области. Фасеты выступают в роли «кирпичиков», из которых можно сложить (сконструировать) любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу. Примером может являться классификация фильмов, для которой обычно предлагаются следующие фасеты:

  •  Тип  анимация, документальный, игровой;
  •  Жанр боевик, комедия, романтика, фантастика;
  •  Продолжительность;
  •  Год;
  •  Страна;
  •  Режиссер;
  •  Другие параметры: немой/звуковой, цветной/чёрно-белый и т. п.

Основное достоинство фасетной классификации заключается в возможности ограниченным небольшим перечнем фасетных рубрик отразить (сконструировать) огромное количество узких специализированных рубрик и, тем самым, наиболее точно и полно проиндексировать содержание документов. Сильной стороной является также более глубокое, чем при иерархической классификации, использование семантики предметной области. Рядом исследователей предлагались универсальные фасетные классификации, на основе которых можно построить описание практически для любой предметной области. Например: «Индивидуальность», «Материя», «Энергия», «Пространство» и «Время» (Ш. Р. Ранганатан) или  «Предмет в целом», «Вид», «Часть», «Материал», «Свойство», «Процессы», «Операции», «Факторы» (Д. Миллз). При этом в отличие от перечислительной и иерархической классификации для разработки фасетной классификации предметной области сведений конкретной ИПС используются те же методологические подходы, что и при разработке информационно-логических схем предметных областей фактографических систем (выделение основных фрагментов-сущностей, анализ отношений между ними и т. д.).

Недостатком фасетной классификации при ее использовании в ручных информационных системах является зависимость эффективности поиска документов от порядка следования обозначений фасетных рубрик. Психологические особенности ручного поиска таковы, что пользователь в первую очередь сосредоточивает внимание на обозначениях тех подрубрик, которые стоят первыми в цепочке, и если интересующие его в первую очередь сведения отражаются рубрикой, стоящей не на первом месте, то он может «с ходу» отвергнуть всю формулу. Для преодоления этого недостатка используется так называемая пермутация, при которой для документа приводится список всех возможных вариантов написания сконструированной фасетной формулы на основе циклической перестановки. Однако такой подход не всегда полностью решает проблему, так как комбинаций по перестановкам может быть очень много, что, в свою очередь, утяжеляет и усложняет поиск. Другим подходом является, напротив, жесткая регламентация порядка изложения фасет, что в определенной степени ориентирует первоначальное внимание пользователя на тех фасетах, информация по которым интересует его в большей степени.

Очевидно, развитие информационных технологий не могло не повлечь за собой попытки создать такие методы классификации документов, которые бы полностью или хотя бы частично освободили человека от этой работы. В современных автоматизированных системах процедуры рубрицирования выполняются частично вручную (интеллектуально), а частично автоматически с помощью специально разрабатываемого программного обеспечения. Обычно выделяют два основных подхода к автоматизации рубрицирования:

  •  Методы рубрицирования, основанные на знаниях.  В системах, реализующих данный подход, используются заранее сформированные базы знаний, в которых описываются языковые выражения, соответствующие той или иной рубрике, а также правила выбора между рубриками. Процесс создания подобных систем часто сравнивают с созданием экспертных систем для диагностики и классификации. Наибольшее распространение среди данных методов получили две модели представления знаний: модель семантической сети и продукционная модель.
  •  Методы рубрицирования, основанные на обучении по примерам. В системах, реализующих данный подход, машинное обучение производится на основе примеров текстов, которые были заранее отрубрицированы экспертом вручную. Здесь следует обратить внимание на статистические и нейросетевые методы рубрицирования. Идея статистического рубрицирования состоит в определении степени соответствия терминологического портрета документа и терминологического портрета рубрик на основе статистических характеристик субъектов сравнения. Основой нейросетевых методов является использование нейронной сети в качестве обучаемого классификатора. В результате обучения нейронная сеть позволяет оценить, с какой степенью релевантности любой новый текст относится к заданной рубрики.

Следует отметить, что современные автоматизированные  ДИПС, в которых реализованы методы автоматического или полуавтоматического рубрицирования, работают, как правило, не с традиционными классификационными системами, а с ИПЯ дескрипторного типа. В этом случае классификация проводится при помощи координатного индексирования,  которое позволяет классифицировать каждый документ не по одному направлению, а одновременно с нескольких сторон, описывая его как набор терминов (дескрипторов), включенных в тезаурус языка.

Методы автоматического индексирования

Цель автоматического индексирования – составить по тексту исходного документа фразу на ИПЯ и при необходимости включить ее в поисковый образ документа. Фраза на информационно-поисковом языке может быть простой (однословной) или составной (многословной). Для генерации фраз для ИПЯ со свободной лексикой используются как методы синтаксического анализа исходного текста документа, так и различные эвристические алгоритмы.

Например, можно рассмотреть такой несложный алгоритм:

Будем считать, что фразы на ИПЯ состоят из нескольких слов, из которых одно является основой, а остальные могут ее дополнять. На первом шаге выделяется множество основ, то есть те слова, частота вхождения которых в тексты документов больше некоторого порогового значения df  (обычно df > 2). На втором шаге реализуется один из методов кластеризации (группирования) терминов, который позволяет в двумерном массиве «термины-документы» выделить те группы терминов, которые одновременно входят в несколько документов. Если в найденной группе терминов хотя бы один является основой и расстояние между ними в тексте удовлетворяет некоторому условию, то такая группа рассматривается как единый сложный термин и образует составную фразу на языке ИПЯ.

Если проблема индексирования ставится для множества документов, относящихся только к определенной области знаний, то множество основ фраз может формироваться на базе заранее заданного тезауруса языка. После приведения лексических  единиц текста документа к канонической форме, они сопоставляются с тезаурусом языка и выбираются только те словоформы, которые включены в ИПТ.  При этом последующая кластеризация терминов может проводиться или не проводиться.

Поскольку основная задача индексирования – обеспечить выдачу релевантных запросу пользователя документов, то при индексировании и формировании ПОД хотелось бы иметь какую-либо количественную оценку вхождения простого или составного термина-фразы в каждый конкретный документ. По этой причине современные методы автоматического индексирования почти всегда присваивают терминам весовые коэффициенты, вычисленные на основе различных статистических характеристик.

Предположим, что имеется совокупность из N документов. Пусть – это частота вхождения терминав документ . Индексирование на основе частоты термина позволяет выделить из массива документов все те, в которых упоминается данный термин, что обеспечивает полноту поиска.  Рассмотрим теперь величину – число документов, в которые входит термин. Очевидно, что . Тогда . Величина может использоваться для повышения точности поиска. Если ее значение близко к 1, то термин  встречается в большинстве документов, следовательно, он не может являться определяющим при описании документа. Наоборот, если значение этой величины близко к 0, то соответствующий термин в других документах встречается редко и обязательно должен войти в поисковый образ.

Частоту термина и полученную выше величину можно объединить в рамках единой модели индексирования по частоте (обозначает вес термина  в документе ):

Указанная модель получила название TFxIDF (Term Frequency × Inverse Document Frequency).

Еще один статистический метод индексирования основывается на дискриминации по термину. Здесь каждый документ рассматривается как точка в пространстве документов. Чем больше сходства у поисковых образов двух документов, тем ближе расположены соответствующие точки друг к другу (то есть, повышается плотность точек в пространстве документов), и наоборот. В рамках данной схемы можно оценивать качество термина как дискриминатора документа, основываясь на том, какие изменения произойдут в пространстве документов после введения термина в индекс. Для количественной оценки такого изменения удобно использовать увеличение или уменьшение расстояния между документами. Термин является хорошим дискриминатором, если его добавление к ПОД увеличивает среднее расстояние между документами (снижает плотность в пространстве документов). Дискриминирующая характеристика термина , обозначаемая как , вычисляется как разность между плотностями пространства документов до и после введения в индекс термина  (способы задания метрики в пространстве документов довольно сложны, поэтому мы не будем подробно на них останавливаться). Оказалось, что часто встречающиеся термины имеют отрицательные значения дискриминирующих характеристик, термины со средней частотой –  положительные, а для редко встречающихся терминов эти значения близки к нулю. Для совместного учета частоты термина и его дискриминирующей характеристики применяют схему взвешивания, основанную на выражении:

Полученные значения весов терминов могут использоваться в процессе принятия решения о включении каждого из терминов в ПОД. Однако чаще всего операцию принятия решения не используют, и в ПОД заносятся все термины, встретившиеся в документе, и их веса.

Поисковый аппарат ДИПС

Модель поиска текстовой информации характеризуется четырьмя параметрами:

  •  Представлением документов и запросов;
  •  Критерием смыслового соответствия;
  •  Методами ранжирования результатов запроса;
  •  Механизмами обратной связи, обеспечивающими оценку релевантности пользователем.

Обычно рассматривают следующие модели представления документов и запросов:

  •  Булева модель;
  •  Модель нечетких множеств;
  •  Пространственно-векторная модель;
  •  Вероятностно-статистическая модель.

Булева модель представляет документы с помощью набора терминов, присутствующих в индексе, каждый из которых рассматривается как булева переменная. При наличии термина в

документе соответствующая переменная принимает значение True. Присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций: AND, OR или NOT. Мерой соответствия запроса документу служит значение статуса выборки (RSV, retrieval status value). В булевой модели RSV равно либо 1, если для данного документа вычисление выражения запроса дает True, либо 0 в противном случае. Все документы с RSV = 1 считаются релевантными запросу.

 Достоинства модели: простота, невысокая стоимость (применяется во многих коммерческих системах), возможность задавать в запросах выражения произвольной сложности, невысокие требования к вычислительным и иным ресурсам ЭВМ при индексировании и поиске.

 Недостатки модели: низкая эффективность поиска, невозможность ранжировать результаты, неадекватность результатов, невозможно получить количественную меру релевантности по такой модели.

Модель нечетких множеств основывается на теории нечетких множеств, опускающей (в отличие от обычной теории множеств) частичную принадлежность элемента тому или иному множеству. Здесь логические операции переопределены таким образом, чтобы учесть возможность неполной принадлежности множеству, а обработка запросов пользователя выполняется аналогично булевой модели.

Достоинства и недостатки: см. Булева модель.

Пространственно-векторная модель основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом, из L нормализованных векторов терминов. Значение первого компонента вектора представляющего документ отражает вес термина в нем. Запрос пользователя также представляется L-мерным вектором z. Показатель RSV, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа:

Чем больше RSV, тем выше релевантность документа запросу.

Достоинства модели: Дает количественное выражение для релевантности, проста и наглядна в использовании.

Недостатки модели: Спецификация запросов, в отличие от булевой модели, потеряла выразительность и простоту; нечувствительность к степени соответствия отсутствующих словоформ в ПОД и ПОЗ.

Интуитивно понятно, что чем ближе содержание документа и запроса, тем меньше в документе должно быть словоформ (терминов), которых нет в запросе. Если, к примеру, в словаре системы всего 6 элементов и имеется два документа D1 (1,1,0,1,0,0) и D2 (1,1,1,1,1,1), то для запроса Z(1,1,0,00,0) значение RSV для обоих документов будет равно 2 (33%), хотя интуитивно понятно, что более близким по содержанию является первый документ, а второй документ, скорее всего, затрагивает более широкую тематику, не обязательно интересующую пользователя Такой чувствительностью обладает показатель релевантности, определяемый следующим образом:

,

где   дополнение к элементами w , и z. Если вернуться к предыдущему примеру с документами D1 (1,1,0,1,0,0) и D2 (1,1,1,1,1,1) и запросом Z(1,1,0,00,0),  то RSV для первого документа будет равным 5 (83%), а для второго документа 2 (33%).

Более сложным подходом к определению мер близости ПОД и ПОЗ является учет разной значимости терминов и их зависимости друг от друга. В пространственно-векторной модели это означает отход от ортогональности и ортонормированности базисных векторов поискового пространства. В этом случае скалярное произведение векторов ПОД и ПОЗ более гибко и осмысленно отражает близость соответствующих векторов и, тем самым, смысловое содержание документов и запросов. В простейшем варианте подобного расширения пространственно-векторной модели к весам терминов добавляется дополнительная компонента, отвечающая за важность термина для конкретной предметной области.

Идея вероятностных моделей заключается в том, что вероятность вхождения терминов запроса в релевантные и нерелевантные документы существенно различается. Если удастся найти способ подсчета вероятностей вхождения термина в релевантные и нерелевантные части совокупности документов, то для любого документа можно будет вычислить вероятность того, что он будет релевантным (или нерелевантным). К сожалению простых методов подсчета упомянутых вероятностей  не существует. Тем не менее, вероятностные модели играют важную роль, объясняя процесс поиска и предлагая теоретическое обоснование методов, которые ранее применялись лишь эмпирически.

Основным методом ранжирования результатов запроса в настоящее время является ранжирование по релевантности, которое возможно только в тех случаях, когда возможно получить количественную оценку соответствия запроса содержанию документа. Это означает, что ранжирование по релевантности нельзя, например, провести при использовании булевой модели представления запросов и документов. Развитые ДИПС включают возможность ранжирования результатов запроса и по иным критериям: по дате поступления документа, по индексу цитируемости и т.п.

Методы введения обратной связи с пользователем

В данной теме мы ограничимся лишь рассмотрением некоторых показателей эффективности ДИПС.

В результате обработки запроса пользователь получает некоторое множество документов, среди которых могут быть как релевантные, так и нерелевантные. Кроме того, в той части массива документов, которая не была выдана пользователю, также могут присутствовать как нерелевантные, так и релевантные документы. Исходя из этого, весь массив документов можно разбить по отношению к запросу на 4 подмассива:

Выданные

Невыданные

Релевантные

A

C

Нерелевантные

B

D

А – массив выданных релевантных документов;

В – массив выданных нерелевантных документов;

С – массив невиданных релевантных документов;

D – массив невиданных нерелевантных документов.

Введем следующие обозначения:

a – количество выданных релевантных документов;

b – количество выданных нерелевантных документов;

c – количество невиданных релевантных документов;

d – количество невыданных нерелевантных документов.

Существуют следующие показатели эффективности ДИПС:

Название

Формула

Описание

Полнота

Характеризует долю выданных релевантных документов во всем массиве релевантных документов

Точность

Характеризует долю выданных релевантных документов во всем массиве выданных документов

К-т шума

Характеризует долю выданных нерелевантных документов во всем массиве выданных документов

К-т осадка

Характеризует долю выданных нерелевантных документов во всем массиве нерелевантных документов

К-т специфичности

Характеризует долю невыданных нерелевантных документов во всем массиве нерелевантных документов

Часто для удобства перечисленные показатели измеряют в %.  При оценке качества реальных систем чаще всего используются коэффициенты полноты и точности. Идеальной является ситуация, когда полнота и точность составляют 100%, однако на практике этого добиться не удается. Более того, оказывается, что улучшение показателей по одному критерию, ведет к ухудшению показателей по другому.

Наряду с перечисленными показателями, которые основаны на сопряженности релевантности и выдачи, целесообразно использовать также и другие показатели эффективности:

  •  Быстродействие ДИПС (интервал времени между моментом формулировки запроса и получением ответа на него);
  •  Пропускная способность (оценивается количеством вводимых документов и количеством ответов в единицу времени при заданных значениях коэффициентов полноты и точности);
  •  Производительность (оценивается количеством пользователей системы и частотой обращения с их стороны);
  •  Надежность работы (оценивается вероятностью того, что система будет выполнять свои функции при заданных условиях в течение требуемого времени);
  •  Тип запросов, обслуживаемых системой.


Запрос
N

Запрос 1

ПОЗ N

ПОЗ 1

ОД  N

ПОД 1

Поисковое пространство

Документ N

Документ 1

2.2.1.3

2.2.1.2.

2.2.1.1

1.

1.1

1.1.1

1.1.2

1.1.2.1

1.1.2.2

1.1.3

2.

2.1

2.2

2.2.1

2.2.1.1

2.2.1.2

2.2.1.3

2..2.2

б)

Подсистема ввода и регистрации

Подсистема

обработки

Документы

Запросы

Словарь

Индекс

ПОД

Подсистема

поиска

КСС

ПОЗ

ПП

Подсистема

хранения

База

документов

Результат запроса

2.2.2

2.2.1

1.1.2.2

1.1.2.1

1.1.3

1.1.2

1.1.1

2.2

2.1

1.2

1.1

2

1

Предметная область сведений


 

А также другие работы, которые могут Вас заинтересовать

61628. Рисуем и измеряем. Продолжаем знакомство 31 KB
  Найдите там задание обозначенное галочкой. Физминутка А теперь берём наши книжки и открываем страницу 46 смотрим на первое задание. На доске буду вывешены фигуры которые нарисованы в книжке эти же фигурки будут у каждого ребёнка на парте...
61630. Умножение многозначного числа на однозначное 18.44 KB
  Цель: учить находить способы определения значений произведений, в которых один множитель – однозначное число, а второй – многозначное.
61631. Умножение однозначного числа на десяток и сотню 19.79 KB
  Момент Проверка домашнего задания Ребята давайте вспомним что мы проходили на прошлом уроке кто мне скажет что было Блиц-опрос Для счета предметов применяются числа натуральные Любое трехзначное число больше меньше двухзначного.
61632. Деление суммы на число 16.71 KB
  На сколько больше орехов он отдал сестре чем оставил себе Задание 6 устно Прочитайте задание. Оба способа решения дали одинаковые результаты Чем отличается решение Можно ли решениями поставить знак равно Правило Чтобы разделить сумму на число...
61633. Проценты 21.83 KB
  Узнайте массу бобра в кг Какие геометрические фигуры вы здесь видите Используя результаты вычислений ответьте на вопросы: правило умножения на 01 правило деления на 100 25 кг ц Какую часть от ц составляет кг 2.
61634. Вычитание в пределах 20 с переходом. Случаи (11-6-15-6-11-5-14-5) 20.03 KB
  Проверка домашнего задания.2 Выполнение задания на доске. Сперва пока они шли по тропинке на краю Дремучего Леса оба молчали; но когда они дошли до речки и стали помогать друг другу перебираться по камушкам им пришлось решить еще два задания.
61636. Музыкальные инструменты 28.51 KB
  Задачи урока: Образовательные: Научить ребят эмоционально осознанно целостно образно воспринимать выразительные возможности особенности тембровой окраски фортепиано: мир счастливого детства в интонациях темах и образах детских пьес...