19278

Назначение документальных ИС. Особенности представления и использо-вания документальной информации

Лекция

Информатика, кибернетика и программирование

Лекция 10. Назначение документальных ИС. Особенности представления и использования документальной информации. Типология документальных БД. Типология поисковых задач и режимы обслуживания. Основные процессы обработки и хранения документальной информации. 10.1. Наз...

Русский

2013-07-11

244.3 KB

8 чел.

Лекция 10.

Назначение документальных ИС. Особенности представления и использования документальной информации. Типология документальных БД.

Типология поисковых задач и режимы обслуживания. Основные процессы обработки и хранения документальной информации.

10.1. Назначение документальных ИС

Целью информационного поиска в большинстве случаев является отыскание документов, содержащих сведения, нужные для решения конкретных управленческих, научных или практических задач, в том числе генерации нового знания. При этом характер информации, способ ее представления может быть самым разным –от объявлений о продаже товаров до интерактивных научных конференций, от технического описания, пригодного для непосредственного применения, до не формализуемой в явном виде совокупности фактов, приводящих к творческому озарению или принятию неординарного решения.

Обычно объектом информационного поиска является предметное содержание –данные, методы, инструкции и т.д., позволяющие решить или построить решение конкретной задачи ОД. При этом наиболее распространенной коммуникативной формой представления содержания является документ. Документ по своему статусу соответствует «завершенности» процесса ОД: излагаются, так или иначе, проверенные решения, обоснованные подходы, некоторым образом принятые гипотезы. Однако, в некоторых случаях, когда исследование не завершено, или мы не знаем об этом, будет «естественным» обратиться к «источнику» - индивидуальному или коллективному автору, генерирующему новое знание.

В традиционном цикле информационного обмена основной поток документальной информации идет по цепочке автор–издательство–библиотека–читатель, однако существуют и обходные пути, например: автор–читатель; издательство–читатель (подписка).

Процесс решения любой научной или практической задачи, где, так или иначе, возникает или используется информация, в общем случае включает следующие этапы.

1. Поиск сообщений. Создатель нового знания (потенциальный генератор информации) обращается к информационным ресурсам для получения информации, которая может быть использована им, например, в качестве концептуальной основы, экспериментальных, вспомогательных или опровергаемых данных и т. д. По отношению к среде он будет выступать в качестве потребителя информации, а информационная среда будет источником сообщений. При этом сообщения могут быть получены либо в виде услуги информационных систем, обеспечивающих поиск в различных хранилищах, либо по другим каналам, например, путем личного общения с другими разработчиками, непосредственным обращением к результатам других исследований, в том числе еще не представленных в виде сообщений, и т. д.

2. Интерпретация сообщений. Вследствие уникальности конкретных условий решаемых задач язык полученного сообщения (в общем случае) может быть не тождественен «внутреннему языку» разработчика (создателя информации). Данный этап включает адаптацию сообщений, интерпретацию их содержания в терминах «внутреннего языка», а в итоге - извлечение из сообщений сведений, необходимых для решения поставленной задачи. Результат этапа - информационное обеспечение решаемой задачи, которое должно привести к повышению эффективности ее решения.

3. Решение задачи. На данном этапе, используя информационное обеспечение, а также собственные знания, прилагая определенные усилия, разработчик создает новую информацию, составляющую решение задачи. Эта информация зафиксирована на языке задачи, является достоянием разработчика или достаточно ограниченного множества лиц (организаций), связанных с конкретной разработкой и, как правило, для использования за пределами конкретной задачи будет требовать дополнительных затрат труда.

4. Создание сообщений. На данном этапе исследователь осуществляет интерпретацию полученного результата на «языке коммуникаций», т. е. подготавливает сообщение в «стандартной» форме, одной из тех, которые приняты на данном этапе развития предметной области вообще и информационных коммуникаций, в частности. Результатом этого этапа может быть статья, выступление на конференции, сообщение по электронной почте и т. д. Новая информация, представленная в форме сообщения, уже представляет собой потенциальную общественную ценность для большого круга пользователей и решения других задач.

5. Распространение сообщений. На этом этапе создатели сообщений вступают во взаимодействие с системой научных коммуникаций, затрачивая определенные усилия (в основном организационного характера) по «вводу» сообщения в один (или несколько) из доступных каналов коммуникации (публикация, выступление и т. д.). Эффективность данного этапа определяется как степенью усилий, предпринимаемых исследователем, так и теми возможностями, которые ему предоставляет система коммуникации и, в частности, АИС.

Представленные на слайде (Слайд 10.2) «каналы» могут быть разделены на три типа:

  •  непосредственное рабочее взаимодействие разработчиков (связь 3-3) представляет собой постоянный обмен информацией в группе или коллективе в процессе совместной деятельности;
  •  непосредственное  документальное взаимодействие (связь 4-2) заключается в оформлении результата и ограниченном контролируемом распространении (например - передача отчета или документации заказчику);
  •  опосредованное документальное взаимодействие (связь 5-1) состоит в опубликовании результата и его последующем неограниченном перемещении по каналам ИС.  Информационные связи этого типа, осуществляющиеся через АИС, и являются объектом нашего рассмотрения.

Рисунок (Слайд 10.2) представляет схему информационного обмена. Реально же пользователь работает с источником информации по схеме информационного обслуживания, для которой характерна опосредованность, «разорванность», взаимодействия: сообщения «отчуждаются» автора (cоответственно, источник информации ассоциируется уже с сообщением –носителем информации, а не с человеком или системой, которые являются источником в прямом смысле этого слова). Это приводит к «рассеянию» информации, и поэтому для эффективного отыскания публикаций (по времени и необходимым ресурсам) необходимо создавать и использовать специальные справочно-поисковые средства.

Новое знание (результат основной деятельности) воплощается обычно в форме сообщения - документа, реализующего преобразование смысла в текст. Такая «материализация» знаний субъекта обеспечивает унифицированную форму обобществления личного знания, а сравнительно низкая стоимость их тиражирования позволяет существенно расширить сферу потенциальных потребителей. Но, с другой стороны, низкая стоимость публикации (по сравнению со стоимостью получения самого результата) приводит к колоссальному и все возрастающему объему публикаций, а унифицированность форм представления обуславливает их внешнюю безликость. Кроме того, чтобы опубликованное сообщение стало стимулом для построения нового знания приемником, сообщение должно быть не только воспринято (выделено среди других и помещено в среду последующей обработки), но также понято (выделен смысл) и вписано в систему наличного знания приемника (потенциально применено) или сохранено в долговременной памяти.

В свою очередь, формирование сообщения, явно или неявно связано с выбором или введением специальной терминологии, что часто сказывается не только на эффективности поиска, но и на адекватности передачи смысла.

Отсюда в частности следует, что «сигнальные» признаки, необходимые для обеспечения эффективности «узнавания» - первой фазы использования сообщения, могут быть сформированы путем введения явной систематизации. Это достаточно естественный путь –знания всегда системны, т.к. создаются в рамках некоторой системы понятий соответствующей отрасли знаний. И именно это обеспечивает приемлемые условия  для ознакомления с более или менее представительным объемом публикаций в конкретной предметной области путем, отличным от полного перебора всех сообщений.

То есть процессы обработки и поиска информации не могут рассматриваться изолированно от процессов основной деятельности, поскольку обусловлены ими, а действенность информации обуславливается «коммуникационными» средствами ИС (например, лингвистическим обеспечением).

Отсюда следует, что назначение документальных ИС –это обеспечение передачи информации от генератора к потребителю, а эффективность ИС будет связываться с замещением части основной деятельности информационной.

10.2. Особенности представления и использования

документальной информации

Требования к полноте, точности и достоверности информации, характеру процесса поиска, а в большей степени –к выбору типов и набора информационных ресурсов, а также последующей обработке найденного зависят от характера задачи (и текущего этапа жизненного цикла). Действительно, когда задача сформулирована в сложившейся предметной области и её актуальность не вызывает сомнений, цель поиска очевидна: найти полноценное изложение метода решения задачи данного типа (например, отчет о НИР, статью, учебник и т.д., достоверность которого не подлежит сомнениям). Во многих случаях (обычно, когда мы ищем уже известный человечеству метод) это можно сделать, не прибегая к «сложным» процедурам, использующим разнообразные, но вспомогательные средства: указатели, реферативно–библиографические БД и т.д. Достаточно «просто» пролистать разделы соответствующих учебников или монографий или, в крайнем случае –подшивку специальных журналов. Предложения библиотек и информационных служб использовать специальные справочно-поисковые средства, к тому же не содержащих полных текстов, кажутся многим современным пользователям абсурдными. Их использование становится неизбежным, когда собственные «подручные» ресурсы не позволяют найти решение, а характер ОД предполагает реальную ответственность (экономическую или юридическую) за принятие решения. Общеизвестными примерами являются задачи патентного поиска, позволяющего подтвердить приоритет изобретения, или научного поиска, доказывающего новизну решения.

Существенно другая роль вторичной информации на начальном и заключительном этапах ОД, в бизнес-планировании и в задачах управления качеством. Например, при определении направления деятельности, выборе решения при неполной информации, принятии решения о начале или завершении деятельности, оценке эффективности и применимости, оценке новизны и конкурентоспособность найденного решения. Очевидно, что искать документ, содержащий ответ, можно, если мы сознательно повторяем работы, выполненные кем-то ранее. То есть, информация такого рода –общее заключение (отдельное, «дискретное» решение), может быть только синтезирована на основе многоаспектного содержательного и статистического анализа «непрерывного» потока публикаций, отражающего не только разные подходы к решению, но и разные этапы жизненного цикла идеи.

Таким образом, можно сказать, что, в отличие от задач нахождения отдельной публикации о методе решения частной проблемы, своей конкретностью предопределяющих требование точности информационного представления, задачи ОД управленческого типа (выделение отдельных типов ОД здесь достаточно условно, поскольку при принятии «управленческого» решения мы обобщаем «частные» решения, а при поиске и выборе «частного» решения мы должны ориентироваться на общие направления и использовать общепринятые критерии) предполагают широту и вариантность анализа возможных решений, что предопределяет требование полноты и многоаспектности информационного обеспечения.

Библиографический поиск обеспечивает выявление публикаций по их выходным данным, например, по именам авторов, датам публикаций и т.д. Основополагающей предпосылкой здесь является фиксированная для конкретной базы данных модель представления информации, в соответствии с которой обеспечивается нормализованная (единообразная) запись элементов данных. Все это требует от пользователя далеко не очевидных знаний определенных соглашений. Кроме того, практика показывает, что подобные соглашения не всегда соблюдаются не только для различных баз данных, но иногда даже и в рамках одной базы данных.

Тематический поиск обеспечивает отбор документов по семантическим признакам, обобщенно представляющим его содержание. Здесь концептуальным положением является то, что содержание документа может быть представлено некоторой совокупностью понятий, характеризующих основной объект. Это позволяет достаточно эффективно использовать запросы в виде компактных комбинации терминов, обычно двух-трех слов естественного или естественно-научного языка. Такое представление информации хорошо соответствует теоретико-множественным моделям поиска, однако для многих пользователей создает ситуации непонимания поискового языка и самого процесса получения результата.

Отдельным направлением в развитии информационного поиска является полнотекстовый поиск, основная цель которого –обеспечить точный отбор за счет применения критериев, основанных на семантических категориях. Но здесь, не смотря на достаточно серьезные достижения в области анализа текста и появление промышленных полнотекстовых поисковых систем (в основном в сфере СМИ), ожидать скорого широкого внедрения систем полнотекстового поиска, в том числе и в область научной информации, не приходится уже хотя бы потому, что выявить и воспринять смысл (и тем более новые идеи) в научных публикациях может не всегда и не всякий естественный интеллект. И уж тем более сомнительно автоматически построить понятийную, точно отражающую смысл, структуру по тексту запроса из трех-четырех терминов.

Также важным, но часто не замечаемым фактором является реальная ограниченность полноты представления информации в конкретном массиве (точнее, источников информации, которые используются для формирования массива). Это особенно существенно при поиске в Internet: глобальная сеть сетей физически объединяет компьютеры практически всех крупнейших библиотек мира, однако вход пользователя в сеть не приводит автоматически к возможности использовать электронный каталог какой-либо из таких библиотек. То есть, подключение к сети обеспечивает физическую доступность вычислительного комплекса хранящего ресурс, но доступность собственно информационного ресурса –обычно совокупности баз данных (документальных и фактографических массивов) и информационных технологий, часто ограничена технологическими, организационными, финансовыми или какими либо другими условиям.

10.2.1. Концентрация и рассеяние информации

Рассеяние информации означает, что информация, которая была бы полезной для решения данной проблемы, может оказаться в документах, относящихся к совершенно другой предметной области. Следствием свойства рассеяния является дублирование информации - рассредоточение информации, полезной для некоторой предметной области по документам, изданиям и базам данных, относящимся к разным предметным областям.

Рассеяние информации обусловлено социально-экономическим характером научных коммуникаций, и в первую очередь экономическим и авторским правом. Действительно, автор в процессе обучения и работы не только относится к определенной научной школе, но и приобщается к достаточно ограниченному кругу изданий, которые, по его мнению, достаточно адекватно отражают состояние предметной области. Очевидно, что в следствие ограниченности знаний, а также физической доступности многих изданий, этот список будет неполным, но, тем не менее, достаточным для более или менее успешной ОД. Аналогично, новую рукопись автор отправит в одну из редакций, руководствуясь разными факторами, например, авторитетностью, популярностью или даже нетребовательностью издания. В свою очередь, реакция, рассматривая рукопись, может счесть содержание не соответствующим тематике или уровню издания и отклонить её.

Процесс рассеяния имеет устойчивые закономерности. Журналы, которые посвящены непосредственно данной отрасли или предмету, образуют некоторое ядро, вокруг которого можно построить кольцевые зоны, содержащие столько же публикаций по данному вопросу, что и ядро. Этот закон С. Брэдфорд сформулировал следующим образом: «Если научные журналы расположить в порядке уменьшения числа помещенных в них статей по какому-либо заданному предмету, то в полученном списке можно выделить ядро журналов, посвященных непосредственно этому предмету, и несколько групп, каждая из которых содержит столько же статей, что и ядро. Тогда число журналов в ядре и в последующих группах будет относиться как  1 : n : n2…» (Слайд 10.4). То есть, поскольку процесс генерации-публикации сообщений по своей природе является открытой динамической системой, тематическое распределение материалов по изданиям будет иметь ранговый характер.

Именно поэтому при поиске информации следует сосредоточиваться не только на профильных для какой-либо отрасли науки или техники источниках, но и искать информацию в других, даже весьма отдаленных отраслях.

Здесь также следует отметить и не отраженную в явной форме специфику разделения информационных потоков по видам документов соответственно этапам жизненного цикла объекта ОД. Это означает, что реально цикл информационного обмена представляет собой спираль воспроизводства информации: результаты этапа фундаментальных исследований становятся основой на этапе прикладных исследований и разработок, которые в свою очередь, внедряются в производство и т.д. Причем каждый этап, естественно включает все компоненты информационной деятельности.

Сложившаяся система информационных коммуникаций включает (Слайд 10.5):

  •  «серую литературу» - отчеты о НИР и диссертации, впервые представляющие новые решения или гипотезы, еще не прошедшие широкую проверку практикой и представленную отдельными экземплярами;
  •  опубликованную научную информацию (статьи и монографии), отражающую в основном апробированные результаты, и изданную достаточно представительными тиражами;
  •  патенты –правовые документы, объективно отражающие область и уровень предлагаемых решений;
  •  экономическую, коммерческую и общественно-политическую информацию.

Концентрация информации достигается в процессе, который иногда называют свертыванием (т. е. обобщением, агрегированием).

Концентрация в сфере информационной деятельности проявляется, по крайней мере, в трех формах: документационной, фактографической и теоретико-концептуальной (Слайд 10.7).

Первая - документационная форма связана в основном с библиотечной и информационно-поисковой практикой, где в качестве единицы информации выступает документ. Простейшим из них является библиографическая обработка документов, в результате которой в обобщенном виде представляются основные, главным образом внешние идентификационные признаки документа (автор, заголовок, выходные данные и т. п.). Более емким является реферирование, которое предполагает извлечение из документа основных положений содержания и их представление в виде реферата. Близким к этому виду концентрации информации является классифицирование и индексирование, в результате которого на некотором специальном, обычно искусственном, языке отражаются с большей или меньшей степенью глубины и полноты тематические или фактографические признаки содержания документов. Все эти виды концентрации информации предполагают неизбежные потери информации, поскольку в получаемом таким образом вторичном документе отражаются только основные аспекты содержания документов. Отметим также, что своеобразной формой концентрации информации является метаинформация, например, системы классификации и кодирования, тезаурусы и онтологии предметных областей.

Вторая форма - фактографическая концентрация информации, ориентирована не на отдельный документ, а на совокупность фактов или сообщений по определенной теме или проблеме. В качестве таких форм могут выступать реферативные обзоры, фактографические информационные картотеки и т. д.

Третья форма - теоретико-концептуальная концентрация информации - это такое преобразование, которое позволяет представить научное знание на более высоком уровне обобщения. Примером являются аналитические формы представления математических зависимостей, законы, теоремы, позволяющие выводить различные следствия и т. д.

Именно возможность работы с компактными хорошо структурированными вторичными документами (а не с их полнотекстовыми представлениями), предметно отражающими содержание первичного документа и обеспечивающим его идентифицируемость, как в целом, так и на уровне отдельных элементов данных, позволяет рационально реализовать поиск информации в сверхбольших документальных потоках.

10.3. Типология документальных БД (Слайд 10.8)

По типу хранимой (немультимедийной) информации выделяют:

фактографические;

документальные;

лексикографические БД.

Лексикографические базы –классификаторы, кодификаторы, словари основ слов, тезаурусы, рубрикаторы и т. д., обычно используемые в качестве справочных совместно с документальными или фактографическими БД.

Документальные базы по уровню представления информации подразделяются на: полнотекстовые (так называемые «первичные» документы), библиографические и реферативные («вторичные» документы, отражающие на адресном и содержательном уровне первичный документ).

По топологии хранения данных различают локальные и распределённые БД.

По типологии доступа и характеру использования хранимой информации БД могут быть разделены на специализированные и интегрированные.

По функциональному назначению (характеру решаемых с помощью БД задач и, соответственно, характеру использования данных) выделяют операционные и справочно–информационные БД.

К последним можно отнести ретроспективные БД (электронные каталоги библиотек, БД статистической информации и т. д.), используемые для информационной поддержки основной деятельности, и не предполагающие внесение изменений в существующие записи, например, по результатам этой деятельности.

По назначению содержащейся информации выделяют БД:

деловой информации (социальная, коммерческая и другая информация, кадастры, регистры);

информации для специалистов (экономическая, правоохранительная и др. информация);

массовой информации.

По способу доступа существуют БД:

размещённые на хостах (доступные через сети);

тиражируемые в коммуникативных форматах;

тиражируемые с программными средствами (включая CD–ROM);

локальные.

10.4. Типология поисковых задач и режимы обслуживания

В зависимости от характера задачи основной деятельности пользователя по степени соотношения известного/неизвестного в предмете поиска можно выделить три типа поисковых задач (Слайд 10.9).

К задачам первого типа относится поиск объекта, когда известно, что этот объект существует (например, поиск фактографии или трудов конкретного автора). Знания пользователя об искомом объекте полные, цель поиска - найти его документальное представление. Модель такого «атрибутивного» поиска может быть представлена как логическое выражение над именами понятий, задаваемыми терминами или их комбинациями.

Второй тип задач - подбор информации по некоторой теме, например, для обзора научной проблемы, обоснования или поиска метода решения научной или практической задачи. Пользователь, уже обладая знаниями, определяет место задачи (как вновь вводимое понятие в системе уже известных понятий), ищет документы, содержащие материал, с необходимой полнотой раскрывающий новую для него тему, или дающий возможность построения нового метода решения задачи. Поисковая модель в этом случае –это частично известные понятия, связи или комбинации. Тематический поиск реализуется как последовательность атрибутивных поисков, каждый из которых соответствует определенному (априорно заданному) аспекту представления объекта поиска.

Третий тип задач представляет собой проблемный поиск, который, по сути, является основной составляющей творческого процесса определения путей решения профессиональной задачи пользователя. Здесь изначально отсутствует четкость структуры знания: пользователь располагает отдельными фактами, возможно, не имеющими между собой доказанных связей. Проблемный поиск –это нахождение описаний объектов или их составляющих, актуально или потенциально существующих, и в совокупности, возможно, образующих целое, свойства которого возможно будут больше суммы свойств частей. То есть, этим свойствам в явной форме могут не соответствовать «собственные» атрибуты, а новое свойство, например, может быть задано комбинацией уже известных атрибутов. В этом случае к неопределенности отображения объекта на предметную область ИС, свойственной тематическому поиску, добавляется неопределенность на уровне «субъект-объект ОД»: представление, которое субъект имеет об объекте поиска, может не соответствовать представления конкретного источника. Логическая поисковая модель для этого случая –поиск «похожих» документов, содержание которых некоторым образом ассоциируется с задачей пользователя.

Для человека идеальной коммуникативной формой представления знаний и потребностей является вербальная - в виде терминологического выражения. Принципиально важной особенностью вербального способа является изначальная контекстная определенность (хотя этот контекст, возможно, представлен только в сознании высказывающего). Т. е. отдельное высказывание, как грамматическая форма (предложение), в общем случае может порождать в сознании воспринимающего несколько смыслов, а исходный смысл высказывания будет воспринят только при условии одновременной передачи исходного контекста.

Запрос с точки зрения способа его представления –это так же, как и в случае документа, терминологическое выражение, представляющее гипотетический объект через описание свойств (атрибутов, связей), наличие которых как признаков (зачастую уже безотносительно характера атрибутов и связей) должна проверить ИС в документах БД. То есть, ПОЗ должен быть построен по типу вопроса «Есть ли?».

Следует также отметить, что важной, но мало замечаемой, особенностью является принципиально разное восприятие пользователем и системой основных информационных объектов –документов и запросов. Человек рассматривает их как носители информации (смысл которой в общем случае может быть различным в зависимости от точки зрения пользователя), выделяя и преобразуя при этом отдельные фрагменты (часто не совпадающие с текстовым предложением, параграфом и т.п.) так, чтобы в сознании возникли устойчивые образы и понятия. Для АИПС те же объекты - это совокупности данных, из которых механически (не извлекая и не преобразуя смысла) выделены термины (слова, словосочетания, шифры, даты и т.д.), которые и сравниваются с терминами запроса.

Далее, человек считает документ полезным (наиболее соответствующим запросу), если тот несет новую, ранее не известную информацию, т.е. дает или позволяет найти ответ на некоторый вопрос («как?», «что?») при решении практической задачи. Система же считает наиболее соответствующим запросу документ, который содержит наибольшее количество терминов из запроса. То есть, вполне вероятно, что пользователю в первую очередь будут выданы наиболее знакомые документы, возможно написанные им же, что вряд ли принесет ему новое знание.

Еще один важный момент связан с понятием структура документа. Для человека это понятие в большинстве случаев (по крайней мере, для текстовых документов) ассоциируется с удобством восприятия, т.е. описание структуры практически не используется, поскольку отдельные информационные поля документа узнаются обычно по косвенным признакам (угадываются). Для автоматизированных систем понятие структуры является неотъемлемым и изначально определяющим. Более того, для каждого структурного элемента (реквизита) документа обязательно определен свой формат, имя и, возможно, свой метод обработки. Например, способы записи дат или разные правила выделения терминов в разных текстовых полях (во многих системах знак пробела в поле ключевых слов не считается признаком разделения, позволяя таким образом выделять словосочетания).

10.5. Основные процессы обработки и хранения

документальной информации

С организационно-функциональной точки зрения в АИПС выделяются два контура: - обработки запросов и обработки документов. В свою очередь, в контуре обработки документов могут выделяться (как отдельные подсистемы) контур первичной и вторичной информации. Контур первичной информации выделяется в отдельную подсистему в том случае, если массив первичных документов размещается на иных типах носителей или использует отдельную систему управления данными, например, на микрофишах или специализированные хранилища CD ROM-носителей, не имеющих программных интерфейсов с АИПС.

С точки зрения функциональности в составе АИПС можно выделить следующие блоки (Слайд 10.10):

  •  блок предобработки –преобразование в машинную форму документов и запросов;
  •  блок формирования базы данных АИПС - загрузка ПОДов и машиных форм документов(полных текстов) в базу данных
  •  блок поиска –отбор по поисковому образу запроса из множества ПОД, тех, которые удовлетворяют требованиям критерия смыслового соответствия;
  •  блок постобработки –упорядочение найденных документов.
  •  блок выдачи –форматирование и отображение материала найденных документов.

На слайде (Слайд 10.11) представлена обобщенная схема обработки запросов и документов в АИПС. Изначальными являются процессы генерации информации и появление информационной потребности. Их возникновение происходит в сознании человека, однако выражение, так или иначе, связывается с конкретной предметной областью, её структурой и терминологией. При этом могут использоваться такие лингвистические средства, как тезаурусы предметных областей, язык представления онтологий (OWL) или язык представления знаний (KWL). При этом для машинной формы материалов, ориентированной на передачу, используются коммуникативные форматы, как например, ISO-2709 и ISO-8211, или XML, а для описания логической структуры ресурса, содержащего материалы, может использоваться язык описания ресурсов RDF.

Обработка поступающих в систему документов обычно включает:

  •  присвоение документу уникального идентификатора, необходимого для поиска, а также, возможно, для связывания ПОДа с полным текстом документа, для чего может использоваться соответствующий кодификатор или, например, система идентификации цифровых объектов (Digital Object Identifier - DOI);
  •  преобразование во внутрисистемный формат, когда могут использоваться XML-схемы и язык определения документов DTD;
  •  индексирование и, возможно, реферирование –построение поискового образа (не обязательно автоматическое или автоматизированное) в рамках лингвистических средств  АИПС, для чего используются словари, рубрикаторы, классификации, тезаурусы предметных областей;
  •  загрузку ПОДов и, если в АИПС есть контур первичной информации, то и полного текста документа в базу данных. При этом используются языки определения и манипулирования данными соответствующей СУБД, а для оперативного взаимодействия с внешними ресурсами, например, XML-SQL.

При обработке запросов введенная пользователем формулировка преобразуется в соответствии с требованиями информационно-поискового языка (индексируется) и преобразуется во внутрисистемный формат в соответствии с правилами информационно-поискового языка конкретной АИПС. При этом используются словари системы, а для расширения (терминологического и тематического обогащения запроса) могут использоваться тезаурусы, онтологии, а также словари естественного языка.

Отметим, что на схеме отражены две классические технологии обработки запросов (так называемых  режимов информационного поиска): режим ретроспективного поиска и режим избирательного распределения информации.

При ретроспективном поиске очередной ПОЗ сравнивается со всеми ПОД (реально поиск производится только в части пространства вспомогательных структур -инвертированной форме, но построенных по всему массиву ПОД).  

В режиме избирательного распределения информации схема обратная (зеркально симметричная):  ПОД каждого вновь загружаемого документа сравнивается со всеми поисковыми образами запросов.  То есть, в первом случае запросы обрабатываются после создания массива ПОД, которые, накапливаясь, формируют ретроспективную БД, а во втором –массив ПОЗ создается до обработки документов (при этом хранится массив ПОЗ и необязательно - ПОД). Поэтому эти режимы иначе называют режимами обработки разовых и постоянно действующих запросов.

На этапе отбора документов поисковый запрос, по тому или иному алгоритму, сопоставляется с поисковым образом документа и, если результат удовлетворяет критерию выдачи, который выступает в качестве критерия смыслового соответствия, то документ (точнее, его идентификатор в БД) включается в список результата поиска.

На этапе постобработки отобранные по ПОЗу документы могут группироваться (путем классификации или кластеризации) и ранжироваться, например, по степени соответствия запросу. При этом для обогащения ПОДа и уточнения возможных (осмысленных) сочетаний лексических единиц за счет устойчивых семантических связей используются словари, тезаурусы, онтологии предметной области, а также словари естественного языка.

На этапе выдачи документы из внутренней машинной формы преобразуются в форму удобную для восприятия человеком и, более или менее, адекватную его задачам. При этом используются языки отчетов, HTML+SSL и т.д.

Отметим, что в целом лингвистические средства, упомянутые выше, могут быть с той или иной точностью отнесены либо к группе, обеспечивающей форму представления информации, либо к группе, обеспечивающей представление содержания. К первой группе относятся коммуникативные форматы, схемы документов и баз данных, языки отчетов, HTML, XML, DTD, RDF. Ко второй - тезаурусы, классификации, рубрикаторы, кодификаторы, ИПЯ, языки онтологий. Более подробно основные из перечисленных компонентов ЛО будут рассмотрены далее.

 


 

А также другие работы, которые могут Вас заинтересовать

4380. Введение в программирование на С++ 427 KB
  Введение в программирование на С++ Цель: получить основы программирования на С++ ознакомится с созданием простейшей программы в консольном режиме понять что такое переменная и её назначение, научится выводить информацию на экран. Теоретический мат...
4381. Переменные. Константы. Типы данных. Операции в С++ 74.5 KB
  Переменные. Константы. Типы данных. Операции в С++ Цель: понимать, что такое типы данных, уметь правильно выбрать тип данных для используемой переменной, знать какой объем памяти приходится на каждый тип данных знать, что такое константы уметь пра...
4382. Программирование арифметических выражений на С++ 176.5 KB
  Программирование арифметических выражений на С++ Цель: усвоить, что такое линейные алгоритмы научиться создавать блок-схемы ознакомиться с математическими функциями. Теоретический материал В С++ можно делать различные математические расчёты, поэто...
4383. Операторы выбора в С++ 96 KB
  Операторы выбора в С++ Цель: понимать как работают операторы выбора, для чего используются и какой их синтаксис написания. Теоретический материал Операторы выбора — это операторы управления потоком выполнения программы. К операторам выбора отно...
4384. Основные понятия программирования на С++. Алгоритмы 67.87 KB
  Основные понятия программирования на С++. Алгоритмы Языки программирования Компьютер работает по программам, которые составляет для него человек. Человек пишет программы, пользуясь языками программирования. За последние несколько десятилетий языки п...
4386. Введение в синтаксис языка С++ 66.5 KB
  Введение в синтаксис языка С++ Использование ключевого слова using Если операторы cout и cin применяются очень часто, то использование идентификатора std:: перед ними становится обременительным. Эту проблему можно решить двумя способами. Первы...
4387. Операторы в языке С++ 130.5 KB
  Операторы в языке С++ Математические операторы В языке С++ операторы управляют последовательностью выполнения выражений, возвращают результаты вычислений или ничего не делают (пустые операторы). Операторы последовательного действия выполняют о...
4388. Использование циклов в языке С++ 55.5 KB
  Использование циклов в языке С++ Оператор goto Для решения ряда задач требуется многократное повторение одних и тех же действий. На практике это реализуется либо с помощью рекурсии, либо с помощью итерации. Итерация – это повторение одних...