36264

Информационные технологии поиска информации

Доклад

Информатика, кибернетика и программирование

Информационные технологии поиска информации Поиск информации: основные понятия виды и формы организации Поиск информации или информационный поиск представляет один из основных информационных процессов. Цели возможности и характер поиска всегда зависели от наличия информации её важности и доступности а также средств организации поиска. Цель любого поиска заключается в потребности необходимости или желании находить различные виды информации способствующие получению лицом осуществляющим поиск нужных ему сведений знаний и т. Это...

Русский

2013-09-21

274.5 KB

84 чел.

PAGE   \* MERGEFORMAT 17

Вопрос 3. Информационные технологии поиска информации

Поиск информации: основные понятия, виды и формы организации 

Поиск информации или информационный поиск представляет один из основных информационных процессов. Человечество издревле занималось им. Цели, возможности и характер поиска всегда зависели от наличия, информации, её важности и доступности, а также средств организации поиска.

Конец XX - начало XXI века, характеризуется огромными массивами постоянно растущей разнообразной информации, доступной и представляющей интерес для самых широких слоев социума. Более того, Интернет-технологии и программно-технические средства, также доступные большинству людей, позволяют осуществлять данный процесс в любое время, практически в любом месте по любым запросам.

Поиск - процесс, в ходе которого в той или иной последовательности производится соотнесение отыскиваемого с каждым объектом, хранящимся в массиве. Цель любого поиска заключается в потребности, необходимости или желании находить различные виды информации, способствующие получению лицом, осуществляющим поиск, нужных ему сведений, знаний и т.д. для повышения собственного профессионального, культурного и любого иного уровня; создания новой информации и формирования новых знаний; принятия управленческих решений и т.п.

По оценке специалистов в Интернете работает 30 и более миллионов пользователей. Из них десятки тысяч - в режиме онлайн (англ. "on-line" - интерактивный доступ в любой момент времени) и количество таких пользователей постоянно растет. Это затрудняет организацию оперативного поиска и нахождения нужной такому количеству пользователей информации. Возникают проблемы, обусловленные разнообразными возможностями (видами) поиска информации, различными способами их реализации в информационно-поисковых системах (ИПС), разным уровнем знаний пользователей о возможностях таких систем, особенно в области формирования запросов и обработки данных, полученных в результате выполнения этих запросов и т.д.

Предполагается, что в дальнейшем будут созданы ИПС, способные автоматически адаптироваться с учетом уровня знаний и запросов конкретных пользователей, воспринимать запросы на естественном языке и, используя искусственный интеллект, выдавать им релевантную и пертинентную информацию. Для создания таких ИПС потребуются интеллект и знания конкретных пользователей ИПС или их посредников. Пока же от широкого круга пользователей поисковых систем требуется достаточно хорошо владеть данной предметной областью.

Существуют различные толкования термина "поиск информации" или "информационный поиск".

Термин "информационный поиск" (англ. "information retrieval") ввёл американский математик К. Муэрс. Он заметил, что побудительной причиной такого поиска является информационная потребность, выраженная в форме информационного запроса. К объектам информационного поиска К. Муэрс отнес документы, сведения об их наличии и (или) местонахождении, фактографическую информацию.

Решать проблемы фактографического поиска первыми стали представители библиотек. Они разработали средства информационного поиска, получившие название "справочно-поисковый аппарат" (каталоги, библиографические указатели и др.). В профессиональной отечественной печати данный термин используется с 1970-х годов. Библиотекари определяют "информационный поиск" как нахождение в информационном массиве документов, соответствующих информационному запросу пользователей.

С точки зрения использования компьютерной техники "информационный поиск" - совокупность логических и технических операций, имеющих конечной целью нахождение документов, сведений о них, фактов, данных, релевантных запросу потребителя.

"Релевантность" - устанавливаемое при информационном поиске соответствие содержания документа информационному запросу или поискового образа документа поисковому предписанию.

Существуют и другие определения. В любом случае, информационный поиск вызван потребностью удовлетворения информационных запросов пользователей, ожидающих с помощью поисковых систем оперативно получить необходимые им данные или сведения. Он является методом нацеленного поиска и извлечения релевантных документов и (или) фактов из различных источников информации, например, банков данных или запоминающих устройств. В качестве таковых выступают живые и неживые объекты, представляющие различные источники и носители информации.

Системы, обеспечивающие реализацию подобного поиска информации, называются поисковыми системами (ПС). В традиционных технологиях ПС представляют картотеки и каталоги, адресные и иные справочники, указатели, энциклопедии, справочный аппарат к изданиям и другие материалы.

В 1945 годы американский ученый и инженер В. Буш в статье "Возможный механизм нашего мышления" впервые широко поставил вопрос о необходимости механизации информационного поиска. Начиная с 1960 годов, появляются автоматизированные поисковые системы, работающие с информацией. С этого периода ведутся интенсивные работы в области формирования и реализации принципов и методов информационного поиска.

"Поисковые системы" осуществляют поиск среди документов базы или иных массивов машиночитаемых данных, содержащих заданные слова.

Электронные ПС с помощью обычных или интеллектуальных терминалов (ПЭВМ) дают возможность пользователям производить поисковые запросы при помощи формальных и описывающих содержание элементов и с применением специальных логических операторов; осуществляют поиск среди документов базы или иных массивов машиночитаемых данных, содержащих заданные слова. Поисковые системы позволяют осуществлять только поисковые процедуры и связанные с ними процессы.

Информационно-поисковые системы 

ПС с большим набором функций и возможностей обычно входят в состав СУБД и именуются информационно-поисковыми системами. Они также создаются и используются для эффективного нахождения пользователями необходимых им данных, в том числе в Интернете.

Терминологически "информационно-поисковая система" (англ. "information retrieval system", IRS) - представляет систему, предназначенную для поиска и хранения информации; пакет программного обеспечения, реализующий процессы создания, актуализации, хранения и поиска в информационных базах и банках данных.

Информационно-поисковая система трактуется и как система, обеспечивающая поиск и отбор необходимых данных на основе информационно-поискового языка и соответствующих правил поиска, а база данных - как совокупность средств и методов описания, хранения и манипулирования данными, облегчающих сбор, накопление и обработку больших информационных массивов. Организация различных БД отличается видом объектов данных и отношений между ними.

Функционирование современных ИПС основано на двух предположениях:

1) документы, необходимые пользователю, объединены наличием некоторого признака или комбинации признаков;

2) пользователь способен указать этот признак.

Оба эти предположения на практике не выполняются, и можно говорить только о вероятности их выполнения. Поэтому, процесс поиска информации обычно представляет собой последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.

Пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск. Оценить адекватность выражения запроса, как и полноту получаемого результата, он может, отыскав дополнительные сведения, или так организовав процесс, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части. В то же время, для пользователей-профессионалов характерна устойчивость тематического профиля. Когда они являются "информационно-ориентированными", то им свойственно желание и способность организовать информационное пространство проблемы. Это означает, что пользователь создаёт по существу новый, "самостоятельный" проблемно-ориентированный, индивидуально обновляемый и пополняемый ИР, включающий помимо подборок документов также и метаинформацию, например, словари специальной терминологии, классификаторы предметных областей, описания ресурсов и т.д.

Особенность работы пользователя в режиме "самообслуживания", в контексте задачи автоматизации совокупной деятельности, означает, что система должна представлять среду, обеспечивающую поддержку функций потребителя по обработке найденной информации, а также традиционно относящихся к функциям информационного посредника (интерпретация запроса, его перевод на информационно-поисковый язык, выбор ИР, автоматизированный поиск и ручной отбор материалов), но также и такие "обеспечивающие" функции, как: структурирование информационной потребности, лексическая адаптация запроса, оценка, систематизация и обработка результатов поиска, причём на уровне как отдельного документа, так и информационных ресурсов в целом. Технические возможности, которыми располагает пользователь, позволяют ему создавать информационный ресурс - формировать массивы, систематизировать и создавать внешние представления их содержания для собственного или внешнего использования.

ИПС делятся на: традиционные (ручные, механические, электромеханические) и автоматизированные (электронные).

Автоматизированные ИПС (АИПС), используют компьютерные программно-технические средства и технологии и предназначаются для нахождения и выдачи пользователям информации по заданным критериям. Определяющими для понимания методов автоматизации поиска являются два следующих фактора:

1) сравниваются не сами объекты, а описания - так называемые "поисковые образы";
2) сам процесс является сложным (составным и не одноактным) и обычно реализуется последовательностью операций.

Данные в АИПС вводятся на основе специально разрабатываемых форматов ввода. Все сведения об одном объекте в ИПС представляются в виде систематизированных данных, образующих одну строку таблицы и называются записью. При этом, если ИПС представляет электронный каталог библиотеки, то любое библиографическое описание (БО) документа в нём - это одна запись, состоящая из полей, равных количеству элементов БО. Совокупность записей образует БД, которая, как правило, хранится в одном файле. Совокупность БД, объединенных одной СУБД, образует банк данных.

Поскольку АИПС инструмент, используемый человеком при поиске (а не интеллектуальным автомат для поиска информации - готовых решений задач основной деятельности), эффективность её использования зависит от того, насколько хорошо человек знает природу операционных объектов и свойства инструмента, посредством которого он работает с этими объектами.

Информационный поиск подразумевает использование определённых стратегий, методов, механизмов и средств. Поведение пользователя, осуществляющего управление процессом поиска, определяется не только информационной потребностью, но и инструментальным разнообразием системы - технологиями и средствами, предоставляемыми системой.

Стратегия поиска - общий план (концепция, предпочтение, установка) поведения системы или пользователя для выражения и удовлетворения информационной потребности пользователя, обусловленный как характером цели и видом поиска, так и системными "стратегическими" решениями - архитектурой БД, методами и средствами поиска в конкретной АИПС. Выбор стратегии в общем случае является оптимизационной задачей. На практике в значительной степени он определяется искусством достижения компромисса между практическими потребностями и возможностями имеющихся средств.

Метод поиска - совокупность моделей и алгоритмов реализации отдельных технологических этапов: построения поискового образа запроса (ПОЗ), отбора документов (сопоставление поисковых образов запросов и документов), расширения и реформулирования запроса, локализации и оценки выдачи.

Поисковый образ запроса - записанный на ИПЯ текст, выражающий смысловое содержание информационного запроса и содержащий указания, необходимые для наиболее эффективного осуществления информационного поиска.

Методы поиска, т.е. выделение подмножества документов, потенциально содержащих описание решения задачи отбора документов (ОД), являются отражением процесса нахождения решения и зависят от характера задачи и предметной области.
Рассматривая поиск как итеративный процесс, методы сокращения пространства перебора (просматриваемого подмножества) образуют по существу методологическую основу стратегии поиска и могут быть разделены на следующие классы - методы поиска в:

1) одном пространстве (обычно, тематическом);

2) иерархически упорядоченном пространстве;

3) альтернативных пространствах;

4) динамическом (изменяющемся в процессе поиска) пространстве.

Реализуемый метод построения ПОЗа должен обеспечивать эффективные способы построения запроса для достижения целей различного типа.

Механизмы поиска - совокупность реализованных в системе моделей и алгоритмов процесса формирования выдачи документов в ответ на поисковый запрос.

Средства поиска, с одной стороны, - взаимозависимый комплекс информационно-поисковых языков (ИПЯ) и языков определения/управления данными, обеспечивающий структурные и семантические преобразования объектов обработки (документов, словарей, совокупностей результатов поиска), а с другой, - объекты пользовательского интерфейса, обеспечивающие управление последовательностью выбора операционных объектов конкретной АИПС.

Поисковые технологии - унифицированные (оптимизированные в рамках конкретной АИПС) последовательности эффективного использования отдельных средств поиска в процессе взаимодействия пользователя с системой для устойчивого получения конечного и промежуточных результатов.

Навигация как реализация процесса поиска по запросу в выбранной БД - целенаправленная, определяемая стратегией, последовательность использования методов, средств и технологий конкретной АИПС для получения и оценки результата.

Средства навигации позволяют пользователю осуществлять управление процессом поиска. Они предоставляются пользователю в виде интерфейса, позволяющего организовать более или менее эффективный процесс взаимодействия с БД. При этом "дружественность" интерфейса характеризуется не только эргономичностью и понятностью, но и вариантностью выбора операционных объектов.

Процесс поиска информации представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, и позволяющих оценить его полноту. Так как пользователь обычно не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, то оценить адекватность выражения запроса, равно как и полноту получаемого результата, он может, основываясь лишь на внешних оценках или на промежуточных результатах и обобщениях, сопоставляя их, например, с предыдущими.

Процесс поиска можно представить в виде следующих основных компонент:

1) формулирование запроса на естественном языке, выбор поисковых системы и сервисов, формализация запроса на соответствующем ИПЯ;

2) проведение поиска в одной или нескольких поисковых системах;

3) обзор полученных результатов (ссылок);

4) предварительная обработка полученных результатов: просмотр содержания ссылок, извлечение и сохранение релевантных и пертинентных данных;

5) при необходимости, модификация запроса и проведение повторного (уточняющего) поиска с последующей обработкой полученных результатов.

Для уменьшения объёма отобранных материалов осуществляют фильтрацию результатов поиска по типу источников (сайтов, порталов), тематике и другим основаниям.

По используемым поисковым технологиям ИС можно разбить на 4 категории:

1. Тематические каталоги;

2. Специализированные каталоги (онлайновые справочники);

3. Поисковые машины (полнотекстовый поиск);

4. Средства метапоиска.

В Интернете ИПС размещается на одном или нескольких серверах. В ИПС собирается, индексируется и регистрируется информация о документах, имеющихся в обслуживаемой системой группе веб-серверов. В документах индексируются все значащие слова или только слова из заголовков.

Тематические каталоги предусматривают обработку документов и отнесение их к одной из нескольких категорий, перечень которых заранее задан. Фактически это индексирование на основе классификации. Индексирование может проводиться автоматически или вручную с помощью специалистов, просматривающих популярные веб-узлы и составляющих краткое описание документов-резюме (ключевые слова, аннотация, реферат).

Специализированные каталоги или справочники создаются по отдельным отраслям и темам, по новостям, по городам, по адресам электронной почты и т. п.

Поисковые машины (самое развитое средство поиска в Интернете) реализуют технологию полнотекстового поиска. Индексируются тексты, расположенные на опрашиваемых серверах. Индекс может содержать информацию о нескольких миллионах документов. Например, в индексе популярной ИПС "AltaVista" более 56 млн. URL-адресов.

При использовании средств метапоиска запрос осуществляется одновременно несколькими поисковыми системами. Результат поиска объединяется в общий, упорядоченный по степени релевантности список. Каждая система обрабатывает только часть узлов сети, что позволяет расширить базу поиска. К подобному классу можно отнести и "персональные программы поиска", позволяющие формировать свои собственные инструменты метапоиска (например, автоматически опрашивать часто посещаемые узлы).

Базы информационных данных могут содержать практически любые виды информации, в том числе в любой комбинации. Информационный поиск осуществляется как по существующим в полнотекстовых ЭИР терминам, так и по специальным элементам, входящим в состав ИПЯ. Для формирования запросов используются специальные информационно-поисковые языки.

ИПС внутри найденной выборки обычно пытаются расположить документы в порядке их "релевантности", то есть близости к введенному пользователем запросу. Критериев такой близости много и выявление близких "по смыслу" к запросу документов не решает проблемы получения информации при отсутствии релевантного документа. Подобная ситуация достаточно тривиальна, в том числе и потому, что пользователь зачастую ищет документ, который сам собирается написать. Следует отметить, что в результате проведенного поиска пользователь может получить как релевантные, пертинентные, так и нерелевантные и непертинентные подмассивы данных.

ИПС фактически являются системами информационного обеспечения и представляют собой базы и банки данных. В качестве объекта в них выступает индивид, организация, отрасль, регион и т.п. Субъектом информационного обеспечения является специалист-информатик, любой потребитель информации.

Организация поиска 

Предлагается процедуру поиска необходимой информации разделить на девять основных этапов:

  •  Определение области знаний;
  •  Выбор типа и источников данных;
  •  Сбор материалов необходимых для наполнения информационной модели;
  •  Отбор наиболее полезной информации;
  •  Выбор метода обработки информации (классификация, кластеризация, регрессионный анализ и т.д.);
  •  Выбор алгоритма поиска закономерностей;
  •  Поиск закономерностей, формальных правил и структурных связей в собранной информации;
  •  Творческая интерпретация полученных результатов;
  •  Интеграция извлеченных "знаний".

Для проведения поиска первоначально на компьютере пользователя загружается интерфейс работы с соответствующей БД. Это может быть локальная или удалённая БД. Первоначально следует определиться с видом поиска (простой, расширенный и т.д.). Затем с набором предлагаемых для поиска полей. ИПС могут предложить для ввода одно или несколько полей. В последнем случае это обычно поля: автора, заглавия (названия), временного периода, вида документа, ключевых слов, рубрик и др. При формировании запроса практически все системы позволяют использовать логические элементы "И", "ИЛИ", "НЕТ".

Технологии поиска информации 

Поисковые средства и технологии, используемые для реализации информационных потребностей, определяются типом и состоянием решаемой пользователем задачи основной деятельности: соотношением его знания и незнания об исследуемом объекте. Кроме того, процесс взаимодействия пользователя с системой определяется уровнем знания пользователем содержания ресурса (полноты представления, достоверности источника и т.д.) и функциональных возможностей системы как инструмента. В целом эти факторы обычно сводятся к понятию "профессионализма" - информационного (подготовленный/неподготовленный пользователь) и предметного (профессионал/непрофессионал) "профессионализма".

Процесс поиска информации обычно носит эмпирический характер. Он представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.

Обычно пользователь не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, поэтому оценить адекватность выражения запроса, как и полноту получаемого результата, он может, отыскав дополнительные сведения, или организовав процесс так, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.

Операционными объектами, непосредственно участвующими во взаимодействии пользователей с поисковой системой являются поисковый образ документа (ПОД) и ПОЗ, соответствие которых устанавливается поисковым механизмом АИПС на формальном уровне. Адекватность образа действительному содержанию документа определяется качеством процесса свертки информации и уровнем знания субъектом средств отражения - концептуальной схемы предметной области и возможностей ИПЯ.

Поисковый образ документа - описание документа, выраженное средствами ИПЯ и характеризующее основное смысловое содержание или какие-либо другие признаки этого документа, необходимые для его поиска по запросу.

Большинство ПС изначально предлагают пользователям либо БО, либо ссылки на полные или частичные документы, их описание и другое, хранящиеся в различных АИПС. Современные ПС позволяют определиться и указать какой и в каком виде источник информации интересует пользователя.

Методы обработки результатов поиска 

По характеру преобразований (в контексте дальнейшего использования результатов обработки) методы обработки результатов поиска можно условно разделить на две группы:

1. Структурно-форматные преобразования;

2. Структурно-семантические преобразования (информационно-аналитические, логико-семантические).

Реализация поиска 

Что обычно ищут в Интернете: персональные данные об индивидуумах и организациях; различные адресные данные; конкретные материалы (статьи, книги, фотографии, справочные данные, программное обеспечение и др.) в том числе место их хранения; где и сколько стоят те или иные материалы, услуги, продукты и т.п.; информационные сайты и порталы и др.

Общепринята организация поиска по начальным фрагментам слова (поиск с усечением справа), например, вместо слова "библиотечный" можно ввести его фрагмент "библиоте*". При этом будут найдены документы, в которых содержится не только слово "библиотечный", но и "библиотека", "библиотекарь", "бибилотековедение" и др. В каждом случае пользователь должен представлять, что именно он хочет найти, так как в предложенном ему варианте будет найдено гораздо большее количество документов, чем при задании данного слова полностью (без усечения). В подобном случае возможно в полученном массиве информации провести уточняющий поиск и в результате получить более релевантные и пертинентные данные.

Оформление результатов 

С точки зрения ИПС результат поиска в ней есть совокупность (подмножество) найденных документов или ссылок на них. Обычно он представляется пользователю в виде списка. То есть простейшей выходной формой в данном случае будет список ссылок в виде полных или частичных БО, найденных ИР. Такой список может быть тут же распечатан или послан на какой-либо адрес электронной почты, если такая возможность предоставляется ИПС и пользователь подключен к Интернету.

Графические и полнотекстовые ЭИР могут предлагаться пользователю только для просмотра, для копирования в различных форматах и масштабах, причём полностью или частично. Графические ИР обычно существуют в общепринятых форматах типа: JPG, GIFF, TIFF, BMP и др., а для текстовых материалов обычно используют текстовые форматы TXT, DOC и др., HTML и PDF - фактически графический формат, в котором могут сохраняться как текстовые, так и графические данные.

Полученные в результате поиска документы сохраняют.

Критерии оценки поиска 

Критерием результата поиска является получение пользователем списка документов, одного документа или их частей, максимально удовлетворяющего его потребностям, сформулированным в поисковом запросе. В ИПС принято формировать список полученных в результате поиска документов по их релевантности. Различают критерии смыслового и формального соответствия между поисковым предписанием и выдаваемым документом.

Полнота и точность поиска являются взаимосвязанными показателями. Увеличение одного из них ведёт к снижению другого. В современных ИПС при сбалансированном поиске их значения составляет примерно 70%. Следует учитывать ситуацию, при которой список выданных поисковой системой ссылок содержит несколько, а порой и десятки разных адресов с одним и тем же текстом. Подобные ссылки характеризуются как дубликаты. Из них, при подсчёте коэффициентов учитывается только один документ.

Оценка и обработка результатов поиска 

Учитывая, что идеальный результат поиска должен удовлетворять требованиям единственности, полноты и непротиворечивости, получаем, что различные виды поиска определяют различные требования к функциональным возможностям системы в части оценивания результата. Однако, для случая предметного поиска доказательство полноты является тривиальным: непустой результат поиска подтверждает факт существования (или отсутствия) объекта, обладающего искомыми свойствами. При этом результат тематического поиска множественен и требует последующей систематизации - ещё одного процедурного шага для упорядочения полученного множества объектов по значениям не определённого явно основания. В свою очередь, проблемный поиск предполагает уже двухуровневую систематизацию.

Развитие процесса поиска осуществляется путём модификации выражения ПОЗ, путем реформулирования запроса и проведения повторного поиска в том же массиве данных или в подмассиве, полученном в результате осуществления первоначального поиска.

Интерфейсные средства обработки результата и развития поиска используют два типа операционных объектов - отдельные документы или коллекции документов.

Интернет-поисковые системы

Для получения информации в среде Интернета создаются специальные поисковые системы. Как правило, они общедоступны и обслуживают пользователей в любой точке планеты, где имеется возможность работы с Интернетом. Непосредственно для поиска используются поисковые машины, число которых в мире исчисляется несколькими сотнями. Они ориентируются на определенные типы запросов или их сочетание (библиографический, адресный, фактографический, тематический и др.). Кроме того, бывают полнотекстовые, смешанные и другие поисковые машины.

Для проведения поиска в Интернете (в WWW) функционирует множество сайтов и поисковых систем, поэтому необходимо не только ориентироваться в таких системах, но и уметь осуществлять в них эффективный поиск, то есть использовать соответствующие технологии.

Технология поиска (англ. "Search Technology") означает совокупность правил и процедур, в результате выполнения которых пользователь получает ИР. При поиске в Интернете рекомендуется обращать внимание на две составляющие: полноту (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно соответствие найденных материалам этим критериям называют релевантностью, то есть соответствием ответа вопросу (запросу).

Поисковые системы характеризуются также временем выполнения поиска, интерфейсом, предоставляемым пользователю и видом отображаемых результатов. При выборе поисковых систем обращают внимание на такие их параметры, как охват и глубина. Под охватом понимается объём базы поисковой машины, измеряемый тремя показателями: общим объёмом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается - существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.

Каждая поисковая машина имеет свои алгоритмы сортировки результатов поиска. Чем ближе к началу списка, полученного в результате проведения поиска, оказывается нужный документ, тем выше релевантность и лучше работает поисковая машина.

Поисковые машины используют общие принципы работы, ориентированные на выполнение двух основных функций. Первая функция реализуется программой-роботом, автоматически просматривающей различные сервера в Интернете. Находя новые или изменившиеся документы, она осуществляет их индексацию и передаёт на базовый компьютер поисковой машины. "Робот" - автоматизированный браузер, загружающий веб-страницу, изучающий её и, при необходимости, переходящим к одной из её гиперсвязей. Когда ему попадается страница, не содержащая связей, робот возвращается на одну-две ступени назад и переходит по адресу, указанному в одной из обнаруженных ранее связей. Запущенный робот проходит огромные расстояния в среде Интернета (киберпространстве), ориентируясь на развитие веб-сети и изменяя в соответствии с этим свои маршруты. Индексирующие роботы обрабатывают лишь HTML-файлы, игнорируя изображения и другие мультимедийные файлы. Они могут: обнаруживать связи с уже несуществующими страницами; устанавливать связь с наиболее популярными узлами, подсчитывая количество ссылок на них в других веб-страницах; регистрировать веб-страницы для оценки роста системы и др. Чаще всего роботы просматривают сервера самостоятельно, находя новые внешние ссылки в уже обследованных документах. Вторая функция заключается в обработке выявленных документов. При этом учитывается все содержание страниц (не только полный текст, но и наличие иллюстраций, аудио и видео файлов, Java-приложений). Индексации подвергаются все слова в документе, что дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, составляют БД, к которой собственно и обращаются пользователи, вводя в поисковую строку ПОЗ (сочетания ключевых слов). Выдача результатов осуществляется с помощью специальной подсистемы, производящей интеллектуальное ранжирование результатов. В своих расчетах она опирается на местоположение термина, частоту его повторения в тексте, процентное соотношение данного термина с остальным текстом на данной странице и другие параметры, характеризующие возможности конкретной поисковой машины.

"Роботы" имеют ряд разновидностей, одной из которых является "паук" (англ. "spider"). Он непрерывно "ползает по сети", переходя с одной веб-страницы к другой с целью сбора статистических данных о самой "паутине" (Web) и (или) формирования некоторой БД с индексами содержимого веб.

Автоматизированные агенты "спайдеры" регулярно сканируют веб-страницы и актуализируют БД адресов (гиперссылки), средства индексирования информации, расположенные по указанным адресам. Полученные индексы используются для быстрого и эффективного поиска по набору терминов, задаваемых пользователем.

В разных системах эта цель достигается различным образом. Одни посылают "агентов" на каждую попадающуюся веб-страницу, индексируя все встречающиеся слова. Другие сначала анализируют БД адресов, определяя наиболее популярные (обычно подсчитывается число имеющихся ссылок на них). Именно эти веб-страницы в различной степени индексируются (только заголовки веб-страниц и ссылки, включая автоматическое аннотирование документов или весь текст).

Все чаще применяются "интеллектуальные агенты" - небольшие программы, обладающие способностью самообучаться, и действовать самостоятельно от имени своего владельца. Имея связь с компьютером пользователя, они выступают в роли персональных помощников, выполняющих ряд задач с применением знаний о потребностях и интересах пользователя. Интеллектуальные роботы-агенты ведут самостоятельный поиск в сети по собственным уникальным алгоритмам. Некоторые из них не только просматривают ключевые слова, но и осуществляют в Интернете семантический анализ информации, выявляя степень ее смыслового соответствия поставленной задаче.

Эффективный доступ к информации в Интернете обеспечивают такие зарубежные поисковые системы (машины), как Альта-Виста (AltaVista), "Lycos", "Yahoo", "Google", "OpenText", "Wais", "WebCrawler" и др. Их адреса в Интернете: www.altavista.com, www.yahoo.com, www.gogle.com, www.opentext.com,

К отечественным поисковым машинам относятся: Апорт ("Aport" АО Агама), Rambler (фирма Stack Ltd.), Яндех ("Yandex" фирма CompTek Int), "Русская машина поиска", "Новый русский поиск", и др. Их адреса в Интернете: www.aport.ru, www.rambler.ru, www.yandex.ru, search.interrussia.com, www.openweb.ru соответственно) и др.

Все эти поисковые машины позволяют по ключевым словам, тематическим рубрикам и даже отдельным буквам оперативно находить в сети, например, все или почти все тексты, где эти слова присутствуют. При этом пользователю сообщаются адреса сайтов, где найденные ИР постоянно присутствуют. Однако ни одна из них не имеет подавляющих преимуществ перед другими. Для проведения надежного поиска по сложным запросам специалисты рекомендуют использовать последовательно или параллельно (одновременно) различные ИПС.

Полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме этого, в языке HTML существуют тэги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.). Некоторые машины умеют искать словосочетания или слова на заданном расстоянии, что часто бывает важно для получения разумного результата.

Несмотря на общие принципы построения, поисковые системы отличаются тематикой, ее объемом, классификацией и интерфейсами. Для удобства перемещения (навигации) по имеющимся на поисковых машинах разделам некоторые из них используют специальный раздел "Карта".

Зачастую пользователю требуется текстовая и картографическая информация одновременно. В 80-е годы XX века эксперименты по решению этой проблемы начали проводить в Канаде, так появились первые географические информационные системы (ГИС) - компьютерные системы, позволяющие эффективно работать с пространственно-распределенной картографической информацией. ГИС - закономерное расширение концепции БД, дополняющее их наглядностью представления и возможностью решать задачи пространственного анализа. Они применяются для землеустройства, контроля ресурсов, экологии, муниципального управления, транспорта, экономики, решения социальных задач и др. До 80-90% всей информации, с которой обычно имеют дело пользователи, может быть представлено в ГИС. ГИС - этап перехода к безбумажной технологии обработки информации.

При проведении поиска поисковые серверы обычно используют данные, хранящиеся в веб-страницах в тегах метаданных: (title), (meta name=”keywords”) и (meta name=”description”). Формируя свои страницы, следует отражать в этих тегах сведения о назначении сайта и его тематике.

При этом необходимо знать, что чем меньше количество ключевых слов включено в эти теги, тем с большей частотой они могут встречаться в текстах страниц сайта и, следовательно, тем выше их релевантность. Оптимальным считается частота таких слов не более 5%. Ключевых слов должно быть не очень много, они в большей степени должны состоять из одного или двух слов, образуя наиболее употребляемые термины. Чем большую релевантность имеют ключевые слова, тем большую конкурентоспособность они придают документу с точки зрения поисковых машин.

Полноту и точность ответа пользователь получает в зависимости от точности сформулированного им запроса. В результате поиска ему обычно предоставляется гораздо больше информации, чем ему необходимо, часть которой может вообще не иметь отношение к сформированному запросу. Легко заметить, что многое зависит не только от грамотно сформулированного запроса, но и от возможностей поисковых систем, которые весьма различны. При этом достаточно ярко проявляется "лесной синдром" (из-за леса не видно дров), заключающийся в том, что в полученных данных можно пропустить главные, необходимые сведения. Очевидно, никакие меры не являются исчерпывающими в условиях постоянного расширения среды и появления новых разнообразных ИР, что подтверждает трудности поиска в WWW.

Простые запросы в виде отдельных достаточно распространенных терминов приводят к извлечению тысяч (сотен тысяч) документов, абсолютное большинство которых пользователю не требуется (информационный шум).

Важным аспектом также является возможность таких систем поддерживать многоязычность, то есть способность обрабатывать запросы на различных языках. Пользователям предлагаются двуязычные словари, электронный переводчик и др. Кроме того, появились системы, осуществляющие мгновенный ("на лету") перевод информационных ресурсов, найденных пользователем в Интернет и копируемых на его компьютер.

Актуальным является использование машиночитаемых тезаурусов. Электронный тезаурус - словарь, предназначенный для анализа текста и информационного поиска, включающий широкий набор семантических отношений между составляющими его терминами.

Создаются системы, позволяющие эффективно вести поиск в полнотекстовых БД. Они базируются на использовании технологий синтаксического и морфологического анализа текста (разбивка на элементы, распознаваемые программой) и оперативной обработки текстов на естественных языках.

Разработчики поисковых систем пытаются адаптировать их под начинающих и "средних" пользователей Интернета, количество которых неуклонно растет. В канадской системе (www.web-help.com), пользователям предлагается набор ссылок, подготовленных сотрудниками интернет-компании. На запрос пользователя сотрудник в реальном режиме времени находит и подключает на экран пользователя соответствующий (по его мнению) сайт. Метод удобен для нахождения конкретных фактов, статистики и т.п., которые другими способами непросто найти.

При организации одинакового запроса на разных поисковых машинах возможно получение различных по содержанию и широте охвата материалов. Искусство построения запроса требует знаний особенностей каждой конкретной поисковой системы и наличия опыта работы с Интернетом вообще. Некоторые поисковые машины предлагают квазиинтеллектуальные средства, позволяющие менее опытному пользователю, традиционно задавая вопросы на естественном языке, получать достаточно релевантные данные.

Обычно поиск в полнотекстовых БД осуществляется с использованием морфологических анализаторов (как правило, русских и английских), позволяющих автоматически находить существующие словоформы по фрагменту слова, слову, фразе, даже если в словах запроса присутствуют некоторые опечатки.

Используются метапоисковые системы, обеспечивающие в результате поиска получение суммарных данных с десятка поисковых систем, но при этом объем информации может быть весьма значительным. Частично данная проблема решается предоставлением ими общего списка, в начале которого будут данные, наиболее релевантные запросу. Другим способом удовлетворения потребностей пользователей явилось создание тематически узконаправленных поисковых систем на веб-сайтах - порталов.

Важность проблемы информационного поиска в Интернете породила целую отрасль, задача которой заключается в том, чтобы помочь пользователю в его навигации в киберпространстве. Составляют эту отрасль специальные поисковые инструменты. Условно их можно разделить на поисковые средства справочного типа или просто справочники (directories) и поисковые системы в чистом виде (search engines).

Метапоисковые системы

Увеличение числа поисковых систем в Интернете обусловило появление "метапоисковых систем". Они дают возможность пользователю одновременно в едином пользовательском интерфейсе, используя индексы обычных поисковых систем, работать с несколькими БД. Пока еще "метапоисковые системы" не позволяют реализовать все возможности отдельных поисковых систем, но в большинстве своем он обладают существенными быстродействием и степенью охвата Web-пространства, что определяет их все более возрастающие значение и популярность.

Классификационные информационно-поисковые языки

Информационно-поисковые каталоги основаны на классификации сведений по определенной предметной области и исторически были первыми системами информационного поиска документов в библиотечном и архивном деле, возникнув еще в средние века по сложившейся тогда схеме разделения наук и искусств.

Классификация - это группировка объектов по признакам.

Основные направления развития систем классификационного индексирования документов можно проиллюстрировать схемой, приведенной на

.

Рисунок . Системы классификационного индексирования документов

Первоначальные подходы к классификации тематики (предмета) документов основывались на формировании списка предметных заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно-цифровой код. Содержание (предметы) документа индексировалось перечислением кодов тех рубрик, которые отражали предметы документа. Такие подходы получили название перечислительной классификации.

Особенностью систем перечислительной классификации является возможность индексирования документов любым количеством предметов (рубрик), отражающих содержание документа. Для осуществления поиска необходимых документов по классификатору (каталогу) определяются коды интересующих абонента предметов (рубрик) и далее отбираются из хранилища те документы, которые проиндексированы соответствующими кодами.

Для удобства поиска и отбора по каждому документу формируется специальная карточка, на которую наносится информация о кодах предметных рубрик документа, а также об авторе, названии и др. библиографических данных документа, его физическом местонахождении, и реферат, который уже на естественном языке в сжатом виде, отражает содержание документа. Поиск и отбор документов непосредственно осуществляется по отбору карточек с необходимыми индексными кодами для последующего извлечения из хранилища собственно самих документов.

Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечислительной классификации.

При систематизированной классификации список предметных рубрик строится, как иерархическая структура, в виде перевернутого дерева. Вся предметная область ИПС разбивается на ряд взаимоисключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик по принципу «Род-Вид». Таким образом, при систематизированной классификации используются уже некоторые семантические основы предметной области, выражаемые в родо-видовых отношениях основных категорий, понятий и классов. Представление иерархической классификации производится либо в виде древовидного графа (

), либо в табличном виде.

Рисунок . Древовидная форма представления иерархической классификации

Так же, как и при перечислительной классификации, содержание документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании более общих рубрик, к которым относятся отмеченные подрубрики. В результате индексирование и поиск документов на основе иерархической классификации позволяют более адекватно отражать содержание документов и обеспечивают большую точность поиска.

Перечислительный и иерархический подходы к классификации впоследствии воплотились в широко используемых в библиотечной практике алфавитно-предметных каталогах, наиболее распространенным из которых в настоящее время является универсальная десятичная классификация (УДК).

Недостатком как перечислительной, так и иерархической классификации является принципиальная невозможность заранее перечислить все темы, по которым существуют или могут существовать документы.

Принцип организации классификационного индексирования документов, преодолевающего в определенной степени такие ограничения перечислительной и иерархической классификации, был предложен в 30-х годах выдающимся индийским библиотековедом и математиком Ш. Р. Ранганатаном. Впоследствии развит в работах английской группы по исследованию классификаций (Classification Research Group) и получил название аналитико-синтетической или иначе фасетной классификации. Идея фасетной классификации состоит в том, что вся предметная область сведений разбивается на ряд исходных групп рубрик (фасет) по организационно-технологическому или семантическому принципу, отражающему специфику предметной области.

Фасеты выступают в роли «кирпичиков», из которых можно сложить (сконструировать) любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу.

Основное достоинство фасетной классификации заключается в возможности ограниченным небольшим перечнем фасетных рубрик отразить (сконструировать) огромное количество узких специализированных рубрик и, тем самым, наиболее точно и полно проиндексировать содержание документов.

Специфической проблемой фасетной классификации является влияние на эффективность поиска документов порядка следования обозначений рубрик фасет. Психологические особенности поиска таковы, что пользователь в первую очередь сосредоточивает внимание на обозначениях тех подрубрик, которые стоят первыми в цепном списке сконструированной формулы, и если интересующие его в первую очередь сведения отражаются рубрикой, стоящей не на первом месте, то он может «с ходу» отвергнуть всю формулу. Для преодоления этого недостатка используется так называемая пермутация, при которой для документа приводится список всех возможных вариантов написания сконструированной фасетной формулы на основе циклической перестановки.

Сильной стороной фасетной классификации является более глубокое, чем при иерархической классификации, использование семантики. Фасеты, как уже отмечалось, отражают определенные семантические основы предметной области ИПС, содержащие помимо родо-видовых и некоторые прочие семантические, в частности ролевые, отношения.

Дескриптормые информационно-поисковые языки

В основе построения дескрипторных ИПЯ (ДИПЯ) лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов, т. е. списком наиболее существенных для понимания текста назывных полнозначных слов. Полнозначные слова - существительные, прилагательные, глаголы, наречия, числительные, местоимения. Неполнозначные слова - предлоги, союзы, связки, частицы.

Основными элементами ДИПЯ являются:

  1.  Словарь лексических единиц, обеспечивающий выделение определенных частей текста и их замену на коды лексических единиц.
  2.  Правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов (слов и словосочетаний - морфология; фраз, текстов в целом - синтаксис) с естественного языка на ИПЯ.
  3.  Правила построения и ведения ИПЯ, определяющие процедуру изменения и совершенствования ИПЯ, т. е. его словаря и правил применения.

Словари лексических единиц делятся на две группы: основные лексические словари, составляющие лексику ИПЯ, и морфологические словари, обеспечивающие морфологический анализ и нормализацию слов.

В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы. Соответствующие им словари носят названия: "Словарь ключевых слов", "Словарь словосочетаний" и "Словарь дескрипторов".

Дескриптор - понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов, т. е. это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание.

Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).

Наиболее важными парадигматическими отношениями ИПТ являются:

  •  соподчинение;
  •  вид-род (род-вид);
  •  часть-целое (целое-часть);
  •  причина-следствие (следствие-причина);
  •  функциональное сходство.

Обобщенная структура ИПТ включает как минимум три составляющих: словарную часть, семантическую карту, руководство по использованию.

Словарная часть - алфавитный список дескрипторов с их словарными статьями и ключевых слов.

Семантическая карта - система тематических классов дескрипторов, представленная в виде графической схемы или таблицы.

Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.

Тезаурус (от греч. «хранилище», «запас», «сокровищница») в узком смысле представляет собой специальный словарь-справочник, в котором перечислены ключевые слова-дескрипторы определенной предметной области, указаны синонимичные им ключевые слова, установлены способы устранения синонимии, омонимии, полисемии, определены родо-видовые и ассоциативные связи дескрипторов.

В более общем плане в тезаурусе выделяют классификационную схему и алфавитный перечень дескрипторов - ключевых слов. Классификационная схема определяет систематизацию дескрипторов по уровням иерархии исходя из «родо-видовых» или ролевых отношений. Алфавитный перечень содержит словарный фонд дескрипторов для индексирования документов.

Внешним отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации со связями и ролевыми отношениями является то, что в тезаурусах помимо классификационной схемы присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов, понятий и т. д., но не определены и нет самих ключевых терминов, им соответствующих.

Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности и автоматизации индексирования документов в рамках дескрипторного подхода. Иначе говоря, в системах на основе информационно-поисковых тезаурусов ПОД представлен набором дескрипторов (ключевых терминов). Однако в процессе индексирования документов учитываются семантические (родо-видовые, ролевые, синонимичные, омонимичные, полисемичные и ассоциативные) отношения между дескрипторами, что, в конечном счете, обеспечивает более адекватный содержанию ПОД и повышает эффективность поиска документов (по точности, полноте и шуму).

На основе практики разработки и использования информационно-поисковых тезаурусов были также разработаны специальные представления тезаурусов, закрепленные в нашей стране в соответствующих ГОСТах. Согласно ГОСТ 18383-73 «Тезаурус информационно-поисковый. Общие положения. Форма представления» форма представления тезауруса включает алфавитное перечисление статей по каждому дескриптору (термину) в следующем виде:

РЕФЕРАТ

с резюме

в СВЕРТЫВАНИЕ ИНФОРМАЦИИ

н РЕФЕРАТ АВТОРСКИЙ

РЕФЕРАТ ГРАФИЧЕСКИЙ

РЕФЕРАТ ИНФОРМАТИВНЫЙ

РЕФЕРАТ «ТЕЛЕГРАФНОГО СТИЛЯ»

РЕФЕРАТ УКАЗАТЕЛЬНЫЙ

РЕФЕРИРОВАНИЕ

а АННОТАЦИЯ

где в качестве буквенных обозначений выступают следующие:

  •  с — термины-синонимы;
  •  в—термины, подчиняющие заглавный термин, т. е. выше по иерархии;
  •  н—термины, подчиненные заглавному, т. е. ниже по иерархии;
  •  а—термины, ассоциированные с заглавным термином.

Еще одной особенностью тезаурусов является применяемая на практике возможность расширения словарной базы новыми ключевыми терминами, появляющимися при накоплении документов в ходе эксплуатации системы. В этом плане различают базовые и рабочие тезаурусы. Базовые тезаурусы выступают в качестве нормативных пособий по лексике в той или иной отрасли знаний или предметной области. Рабочие тезаурусы в стартовом виде строятся на основе базовых тезаурусов и дополняются в процессе индексирования и анализа появления в документах новых или специфичных терминов (так называемые профессионализмы, иногда жаргонные термины и т. д.).


Системы индексирования

Индексирование базируется на совокупности инструкций, детально описывающих процесс индексирования и представляющих собой комплекс правил, включающих и правила применения ИПЯ.

Система индексирования (СИ) - совокупность методов и средств перевода текстов с ЕЯ на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ИПЯ.

Рассмотрим технологию систем индексирования по пяти наиболее важным основаниям.

  1.  По степени автоматизации процесса индексирования можно различать системы:

а) ручного индексирования;

б) автоматического индексирования;

в) автоматизированного индексирования.

Наиболее широко распространены автоматизированные СИ.

  1.  По степени контролируемости различают СИ:

а) без словаря (может быть факультативное использование словарей);

б) с жестким словарем;

в) со свободным словарем.

  1.  По характеру алгоритма отбора слов текста могут быть СИ:

а) с последовательным просмотром текста;

б) с эвристическими процедурами выбора слов текста;

в) со статистическими процедурами выбора слов.

В случае (а) отбираются все полнозначные слова, в случае (в) — только информативные слова в соответствии с распределением частот их употребления, в случае (б) слова отбираются интуитивно или по заданной процедуре.

  1.  По характеру лексикографического контроля существуют системы:

а) без лексикографического контроля;

б) с полным контролем;

в)  с промежуточным контролем. Лексикографический контроль предусматривает:

— устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними;

— приведение всех слов к нормальному виду на основе морфологических нормативных словарей.

  1.  По характеру морфологического анализа слов различают СИ с морфологическим анализом с использованием:

а) морфологических словарей;

б) основных лексических словарей;

в) морфологического анализа с усечением слов.

Возможны системы индексирования без морфологического анализа. Системы свободного индексирования. Процесс индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Такие слова он может брать из своей памяти, любых словарей, энциклопедий, вообще любых текстов. Отобранный список слов является поисковым образом текста. Это СИ с ручным индексированием.

Системы полусвободного индексирования. В данном случае процесс индексирования аналогичен вышеописанному, но слова сформированного списка сравниваются со словарем, несовпадающие слова отбрасываются и в ПОД не включаются.

Системы жесткого индексирования. При этом слова выписываются только из текста. В ПОД включаются только те слова, которые есть в словаре. Перед включением термина в словарь проводится его морфологическая нормализация на основе основных лексических словарей.

Системы статистического автокодирования. Слова выбираются из текста по заданным статистическим процедурам, после чего проводится их статистическое кодирование путем усечения слов по алгоритмам позиционной статистики.

Автоматизация индексирования документов.

Сформировалось два различных по содержанию подхода к автоматическому индексированию. Первый подход основан на использовании словаря ключевых слов (терминов) и применяется в системах на основе информационно-поисковых тезаурусов. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа каждого ключевого термина. На этой основе строится и поддерживается индекс системы, собственно и реализующий поисковое пространство документов. Применяется два типа образования индекса — прямой и инвертированный (см. ).

Рисунок . Прямой и инвертированный типы организации индекса

Прямой тип индекса строится по схеме «Документ-термины». Поисковое пространство в этом случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов.

Инвертированный тип индекса строится по обратной схеме - «Термин-документы». Поисковое пространство соответственно представлено аналогичной матрицей только в транспонированной форме. Поисковыми образами документов в этом случае являются столбцы матрицы.

Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).


Полнотекстовые информационно-поисковые системы

Процессы массовой компьютеризации и информатизации деятельности предприятий, организаций в конце 80-х и в 90-х годах привели к накоплению огромных массивов неструктурированной текстовой компьютерной информации, с одной стороны, и доступности вычислительной техники, с другой стороны. Возникла потребность в программном инструментарии, который бы обеспечивал эффективный поиск нужных текстовых данных.

Семантические подходы к автоматизации такого рода задач (информационно-поисковые каталоги, фасетные и тезаурусные системы) не могли быть в полной мере использованы в массовой персональной автоматизации, т. е. на рабочем месте отдельного пользователя или для небольшой рабочей группы, так как требовали серьезной предварительной проработки соответствующей предметной области. Потребовались средства, которые бы в максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении, получении и агрегировании текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий необходимых документов.

В результате на рынке программных продуктов в конце 80-х годов появились полнотекстовые ИПС и программные средства их создания, называемые иногда полнотекстовыми СУБД.

Полнотекстовые ИПС строятся на основе информационно-поисковых языков дескрипторного типа. Их информационно-технологическая структура включает следующие элементы:

  •  хранилище (базу) документов;
  •  глобальный словарь системы;
  •  индекс документов инвертированного типа;
  •  интерфейс ввода (постановки на учет) документов в систему;
  •  механизм (машину) индексирования;
  •  интерфейс запросов пользователя;
  •  механизм поиска документов (поисковую машину);
  •  механизм извлечения (доставки) найденных документов.

Хранилище документов может быть организовано как единая локально сосредоточенная информационная структура в виде специального файла (файлов) с текстами документов. Организация такого файла предусматривает указательную конструкцию на основе массива адресов размещения документов. Для компактного хранения документов они могут быть сжаты архиваторами.

Одним из наиболее характерных элементов полнотекстовых ИПС является глобальный словарь системы. Глобальные словари могут быть статическими и динамическими.

Статические словари не зависят от содержания документов, вошедших в хранилище, а определены изначально в системе. В качестве таких статических словарей в том или ином виде, как правило, выступают словари основных словоформ соответствующего языка (русского, английского, немецкого и т. д.).

Динамические словари определяются набором словоформ, имеющихся в накапливаемых в хранилище документах. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы, которых еще не было в ранее накопленных документах.

Элементы глобального словаря выступают в качестве дескрипторов ИПЯ системы. Поступающие через интерфейс ввода/вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых ИПС полностью автоматизируется и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером (позицией) из глобального словаря.

Важной особенностью, оказывающей существенное влияние на эффективность полнотекстовых ИПС, является наличие либо отсутствие морфологического разбора при индексировании документов и запросов.

Морфологический разбор позволяет распознавать как одну общую словоформу все однокоренные слова (вода, водный, водяной), а также лексемы, т.е. одни и те же слова, отличающиеся в тексте различными окончаниями, приставками и суффиксами (водный, водного, водному, воду, воде и т.п.). Такой процесс основывается на нормализации глобального словаря системы, объединяющей в одну словоформу (в одну позицию) все однокоренные слова и лексемы. Кроме того, при морфологическом разборе отбрасываются так называемые неинформативные слова (стоп-слова) — предлоги, союзы, восклицания, междометия и некоторые другие грамматические категории. В большинстве случаев морфологический разбор осуществляется в системах со статическим глобальным словарем.

В результате индексирования ПОД каждого нового документа представляется набором словоформ из глобального словаря, присутствующих в тексте документа, и поступает в виде соответствующего двоичного вектора для дополнения индекса системы. Индекс строится по инвертированной схеме и в двоичном виде отражает весь (полный) текст учтенных или накопленных документов. При удалении документа из системы соответственно удаляется и поисковый образ документа, т.е. соответствующий столбец индекса.

Пользователь языком запросов ИПЯ полнотекстовой ИПС через соответствующий интерфейс запросов выражает свои информационные потребности по поиску документов, которые в общем плане, так же как и документы, индексируются и в виде двоичных векторов поисковых образов запросов поступают на поисковую машину. Механизм поиска основывается на тех или иных алгоритмах и критериях сравнения поискового образа запроса с поисковыми образами документов, образующими индекс системы. Результатом поиска является определение номеров документов, поисковые образы которых соответствуют или близки поисковому образу запроса. Далее специальная подсистема на основе установленных в хранилище документов указательных конструкций извлекает и доставляет соответствующие документы пользователю.

Как работают механизмы поиска

1. Введение

Основные протоколы, используемые в Интернет (в дальнейшем также Сеть), не обеспечены достаточными встроенными функциями поиска, не говоря уже о миллионах серверах, находящихся в ней. Протокол HTTP, используемый в Интернет, хорош лишь в отношении навигации, которая рассматривается только как средство просмотра страниц, но не их поиска. То же самое относится и к протоколу FTP, который даже более примитивен, чем HTTP. Из-за быстрого роста информации, доступной в Сети, навигационные методы просмотра быстро достигают предела их функциональных возможностей, не говоря уже о пределе их эффективности. Не указывая конкретных цифр, можно сказать, что нужную информацию уже не представляется возможным получить сразу, так как в Сети сейчас находятся миллиарды документов и все они в распоряжении пользователей Интернет, к тому же сегодня их количество возрастает согласно экспоненциальной зависимости. Количество изменений, которым эта информация подвергнута, огромно и, самое главное, они произошли за очень короткий период времени. Основная проблема заключается в том, что единой полной функциональной системы обновления и занесения подобного объема информации, одновременно доступного всем пользователям Интернет во всем мире, никогда не было. Для того, чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы.

2. Поисковые системы

Поисковые cистемы обычно состоят из трех компонент:

  •  агент (паук или кроулер), который перемещается по Сети и собирает информацию;
  •  база данных, которая содержит всю информацию, собираемую пауками;
  •  поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

2.1 Как работают механизмы поиска 

Cредства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются. Cредства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как cобирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют cсылки к ресурсам типа баз данных WAIS; другие проинструктирова-ны, что нужно просматривать прежде всего наиболее популярные страницы.

  •  Агенты - самые "интеллектуальные" из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.
  •  Общий поиск информации в Сети осуществляют программы, известные как пауки. Пауки сообщают о содержании найденного документа, индексируют его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.
  •  Кроулеры просматривают заголовки и возращают только первую ссылку.
  •  Роботы могут быть запрограммированы так, чтобы переходить по различным cсылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

Агенты извлекают и индексируют различные виды информации. Некоторые, например, индексируют каждое отдельное слово во встречающемся документе, в то время как другие индексируют только наиболее важных 100 слов в каждом, индексируют размер документа и число слов в нем, название, заголовки и подзаголовки и так далее. Вид построенного индекса определяет, какой поиск может быть сделан поисковым механизмом и как полученная информация будет интерпретирована.

Агенты могут также перемещаться по Интернет и находить информацию, после чего помещать ее в базу данных поискового механизма. Администраторы поисковых систем могут определить, какие сайты или типы сайтов агенты должны посетить и проиндексировать. Проиндексированная информация отсылается базе данных поискового механизма так же, как было описано выше.

Люди могут помещать информацию прямо в индекс, заполняя особую форму для того раздела, в который они хотели бы поместить свою информацию. Эти данные передаются базе данных.

Когда кто-либо хочет найти информацию, доступную в Интернет, он посещает страницу поисковой системы и заполняет форму, детализирующую информацию, которая ему необходима. Здесь могут использоваться ключевые слова, даты и другие критерии. Критерии в форме поиска должны соответствовать критериям, используемым агентами при индексации информации, которую они нашли при перемещении по Сети.

База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае, документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие:

  1.  Количество слов запроса в текстовом содержимом документа (т.е. в html-коде).
  2.  Тэги, в которых эти слова располагаются.
  3.  Местоположение искомых слов в документе.
  4.  Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа.

Эти принципы применяются всеми поисковыми системами. А представленные ниже используются некоторыми, но достаточно известными (вроде AltaVista, HotBot).

  1.  Время - как долго страница находится в базе поискового сервера. Поначалу кажется, что это довольно бессмысленный принцип. Но, если задуматься, как много существует в Интернете сайтов, которые живут максимум месяц! Если же сайт существует довольно долго, это означает, что владелец весьма опытен в данной теме и пользователю больше подойдет сайт, который пару лет вещает миру о правилах поведения за столом, чем тот, который появился неделю назад с этой же темой.
  2.  Индекс цитируемости - как много ссылок на данную страницу ведет с других страниц, зарегистрированных в базе поисковика.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка - некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе с ccылкой.

Когда Вы щелкаете на ссылке к одному из документов, который вас интересует, этот документ запрашивается у того сервера, на котором он находится.

2.2 Сравнительный обзор поисковых систем 

Lycos. В Lycos используется следующий механизм индексации:

  •  слова в <title> заголовке имеют высший приоритет;
  •  слова в начале страницы;
  •  слова в ссылках;
  •  если в его базе индекса есть сайты, ссылка с которых указывает на индексируемый документ - релевантность этого документа возрастает.

Как и большинство систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу выдается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной. Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса, предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом. Таким образом, видно, что Lycos относится к системе с языком запросов типа "Like this", но намечается его расширение и на другие способы организации поисковых предписаний.

AltaVista. Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты:

  •  слова содержащиеся в теге <title> имеют высший приоритет; ключевые фразы в <Meta> тэгах;
  •  ключевые фразы, находящиеся в начале странички;
  •  ключевые фразы в ALT - ссылках
  •  ключевые фразы по количеству вхождений\присутствия слов\фраз;

Если тэгов на странице нет, использует первые 30 слов, которые индексирует и показывает вместо описания (tag description)

Наиболее интересная возможность AltaVista - это расширенный поиск. Здесь стоит сразу оговориться, что, в отличие от многих других систем AltaVista поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

Yahoo. Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR. При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

OpenText. Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.

Infoseek. В этой системе индекс создает робот, но он индексирует не весь сайт, а только указанную страницу. При этом робот имеет такие приоритеты:

  •  слова в заголовке <title> имеют наивысший приоритет;
  •  слова в теге keywords, description и частота вхождений\повторений в самом тексте;
  •  при повторении одинаковых слов рядом выбрасывает из индекса
  •  Допускает до 1024 символов для тега keywords, 200 символов для тэга description;
  •  Если тэги не использовались, индексирует первые 200 слов на странице и использует как описание;

Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков "+" - термин обязан быть в документе, и "-" - термин должен отсутствовать в документе. Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.

WAIS. WAIS является одной из наиболее изощренных поисковых систем Internet. В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых машин, система позволяет строить не только вложенные булевые запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов. Не случайно именно эта система была выбрана в качестве основной поисковой машины для реализации энциклопедии "Британика" на Internet.


 

А также другие работы, которые могут Вас заинтересовать

39266. Управление каналами сбыта на «ОАО Беллакт» 214.5 KB
  Канал распределения — совокупность фирм или отдельных лиц, которые принимают на себя или помогают передать кому-то другому право собственности на конкретный товар или услугу на их пути от производителя к потребителю.
39267. Конструкция преобразователя напряжения 12/300В 743 KB
  Требования безопасности при производстве преобразователя напряжения Пожарная безопасность. Для питания электрооборудования от источников постоянного тока широко используются преобразователи напряжения. Наметившаяся тенденция микроминиатюризации в радиоэлектронике привела к тому что полупроводниковые преобразователи...
39268. Разработка конструкции печатного узла регулируемого двухполярного блока питания 950.5 KB
  1 Выбор типа печатной платы односторонняя двухсторонняя; 15 – 16 4.2 Выбор материала печатной платы; 16 – 18 4.3 Выбор метода изготовления печатной платы; 18 – 19 4.6 Расчет размеров печатной платы узла; 23 – 24 4.
39269. Технико-экономический расчет и проектирование участка изготовления печатных плат для сборки изделия: Реле времени с годовой программой 115000 штук 1.12 MB
  1 Расчет количества оборудования коэффициента загрузки. Технические данные оборудования 2.7 Расходы по содержанию и эксплуатации оборудования 2. По мере развития и совершенствования интегральных схем происходит увеличение сложности и стоимости оборудования для их производства и контроля качества.
39270. Рабочее место электромонтажника 134 KB
  В современных производственных условиях рабочие монтажники радиоэлектронной аппаратуры должны уметь пользоваться сборочномонтажными чертежами читать электрические схемы знать слесарносборочные монтажные и регулировочные операции маркировку современных электрорадиоэлементов обнаруживать и устранять неисправности в собираемых изделиях знать правила безопасности труда. 4 Перечень НТД по охране труда безопасности работы руководящим должностным и производственным инструкциям № № инструкций Наименование инструкций 1 489 По охране...
39271. Устройство защиты аппаратуры от аномальных напряжений сети 284.32 KB
  Котова Устройство защиты аппаратуры от аварийного напряжения сети Радио 2008 № 8 с. Из сетевого напряжения ограничительным диодом VD2 формируется переменное близкое к прямоугольному напряжение амплитудой около 18 В. Варистор RU1 защищает симистор VS1 от бросков напряжения при коммутации нагрузки индуктивного характера. Контроль величины сетевого напряжения осуществляет встроенный АЦП микроконтроллера DD1.
39272. Машиностроительный комплекс 425.17 KB
  Изменение структуры занятости по отраслям хозяйственного комплекса и сферам приложения труда свидетельствует о развитии рыночных структур в экономике. Повышение специализации производства требует использования высокопроизводительного оборудования; внедрения новых методов технологии механизации и автоматизации производственных процессов; повышения уровня квалификации персонала и увеличения производительности труда это снижает себестоимость при одновременном улучшении качества что приводит к увеличению реализации росту прибыли и...
39273. Социология труда и менеджмента. (Ф. Тейлор, Э. Мейо) 17.07 KB
  Социология труда (в развитых государствах Запада чаще она именуется индустриальной социологией) начала развиваться в 20-30-х гг. XX века. Исследуя проблемы, связанные с социальной сущностью труда, индустриальная социология важным объектом анализа ставит социально-трудовые отношения.
39274. АНАЛІЗ АСОРТИМЕНТУ, СПОЖИВНИХ ВЛАСТИВОСТЕЙ І КОКУРЕНТОСПРОМОЖНОСТІ КОМП’ЮТЕРІВ, ЯКІ РЕАЛІЗУЮТЬСЯ В ТОВ «САВ-ДІСТРИБ’ЮШН» В М. ДОНЕЦЬК 727 KB
  Основні тенденції розвитку світового і вітчизняного ринку комп’ютерів Фактори які формують асортимент і якість комп'ютерів Аналіз ринку комп’ютерів в Україні та світі Нові технології в розвитку асортименту комп’ютерів Обґрунтування та удосконалення класифікації комп’ютерів РОЗДІЛ 2. Практичні аспекти реалізації оцінки якості комп’ютерів 2. Споживні параметри комп’ютерів та методи їх оцінки 2.