17476

Документальный информационный поиск в сети Интернет

Лекция

Информатика, кибернетика и программирование

Лекция №9 Документальный информационный поиск в сети Интернет Информационнопоисковые системы Интернет могут быть разделены по функциональноструктурному принципу на следующие классы: полностью распределенные системы где реализуются принципы распределенных вы

Русский

2013-07-01

40.5 KB

3 чел.

Лекция №9 Документальный информационный поиск в сети Интернет

Информационно-поисковые системы Интернет могут быть разделены по функционально-структурному принципу на следующие классы:

полностью распределенные системы, где реализуются принципы распределенных вычислений и хранения данных;

частично распределенные — распределенные данные и локализованная обработка;

локальные системы — локализованные данные и их обработка(см. выше, Weblrbis).

Поисковые задачи в сети Интернет имеют следующие особенности:

/. Огромный объем доступной информации. За последние годы было предпринято множество попыток оценить размер ресурса Интернет, и, хотя оценки не полностью совпадают, все они единогласны в том, что в Интернет содержится более миллиарда страниц и их число увеличивается экспоненциально. Если учесть, что размер среднестатистической страницы составляет 5—10 Кб, объем оценивается в десятках терабайт (10 х 240 байт).

  1.  Высокий процент временной информации. Информация в Интернет очень динамична, информационные ресурсы непрерывно появляются, пропадают, перемещаются, обновляются. В среднем, ежемесячно изменяется около 40 % информации, среднее время жизни половины страниц в Интернет не превышает 10 дней.
  2.  Неконтролируемое качество информации. Отсутствие редакторского контроля над публикуемой информацией в Интернет обуславливает проблему ее качества — информация может быть некорректной (например, устаревшей), ложной, плохо сформулированной, содержать ошибки (опечатки, грамматические ошибки, ошибки оцифровки и т. п.). Так, по некоторым оценкам, одна опечатка
    встречается в среднем в каждых двухстах часто употребляемых словах или в трех иностранных фамилиях.
  3.  Разнородность информации. Кроме различных форматов представления информации, используется также множество различных языков и алфавитов. Около 30 % информации в Интернет составляют точные или приблизительные копии других документов.

В Интернет изменяется понятие типичного пользователя. Имеются следующие различия:

плохо сформулированные запросы. Никто специально не обучает пользователей АИ ПС в Интернет формулировать запросы, и, как следствие, немногие из них используют расширенные возможности поиска, такие, как логические выражения. Более того, типичные запросы очень коротки — более 60 % поисковых запросов в Интернет состоит из 1—2 слов, в то время как в классических АИ ПС — из 7—9 слов;

разнородный контингент. Разнообразие в знаниях, потребностях и ожиданиях пользователей очень велико. Большинство же работающих с классическими ИПС обычно имеет много общих черт;

поведение пользователей. Обычно они не готовы долго ожидать результата или даже искать его в предоставленной системой выборке (58 % не идет дальше первого экрана, а 67 % не предпринимает попыток модифицировать свой первоначальный запрос).

Структура процессов в поисковых системах WWW. Ключевым отличием данных систем от классических АИПС является наличие сетевых роботов программных модулей-агентов, занимающихся сбором информации о доступных WWW-pecypcax. Они осуществляют сканирование и, начиная с некоторого множества ссылок (URL) на WWW-страницы, рекурсивно обходят ресурсы Интернет, извлекая ссылки из получаемых документов до тех пор, пока не будет выполнено некоторое условие остановки.

Собранная информация помещается в хранилище, содержимое которого определяет набор документов, по которым идет поиск.

Как и в классических ИПС, для достижения приемлемой эффективности поиск производится не напрямую по документам в хранилище, а по индексным структурам, за создание которых отвечает модуль индексирования.

Получение и выполнение запросов пользователей — это задача модуля поисковой машины.

При исследовании задачи сканирования возникает ряд вопросов.

1. Выбор WWW-ссылок для индексирования. Обычно робот имеет информацию о существовании множества еще не отсканированных ресурсов и может выбирать, какой из них «посетить» следующим. Этот выбор осуществляется согласно используемой роботом стратегии сканирования, которая напрямую определяет множество страниц, которое будет обработано роботом и, как следствие, какие страницы будут известны поисковой системе.

  1.  Частота обновления индекса. В связи с высокой динамикой изменений в WWW собранная информация о многих посещенных страницах довольно быстро перестает отражать их реальное текущее содержание.
  2.  Минимизация нагрузки на WWW-серверы. Робот не должен перегружать сервер своими запросами или сканировать информацию против воли владельца сервера. Для выражения этих условий может использоваться файл robots.txt, располагающийся в корневом каталоге сервера.
  3.  Организация параллельного сканирования. Одним из способов повышения производительности является параллельный запуск нескольких роботов на разных машинах, но при этом необходим хорошо масштабируемый механизм координации их действий (например, чтобы они одновременно не сканировали один и тот же адрес).

Индексы поисковых систем. Важнейшим отличием поисковых систем для поиска в Интернет от классических систем информационного поиска является необходимость обслуживания всех запросов без реального доступа к ресурсам на момент их выполнения, иначе необходимо либо хранить свежую локальную копию всех ресурсов (что слишком накладно), либо посещать их во время выполнения запроса (что слишком медленно).

Поэтому в системах поиска в Интернет все запросы обслуживаются на основе индекса, содержащего описания известных данной поисковой системе ресурсов.

Хранилище. Хранилище содержит большое количество объектов данных (страниц WWW) и в этом смысле очень похоже на СУБД или файловую систему. Однако многие возможности последних в данном случае не нужны (например, поддержка транзакций или иерархия директорий), зато очень важны такие, как масштабируемость и реализация двух режимов доступа:

произвольного — для того, чтобы быстро найти конкретную страницу по ее идентификатору (например, для создания копии страницы);

потокового — для того, чтобы извлечь значительную часть всей коллекции (например, для индексирования или анализа).

Кроме того, важными являются эффективная поддержка обновлений, сборка «мусора» (устаревших страниц).

Модуль индексирования. Задачей этого модуля является построение необходимых индексов. Кроме текстовых, часто используются индексы, описывающие структуру графа WWW, а также вспомогательные индексы (например, индекс для доступа к страницам по их длине или по количеству используемых графических изображений).

Специфика WWW определяет свои особенности построения текстового индекса для ИПС. В дополнение к традиционным целям — минимизации времени доступа и размера индекса, также важно минимизировать время его создания и обеспечить возможность эффективного обновления.

Поисковая машина. Расширенные возможности поиска имеют малый спрос у пользователей ИПС для WWW. Как следствие, за исключением предикатов, позволяющих наложить условия на входящие/исходящие ссылки, в языках запросов, применяемых в системах в WWW, нет существенных нововведений по сравнению с языками запросов классических ИПС.

Однако простота запросов влечет их низкую селективность, и поэтому очень важной задачей является упорядочивание результатов, так чтобы первыми оказались те результаты, которые, вероятнее всего, интересны пользователю. Классические подходы к ранжированию опираются на меру схожести текстов запроса и документа, но «расплывчатые запросы» пользователей и огромное количество документов значительно понижают эффективность таких подходов в контексте WWW.


 

А также другие работы, которые могут Вас заинтересовать

84095. Форма государственного устройства: понятие и виды 21.73 KB
  Территория федерации состоит из территорий ее отдельных субъектов: штатов кантов земель республик и т. Субъекты федерации имеют право принятия собственной конституции имеют свои высшие исполнительные законодательные и судебные органы 4. В большинстве федерации существует союзное гражданство и гражданство федеральных единиц. При федеральном государственном устройстве в парламенте имеется палата представляющая интересы членов федерации.
84096. Демократический режим и его признакии 22.3 KB
  В демократическом государстве существует взаимная ответственность государства и личности.Предоставление широкой свободы личности предприятиям и организациям в сфере экономической деятельности которая при демократическом политическом режиме составляет основу материального благосостояния граждан.Реальная гарантированность прав и свобод личности и реальная возможность реализовать данные права и свободы.Наличие эффективной и квалифицированной судебной защиты прав и свобод личности от произвола и беззакония со стороны кого бы то ни было.
84097. Антидемократические государственно-правовые режимы 25.92 KB
  Основными чертами тоталитарного политического режима являются следующие: государство стремится к глобальному господству над всеми сферами общественной жизни к всеохватывающей власти; общество полностью отчуждено от политической власти но оно не осознает этого ибо в политическом сознании формируется представление о единстве слиянии власти и народа; господствует монопольный контроль над экономикой средствами массовой информации культурой религией и т. фактически устраняется плюрализм; происходит централизация государственной...
84098. Функции государства: понятие, признаки, содержание 20.68 KB
  Функции государства это основные направления внутренней и внешней деятельности государства в которых выражаются и конкретизируются его классовая и общечеловеческая сущность и социальное назначение. В этом определении выделены наиболее существенные признаки функций государства. Функции государства непосредственно выражают и предметно конкретизируют его классовую и общечеловеческую сущность.
84099. Внутренние функции государства современного государства и их содержание 22.02 KB
  Охранительная функция: Это функция государственной деятельности проявляется в обеспечении государством общественного и правового порядка защите и охране прав и интересов граждан и организаций защите конституционного строя и государства от противоправных посягательств. Обеспечение внутреннего мира и согласия в обществе урегулирования общественных отношений снятие социальных противоречий неизбежных в обществе состоящем из различных классов групп слоев это насущная необходимость одна из тех причин которые вызывали возникновение...
84100. Внешние функции государства современного государства и их содержание 23.61 KB
  Защита государства от вооруженных нападений других государств. Функция защиты из вне: Данная функция является важнейшим направлением деятельности государства ибо она нацелена на защиту мирного труда суверенитета и территориальной целостности государства. 30 Формы и методы осуществления функций государства Государство должно выполнять свои функции в присущих ему формах применять в своей деятельности различные методы.
84101. Механизм государства, государственный аппарат: понятие и их соотношение 21.97 KB
  Механизм государства есть та реальная организационная материальная сила располагая которой государство осуществляет власть. Механизм является структурным и предметным олицетворением государства представляет собой материальное вещество из которого оно состоит. Можно сказать что механизм суть деятельное постоянно функционирующее выражение государства.
84102. Понятие государственного органа. Классификация государственных органов 24.37 KB
  Классификация государственных органов Первичным и важнейшим структурным элементом механизма государства является орган государства. Государственный орган это звено элемент механизма государства участвующее в осуществлении функций государства и наделенное для этого властными полномочиями. Раскрытие понятия признаков данного органа позволяет глубже познать механизм государства в целом. Хотя орган государства и обладает определенной самостоятельностью автономией он служит частью единого механизма государства занимает в государственной...
84103. Государственные учреждения в механизме государства 22.34 KB
  Для обозначения этой системы обычно используют понятие механизм государства. Механизм государства – это совокупность государственных органов осуществляющих государственную власти и обеспечивающих реализацию функций государства. Первичной ячейкой государства выступают его органы и учреждения.