39061

Поисково-информационные системы в сети Интернет (Google)

Доклад

Информатика, кибернетика и программирование

В первой фазе индексные сервера для каждого слова в запросе формируют список идентификаторов документов. Результирующий список документов определяется путем выделения общих идентификаторов документов для каждого слова и проставления весов оценка актуальности для каждого документа. Во второй фазе на основании списка идентификаторов документов сервера документов выдают информацию о названии документа ссылки на него URL краткого описания документа а также фрагменты текста содержащие ключевые слова поиска. Далее все слова из текста...

Русский

2013-09-30

52.5 KB

4 чел.

Поисково-информационные системы  в сети Интернет (Google) .

Современное понятие информационно-поисковой системы подразумевает сложнейший программно-аппаратный комплекс, механизмы работы которого являются коммерческой тайной компании-разработчика. С помощью специальных алгоритмов поисковые роботы собирают и индексируют информацию (заносят ее в базу данных, где она структурируется и располагается в определенном порядке). Когда пользователь вводит запрос в строку поиска, автоматически формируется обращение к базе данных. После этого система выдает в виде нумерованного списка наиболее релевантные (соответствующие запросу) документы. Сортировка документов (ранжирование) и присвоение им позиции в поисковой выдаче осуществляется на основе их значимости. Рассмотрим устройство поисковых машин на примере поисковика Google.

Google – это сложнейшая структура, состоящая из– миллионов физических серверов. Вся информация, которая на них хранится, надежно защищена и распределена по дата-центрам по всему миру. Современный дата-центр – это сотни серверов, объединенных в единую сеть, которые позволяют справляться с большим объемом запросов и высокой посещаемостью сервиса. Когда пользователь выполняет поиск, браузер отсылает HTTP запрос на один из кластеров Google. В дальнейшем вся обработка запроса осуществляться внутри кластера. Балансировщик нагрузки перенаправляет запрос на один из веб-серверов (Google Web Server, GWS). GWS играет главную роль в обработке запроса пользователя:

- отправляет запрос на проверку орфографии слов, используемых в запросе пользователя (spell-checking system)

- отправляет запрос на системы формирования рекламных блоков (ad-serving system)

- контролирует фазы поиска

- отвечает за формирование результатов

Поиск достаточно сложный процесс. Исходные данные (документы) могут занимать десяток, сотни терабайт, если не петабайты. Размеры индексов для этих данных занимают не меньше, это терабайты данных. Работа с такими объемами данных требует больших вычислительных мощностей. К счастью поиск по индексам легко поддается распараллеливанию. Индекс разбивается на части и распределяется между узлами кластера. Каждый узел отвечает за поиск по данным, находящимся локально на дисках. Тоже самое происходит и с документами. В зависимости от того, какие данные (индекс или документы) хранит узел и характеризует, какую роль он будет выполнять - индексный сервер или сервер документов.

Выполнение запроса делится на две фазы. В первой фазе индексные сервера для каждого слова в запросе формируют список идентификаторов документов. Результирующий список документов определяется путем выделения общих идентификаторов документов для каждого слова и проставления весов (оценка актуальности) для каждого документа. Величина веса документа определяет порядок, в котором документы будут представлены в результате.

Во второй фазе, на основании списка идентификаторов документов, сервера документов выдают информацию о названии документа, ссылки на него (URL), краткого описания документа, а также фрагменты текста, содержащие ключевые слова поиска.

Результирующие данные о документах возвращаются на GWS, где и формируется окончательное представление искомой информации в формате HTML.

Для удобства обработки данных поисковая система заносит все найденные в интернете страницы в индекс с помощью своих специальных программ, которые помогают сжать их объемы для оптимального хранения. Чтобы понимать, за счет чего возможно сокращение объема информации, необходимо знать, как документ представляется в поисковой системе.

Сначала происходит очистка страницы от различных нетекстовых элементов, таких как графика, HTML-теги и т.п. В результате остается «чистый» текст для дальнейшей обработки.

Далее все слова из текста располагаются в алфавитном порядке, а все элементы, которые словами не являются (пробелы, знаки препинания и прочее), отбрасываются. При этом поисковая машина не заносит в индекс слова в той форме, в которой они приведены в тексте. С помощью алгоритма лингвистической обработки все слова приводятся к начальным грамматическим формам или основам. Это позволяет сократить место в индексе и сделать поиск более точным. Из обработанных основ составляется подобие словаря, где указывается адрес страницы и конкретное место расположения каждой основы (номер вхождения). В поисковом индексе хранятся только номера основ, а сами основы располагаются отдельно. Если на странице находится несколько вхождений одного слова, то в индексе указывается номер этой страницы и все вхождения этого слова на ней. Получается что-то вроде обратной копии всех страниц интернета. Ее называют инверсным или инвертированным индексом.

Поисковая машина сохраняет и прямой индекс. Прямой индекс представляет собой сжатую текстовую копию всех страниц интернета. Это значительно экономит время, например, при показе цитат. Сохраненная копия сайта – это страницы в прямом индексе поисковой системы.

В результате лингвистической обработки тот запрос, который вводит пользователь, и тот, который обрабатывается поисковой системой, сильно отличаются друг от друга

Язык, на котором сформулированы запросы к поисковым машинам, называется информационно-поисковым, или языком поисковых запросов.

Информационно-поисковый язык состоит из логических операторов, морфологии языка, регистра слов, префиксов обязательности, возможности учета расстояния между словами и расширенного поиска. Подобное представление запроса помогает быстрее ориентироваться в индексных базах.

Синтаксис языка поисковых запросов может изменяться в зависимости от особенностей конкретной поисковой машины. Но есть определенные правила, которые используют все. Рассмотрим наиболее распространенные из них:

Оператор

Назначение

« »

Пробел - логическое «И», даёт команду для Гугла на поиск всех слов, разделённых пробелом.

OR

Логическое «ИЛИ» позволяет найти несколько вариантов слов или выражений. Ему соответствует символ «|».

+

Знак Плюс заставит Google обязательно учесть слово, перед которым он стоит, при обработке запроса.

-

Минус - логическое «НЕ». Даёт поисковику команду на исключение этого слова из результатов поиска

«»

Двойные кавычки позволяют найти только то выражение, которое в них содержится.

~

Спецсимвол «~» дает Google команду искать не только указанное слово, но и его синонимы

*

Знак умножения заменяет одно слово. Можно указать сколько может быть разных слов между искомыми.

..

Две точки применяются при поиске числовых значений. Производится поиск диапазонов между числами «от - до»

filetype

Оператор даёт возможность указать тип файла, в  котором должны находится слова выбранные для поиска.

site

Ограничивает поиск слов, которые стоят перед оператором, указанным доменом или сайтом.

Поисковые системы постоянно развиваются и, конечно, не ограничиваются поиском только по словам из запроса. Чтобы учесть все возможные варианты ответа на запрос пользователя, Google расширяет исходный текст, введенный в строку поиска. Он добавляет другие формулировки с тем же значением и ведет поиск уже по новому запросу.

Используя язык запросов поисковой системы, можно находить необходимую информацию за максимально короткое время. Знание языка поисковых запросов также дает возможность анализировать выдачу с различных сторон.

Так же поисковые системы постоянно оценивают качество результатов поиска и вносят необходимые поправки в алгоритм. Так, в Google идут активные разработки персонализированного поиска, основанного на данных о предпочтениях пользователя.

Среди основных критериев оценки выдачи выделяются:

скорость поиска – как быстро пользователь получает ответ на свой вопрос, поскольку время ожидания значительно влияет на лояльность пользователей;

полнота ответа – все ли ответы представлены, поскольку часть запросов имеет более одного значения, а другие запросы направлены на получение нетекстовой информации;

точность ответа – полностью ли отвечают на вопрос пользователя документы, присутствующие в результатах поиска.

На скорость работы поисковых систем часто влияет архитектура и логика машины, поэтому результаты кэшируются, поиск идет параллельно по дата-центрам, данные дублируются. Полноту ответа отрабатывают алгоритмы, учитывающие синонимию, омонимию, аббревиатуры и др. За точность отвечают специальные механизмы. Также важно, чтобы предлагаемая информация была актуальной, а подчас свежей, что обеспечивается быстрым роботом.

Используя, синтаксис поисковых запросов найти следующую информацию:

  1.  найти по запросу "купить авто" сайты, которые продают автомобили. При этом в выдаче должны подсвечиваться не только слова, встречающиеся в запросе, но и их синонимы.( ~"купить авто")
  2.  посмотреть сколько страниц сайта tsu.tula.ru, проиндексировано поисковыми роботами Google (site:tsu.tula.ru)
  3.  найти ссылки на страницы для скачивания различных дистрибутивов Linux, за исключением Suse (скачать linux -suse)
  4.  найти все кинопремии Оскар с 2004 по 2007 год (Оскар 2004..2007)
  5.  найти страницы, в которых встречается слово рынок или базар (рынок OR базар)
  6.  как можно найти в поиске сайт ТулГу, если вы помните только часть домена tula.ru (*tula.ru)
  7.  найти справочник по справочник по с++  в формате pdf (справочник по с++ filetype:pdf.)


 

А также другие работы, которые могут Вас заинтересовать

25247. Поняття трансцендентальної єдності апперцепцій у філософії Канта 21.5 KB
  – є трансцендентальна єдність самосвідомості тобто така що передує досвіду і утв можливість апріорногодо досвідного пізнання. Кант поєднує в нову структуру суть якої – коли б свідомість була не єдиною а мозаїчною то окремі властивості об’єкта потрапляли б у різні її незалежні частини і синтез їх став би неможливим а саме в ньому і полягає пізнання. Синтетична єдність свідомості є об’єктивною умовою будьякого пізнання.
25248. Принципи і основні положення екзистенційної діалектики Кіркегора 27.5 KB
  Принципи і основні положення екзистенційної діалектики Кіркегора. Субєктивна екзистенціальна діалектика Кіркегора виростає як протиставлення системі Гегеля де людина підвладна анонімному принципу історичного розвитку втрачає свою індивідуальність. ЕД виявляється у Кіркегора способом зберегти особистісне відношення людини і Бога на шляху до якого людина проходить три стадії: естетичну етичну та релігійну.
25249. Філософія та світогляд 24 KB
  Філософія – форма теоретичного розвитку світогляду. Три типи світогляду: Буденний формується умовами життя та передається з покоління в покоління за допомогою досвіду. Отже філософія певний тип світогляду хоча всі люди мають світогляд але не кожна людина виходить на філософських рівень у світоглядних орієнтуваннях. Звідси випливає що філософія постає як теоретична форма світогляду.
25250. Філософія неокантіанства: основні течії 28 KB
  Основна його мета – розвиток і перетворення трансцендентальної філософії Канта. Розпочався близько 1860х років ініціаторами були представники академічних кіл зокрема: Герман Гольмгольц фізіолог та фізик Куно Фішер історик філософії Отто Літман професор філософії та ін. Зокрема Віндельюандт ґрунтуючись на філософії Канта зазначає що критична філософія – це наука про необхідні та загально значимі визначення цінностей. Вона запитує: чи існує наука якій із загальною значимістю притаманна цінність істини Чи існує мораль якій із...
25251. Основні форми теорії та принципи її побудови 28 KB
  Основні форми теорії та принципи її побудови. У більш вузькому розумінні – вища найрозвинутіша форма організації наукового знання що дає цілісне уявлення про закономірності та суттєві звязки певної області дійсності – предмету даної теорії. Інші форми наукового знання – закони класифікації типології первинні пояснювальні схеми – можуть передувати та складати базу теорії. Сукупність певних тверджень та понять аксіом та методологічних принципів їх взаємодії складають певний базис теорії.
25252. Суперечка між універсалістами та комунітаристами в сучасній політичній філософії 23.5 KB
  Якщо ж переходити до сучасності то Роулз намагався реконструювати кантіанські принципи де є пріоритет права над благом. Тобто Роулз та його прибічники ліберали намагаються відшукати загальний консенсус та розмірковують над зародками світового громадянського правового ладу. Метою Роулза є втілити принципи всезагальної справедливості у реальне життя та зробити суспільство стабільним. Роулз у Теорії справедливості€ навіть пропонує у вихідній позиції представити що не знаєте свого віку статі соціального походження.
25253. Соціальна філософія Франкфуртської школи 27 KB
  Подібну думки висловлює і Маркузе в роботі Одномірна людина. Одномірна людина керується такою ж бідною та плоскою філософією. На думку Еріха Фрома людина народжується тоді коли він розриває первісні зв’язки з природою що характеризують тваринне існування. Розірвавши їх людина стає одинокою що змушує її обрати 1 із 2х можливих шляхів: скоритися іншому або скорити іншого.
25254. Культура як об’єкт і предмет філософського осмислення 29.5 KB
  В той же час формується і протилежний підхід до питання про вплив культури на людське життя. Виділяють наступні підходи до вивчення історії людської культури: Формаційний Маркс Енгельс: Історія розглядається як зміна супільноекономічних формацій рухомою силою якої вважається класова боротьба. Кожній формації властивий власний тип культури який еволюціонує в своєму розвитку від формації до формації. Процес розвиток культури наділяється прогресивним характером який підпорядковується єдиній логіці історичного процесу – утвердження...
25255. Моральні цінності і основні тенденції сучасної культури 27 KB
  Біоетичні проблеми: вторгнення в природу людини пересадка органів клонування €œсуррогатне материнство€ штучне запліднення зміна статі евтаназія виявляє неможливість узгодження моральної і медицинської позицій. Таким чином під сучасними €œгуманістичними тенденціями€ приховуються цілком протилежні процеси егоїстичне і руйнівне ставлення людини до природи – як до навколишньої так і до власної; гіпертрафія значення індивідуальної людини що нерідко приховує за собою інтереси конкретних соціальних груп.