17480

Некоторые поисковые возможности и характеристики систем Yandex и Rambler

Доклад

Информатика, кибернетика и программирование

Некоторые поисковые возможности и характеристики систем Yandex и Rambler. Стандартный поиск Yandex. Рассмотрим общий вид стандартной поисковой формы Yandex рис. 2.20. 1. Основная поисковая форма. Главный ее элемент строка запроса. При желании можно искать только в результатах пр

Русский

2013-07-01

392.5 KB

4 чел.

Некоторые поисковые возможности и характеристики систем Yandex и Rambler.

Стандартный поиск Yandex. Рассмотрим общий вид стандартной поисковой формы Yandex (рис. 2.20).

1. Основная поисковая форма. Главный ее элемент — строка запроса. При желании можно искать только в результатах предыдущего поиска («искать в найденном»). Можно также задать запрос по i любому из источников информации («Рунет», «Новости», «Товары», «Энциклопедии», «Картинки»).

  1.  Статистика поиска — число найденных документов и частота заданных в запросе слов. По ссылке «страниц» можно перейти на несгруппированную по серверам выдачу.
  2.  Рубрики каталога. По нажатию на ссылку происходит переход в соответствующий раздел каталога (выводится только при точном соответствии запросу).
  3.  Результаты поиска по WWW. Для каждого документа выдается следующая информация: заголовок — ссылка на ресурс, [Показать найденные слова] — переход на активный документ, в котором контекст запроса выделен стрелочками, поиск похожего документа и, если найденный сайт описан  в каталоге, переход в рубрику каталога.
  4.  Переход на следующие страницы результата. Сортировка по убыванию дат.
  5.  Мастер запросов. Здесь даются советы и предложения по уточнению запроса. Можно сузить поиск по рубрике каталога или по региону.
  6.  Популярные находки пользователей — ссылки на документы, выбранные пользователями по этому запросу (выводится только при точном соответствии).
  7.  Возможность поиска в других русскоязычных поисковых машинах.
  8.  Результат  поиска в новостных лентах информационных агентств (выводится только при точном соответствии запросу). При высоком соответствии и актуальности эта секция может оказаться над результатами поиска по WWW-серверам.

10. Ссылки на прочие службы Yandex'a.

//. Результат поиска в энциклопедических статьях (выводится только при точном соответствии запросу).

12. Результат поиска в базе товарных предложений магазинов (выводится только при точном соответствии запросу).

Реклама на странице:

R1. Верхний баннер (текстовый блок);

R2. Уапdех. Директ — реклама без посредников;

R3, R4. Текстовая строка (баннер);

R5. Нижний баннер.

В связи с постоянным ростом количества документов в сети, система должна быть масштабируемой. В Ramblere масштабируемость достигается за счет параллельного исполнения задачи произвольным количеством машин.

Сбором информации занимается робот, который обходит страницы с заданными URL [24], загружает их в базу данных, а затем архивирует и перекладывает в хранилище суточными порциями. Роботы размешаются на нескольких машинах, и каждый из них выполняет свое задание. Так, робот одной машины может загружать новые страницы, которые еще не были известны поисковой системе, а другой — страницы, которые ранее уже были загружены (не менее месяца, но и не более года назад). При необходимости обработка распределяется другим способом, например, разбив список URL на 10 частей и распределив их по 10 машинам. Параллельная работа программ позволяет увеличивать нагрузку — при возрастании числа страниц, которые нужно обойти роботу, достаточно разместить задачу среди большего числа машин.

Собранная в хранилище информация (в сжатом виде) разбивается на фрагменты по 50 Мбайт, распределяемые между 70 машинами, осуществляющими индексирование. Как только индексатор на одной из машин заканчивает обработку порции страниц, он обращается за следующей. В результате на первом этапе формируется ряд небольших индексных баз, каждая из которых содержит информацию о некоторой части Интернета.

После того как все части информации обработаны, осуществляется объединение результатов. Благодаря тому, что частичные индексные базы и основная БД, к которой обращается поисковая машина, имеют одинаковый формат, процедура слияния является быстрой операцией, не требующей никаких дополнительных модификаций частичных индексов. Основная база участвует в анализе как одна из частей нового индекса.

Кроме того, единый формат позволяет проводить тестирование частичных баз еще до объединения их с основной, и обнаруживать ошибки на более раннем этапе.

Индексная база поисковой системы Rambler состоит из восьми частей. Весь Интернет разделен на семь секторов, каждый условно обозначается цветом: красным, оранжевым, желтым, зеленым, голубым, синим, фиолетовым.

Сайт компании Rambler относится к голубому сектору. Информация о ресурсах каждого сектора хранится в соответствующей части индексной базы. Восьмая часть — «быстрая база» — включает в себя страницы, включенные в указатель Тор 100 и которые еще не успели попасть в основную индексную базу.

Все части собираются и обновляются по отдельности. Например, сегодня происходит переиндексация и обновление красного сектора, завтра — оранжевого и желтого, послезавтра — зеленого и т. д. Благодаря такому ступенчатому алгоритму в поисковой машине регулярно появляется свежая информация. Полный цикл обновления занимает около недели. При этом сбор информации происходит параллельно, а непосредственно на изготовление индекса документов одного сектора затрачивается несколько часов.

Разделение Интернета на семь секторов является условным. При необходимости он может быть разбит на 10, 20 или 40 секторов, каждый из которых будет обрабатываться автономно. В такой системе заложена возможность значительного увеличения нагрузки. С ростом объема информации в сети растет и индексная база поисковой машины. Постепенно переиндексация и сборка базы начинают занимать все больше времени, а процесс обновления индекса становится более громоздким. Поступление новых данных затягивается, информация начинает терять свою актуальность. Возможность «передела» Интернета на большее число секторов позволяет удерживать размер каждой части базы в оптимальном диапазоне, контролировать время ее сборки и обновления.

«Быстрая база» отличается от остальных частей индекса меньшим объемом и более оперативным обновлением — время ее построения занимает около двух часов. В базе содержится информация о страницах, на которых был установлен счетчик Тор 100. Участниками рейтинга Тор 100 являются новостные порталы, сайты крупных компаний, Интернет-магазины, форумы — наиболее популярные ресурсы сети. Каждый раз при установке счетчика на новую страницу сайта, зарегистрированного в Тор 100, информация передается в поисковую систему. Страница ищется во всех «цветах» основной базы и, если она еще не известна поисковой системе, отправляется в очередь на обработку. Перед обработкой страницы дополнительно фильтруются, и из них отбираются самые популярные (посещаемые).

Скорость поиска тесно связана с его чувствительностью к нагрузкам. В среднем в рабочие часы на поисковую машину Rambler в секунду поступает около 60 запросов. Такая загруженность требует сокращения времени обработки отдельного запроса.

Схематично обработка поискового запроса изображена на рис. 2.23.

Запрос поступает в поисковую систему через маршрутизатор Cisco 6000. Маршрутизатор передает его наименее загруженной машине первого уровня, например frontend-серверу 1.З. Frontend-cep

вер, в свою очередь, отправляет запрос дальше, на один из восьми proxy-серверов, также выбирая наиболее свободный сервер (например, машине 2.2). Одновременно frontend-сервер отправляет запрос на машины, осуществляющие поиск по товарам (в данном случае — машине 3.1) и по базе Тор 100 (машине 4.1). На proxy-сервере проводится поиск по ссылочному индексу, и его результаты вместе с поисковым запросом передаются на машины, которые содержат основную индексную базу, — backend-серверы (машинам 5.1.2, 5.2.11, 5.3.1 и т. д.) Та же информация отправляется на машины с «быстрой базой» (в данном случае — 6.1).

В поиск включено 77 backend-серверов. Они сгруппированы по 11 машин, и каждая группа содержит копию одной из частей поискового индекса. Таким образом, информация о сайтах, условно входящих в красный сектор Интернета, находится на backend-серверах первой группы (5.1.1—5.1.11), оранжевый сектор — на backend-серверах второй группы (5.2.1—5.2.11) и т. д.

Proxy-сервер выбирает наименее загруженный backend-сервер в каждой группе машин и отправляет на него поисковый запрос с результатами ссылочного поиска. На backend-серверах осуществляется поиск по частям индексной базы и ранжирование с учетом результатов поиска по ссылочному индексу. При ранжировании для всех найденных документов высчитываются веса по конкретному запросу.

После того как запрос обработан на backend-серверах, информация о результатах и ранжировании отдается обратно на proxy-сервер. Туда же поступают отсортированные результаты с машин «быстрой базы». Proxy-сервер интегрирует данные, полученные с восьми машин: клеит дубли, объединяет зеркала сайтов, ранжирует документы в общий список по весам, рассчитанным на backend-серверах. Полученные результаты отдаются на frontend-сервер.

Помимо информации с proxy-сервера, frontend-сервер получает результаты поисков по товарам и из базы Тор 100 (отсортированные, с цитатами и подсветкой слов запроса). Frontend-сервер осуществляет окончательное объединение результатов, генерирует выходной html-документ со списком найденного, вставляет баннеры и перевязки (ссылки на различные разделы Rambler'a) и передает HTML-документ маршрутизатору, который переадресовывает информацию пользователю.

Для повышения скорости поиска используется также «кэширование» (сохранение информации о запросах и результатах поиска в буфере). Многие пользователи обращаются с одинаковыми поисковыми запросами и «вычислять» их заново было бы неразумной тратой времени. Поэтому если аналогичный запрос обрабатывался до истечения некоторого интервала времени, результаты поиска отдаются пользователю из «кэша».



PAGE  4


 

А также другие работы, которые могут Вас заинтересовать

34384. Социальные нормы и нормативы. Минимальный потребительский бюджет и минимальная заработная плата 61.5 KB
  Минимальный потребительский бюджет и минимальная заработная плата Переход к рыночной модели хозяйствования неизбежно привносит в жизнь общества хронические болезни капиталистической системы: безработицу резкое имущественное расслоение бедность многочисленных слоев населения. Необходимость проведения активной социальной политики направленной на поддержание уровня жизни населения и обеспечение социальной защиты наиболее нуждающихся граждан обусловливает широкое использование в прогнозировании и планировании социальных нормативов. Это...
34385. Баланс денежных доходов и расходов населения, его роль и методика разработки 72 KB
  Политика доходов была направлена на сохранение в условиях инфляции определенного уровня заработной платы низкооплачиваемым слоям населения и реальной стоимости социальных выплат путем их периодических централизованных повышений или индексаций. Их успешная реализация стала важным этапом в обеспечении устойчивого экономического роста и повышении уровня жизни населения. Реальные денежные доходы населения повысились на 72 их рост по отношению к 1990 г.
34386. Прогнозирование и планирование оплаты труда 66 KB
  Основная цель оплаты труда обеспечить объективно необходимое воспроизводство рабочей силы в соответствии с ее стоимостью и повысить уровень мотивации исполнителей к эффективному труду. Фонд оплаты труда по народному хозяйству это сумма денежных средств предназначенных для распределения между рабочими и служащими в зависимости от количества и качества затраченного труда. Источниками фонда оплаты труда является национальный доход который распределяется на фонд потребления и фонд накопления.
34387. Реальные доходы населения. Методы их прогнозирования 55 KB
  Методы их прогнозирования Важнейшим обобщающим показателем социального развития и уровня жизни населения являются реальные доходы. Основным источником формирования реальных денежных доходов и стимулирования трудовой деятельности являются зарплата повышение производительности труда и эффективности хозяйствования во всех звеньях экономики рост инвестиционного потенциала населения снижение налоговой нагрузки на фонд зарплаты субъектов хозяйствования всех форм собственности что будет способствовать созданию новых рабочих мест...
34388. Потребительский рынок (ПР). Прогнозирование спроса на товары народного потребления 33.5 KB
  Рынок сфера товарноденежного обращения охватывает совокупность конкретных отношений и связей между производителями и потребителями товаров. Структура ПР: международный рынок рынок государств содружества рынок РБ рынок региональных областей рынок конкретных товарных групппродовольственных. Рынок: 1.
34389. Прогнозирование и планирование покупательных фондов и товарных ресурсов 37.5 KB
  Рассчитанный таким образом покупательный фонд определяет необходимый объем продажи товаров населению в денежном выражении. К этой величине прибавляется оборот по продаже товаров организациям и учреждениям в порядке мелкооптовой торговли и в результате определяется необходимый объем товарооборота. Дело в том что потребительские ожидания относительно таких факторов как будущие цены на товары наличие товаров и будущий доход способны изменить спрос. Для увязки совокупного спроса на товары народного потребления с товарными ресурсами наряду с...
34390. Формирование структуры товарооборота. Баланс спроса и предложения, его содержание и назначение 41.5 KB
  Чтобы сформировать структуру товарооборота необходимо определить спрос на отдельные группы товаров и сопоставить с ресурсами этих товаров. Структура характеризует соотношение товарных групп и отдельных товаров в общем объеме розничного товарооборота. Соотношение отдельных товарных групп и товаров связано вопервых с их значимостью и вовторых со степенью дополняемости и заменяемости товаров в процессе реализации и потребления. В процессе разработки прогнозов должен осуществляться анализ тенденций изменения структуры товарооборота за...
34391. Внешнеэкономическая политика. Прогнозирование экспорта и импорта 37.5 KB
  Среди моделей получивших широкое применение в мировой практике для прогнозирования экспорта и импорта следует выделить: трендовые модели; функции экспорта и импорта многофакторные модели; комплексные эконометрические модели; модели межотраслевого баланса; матричные модели международной торговли; оптимизационные модели. Трендовые модели у = t b и др. Эти модели используются на стадии составления инерционного прогноза. При конструировании целевого прогноза применяются функции экспорта и импорта многофакторные модели.
34392. Квотирование, лицензирование, валютное регулирование экспорта и импорта 25 KB
  Квотирование К установление количественных ограничений квот на ввоз и вывоз товаров. Лицензирование Л: для ввоза вывоза определенных товаров требуется получить установленный документ лицензию. Число квотированных товаров по мере приближения цен к мировым снижается. Кроме того лицензированию подлежат экспорт и импорт специфических товаров: товаров и технологий военного и двойного назначения ядерных материалов драгоценных металлов и камней наркотических и психотронных средств ядов.