42886

Поиск и индексация в Web. Интернет-каталоги

Курсовая

Информатика, кибернетика и программирование

Помимо глобального поиска в пространстве Интернет существует также проблема локального поиска, т.е. поиска в пределах одного сайта или портала. Существуют готовые решения, однако для поиска внутри сайта иногда требуется более точная настройка и свои, индивидуальные, алгоритмы, которые будут осуществлять более точный и быстрый поиск по тем данным, с которыми работает сайт. Одним из главных недостатком стандартных решений от Google или Яндекс, например, также является низкая скорость обновления информации о страницах, т.е. индексации.

Русский

2013-10-31

1004 KB

7 чел.

Оглавление

[1] Оглавление

[1.1] Введение

[1.2] Глава 1. Изучение темы поиска в Web

[2] 1.1 Web

[3] 1.2 Поисковая система

[4] 1.3 Индексация в поисковых системах

[5] 1.4 Алгоритмы работы поисковых систем

[6] 1.5 Поиск по сайту

[7] 1.6 Алгоритм BM25

[8] 1.6 Каталоги

[8.1] Глава 2. Поисковая оптимизация

[9] 2.1 Понятие поисковой оптимизации и факторы, влияющие на положение сайта

[10] 2.2 Методы поисковой оптимизации

[10.1] Заключение

[10.2] Библиография


Введение

Темой данной курсовой работы является поиск и индексация в Web, а так же Интернет-каталоги. В Интернете много информации, которую нужно фильтровать, сортировать, удалять устаревшее. Этим и занимаются поисковые системы. Созданы больше сотни поисковых Интернет-сервисов, алгоритмов их работы – еще больше. На март 2012 года лидирующей поисковой системой пространства СНГ является Яндекс (57,4%), за ней Google (30.9%) и на третьем месте – поиск от Mail.ru (8.9%).[10] Борьба за трафик стимулирует компании к совершенствованию своих сервисов. Ведутся работы по разработке новых и усовершенствовании старых алгоритмов, что свидетельствует об актуальности проблемы.

Помимо глобального поиска в пространстве Интернет существует также проблема локального поиска, т.е. поиска в пределах одного сайта или портала. Существуют готовые решения, однако для поиска внутри сайта иногда требуется более точная настройка и свои, индивидуальные, алгоритмы, которые будут осуществлять более точный и быстрый поиск по тем данным, с которыми работает сайт. Одним из главных недостатком стандартных решений от Google или Яндекс, например, также является низкая скорость обновления информации о страницах, т.е. индексации.

Индексация в поисковых системах — процесс добавления сведений о сайте роботом поисковой машины в базу данных, впоследствии использующуюся для поиска информации на проиндексированных сайтах. Практически все современные поисковые системы используют этот метод.[8]

Следует отличать каталоги от поисковых систем. Каталог сайтов Интернета — это структурированный набор ссылок на сайты с кратким их описанием.

Отличие заключается в том, что каталоги не посылают роботов, чтобы индексировать вашу страницу или веб-сайт. Добавление сайта в каталог происходит с помощью человека. Для регистрации в каталоге необходимо найти раздел, который соответствует тематике сайта, который нужно там разместить, послать краткое описание сайта и список ключевых слов для поиска вашей страницы в каталоге. Затем эта информация просматривается и оценивается людьми, которые решают, стоит ли включать ваш информацию в каталог или нет.[2]

Так как регистрация производится человеком, а не программой, то поиск по каталогам дает более релевантные результаты, нежели поиск по поисковым системам. Коренным отличием каталогов от поисковых систем также является то, что поиск в них производится не по текстовой составляющей всех страниц сайта, а только по краткому описанию сервера и выбранным при регистрации ключевым словам.

Итак, следует сформулировать основные положения.

Проблема исследования – необходимость изучения методов и алгоритмов работы поисковых систем в Web.

Объект исследования – поиск информации в Web.

Предмет исследования – модель поисковой системы, основанная на существующих системах и принципах их работы.

Цель исследования – изучить методы и средства поиска информации в Web. Определить требования к локальной поисковой системе и предложить решение задачи локального поиска.

Задачи исследования – 1) провести анализ тематических статей и литературы; 2) определить принципы построения и работы поисковых систем; 3) провести анализ путей решения проблемы локального поиска.

Методы исследования – анализ тематической литературы и статей; изучение принципов работы различных поисковых систем; оценивание полученных результатов.


Глава 1. Изучение темы поиска в Web

Чтобы разобраться в теме, для начала необходимо определить понятия, которые будут использоваться.

1.1 Web

Понятие «Web» используется для обозначения Всемирной паутины, т.е. Интернета. Кроме этого, понятие «Web 2.0» определяет методику проектирования систем, которые путём учёта сетевых взаимодействий становятся тем лучше, чем больше людей ими пользуются. По сути, термин «Web 2.0» обозначает проекты и сервисы, активно развиваемые и улучшаемые самими пользователями: блоги, wiki, социальные сети и т. д.

Появление названия Web 2.0 принято связывать со статьей «Tim O’Reilly — What Is Web 2.0» от 30 сентября 2005 года. В этой статье Тим О’Рейли увязал появление большого числа сайтов, объединённых некоторыми общими принципами, с общей тенденцией развития интернет-сообщества, и назвал это явление Web 2.0, в противовес «старому» Web 1.0.

Web 2.0 не является технологией или каким-то особым стилем Web-дизайна. Для определения сути подходит определение Web 2.0 как комплексного подхода к организации, реализации и поддержке Web-ресурсов. Термин Web 1.0 появился в 2001 году, и им обычно обозначают то, что было до Web 2.0. Основное отличие этих понятий связано с появлением широкополосных сетей, улучшением браузеров, развитием технологий AJAX, Flash, массовым распространением виджетов и т.д. Если обобщить, то можно сказать, что переход от Web 1.0 к Web 2.0  - это переход от статических страниц к динамическим, которые могут так же развиваться не только средствами владельцев сайта, но и пользователями.[4]

Таким образом, практически все, что на сегодняшний день представляет из себя Всемирная паутина, можно отнести к Web 2.0, так как, по сути, содержимое страницы Web 1.0 ограничивалось одним текстом и картинками, отформатированными в HTML зачастую даже без применения CSS. Таким образом, используя термин «Интернет», мы подразумеваем «Web» и наоборот.

1.2 Поисковая система

Поисковая система — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс системы. Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы. Так как в рамках этой курсовой аппаратную часть поисковой системы мы не рассматриваем, то под термином «Поисковая система» будет подразумеваться ее программная часть.[11]

Элементы, входящие в поисковую систему,  представлены на схеме на рис. 1.1.

Рис. 1.1. Компоненты поисковой системы

Итак, современные поисковые системы, как правило, состоят из пяти основных программных компонентов: паука (программы-браузера, скачивающего веб-страницы), паука-ползунка (программы, изучающей все найденные на веб-странице ссылки), индексатора (программы, анализирующей скаченные веб-страницы), базы данных (хранилища скаченных и проиндексированных веб-страниц), системы выдачи результатов (программы, которая извлекает данные из базы данных по запросу пользователей). Рассмотрим работу данных компонентов подробнее.

Паук. Работает аналогично стандартному браузеру, который соединяется с веб-сайтом и загружает веб-страницу. Паук не реагирует на визуальные компоненты вёрстки, его интересует лишь HTML-код.

Паук-ползунок. Задачей этого компонента является нахождение всех размещённых на веб-странице ссылок и определение дальнейшего пути следования паука.

Индексатор. Разбирает веб-страницу на её составные части, после чего тщательно анализирует их. Вычленяются и подвергаются анализу такие элементы как тип заголовков веб-страницы, заголовки, ссылки, текст, структура, BOLD, ITALIC и другие стилевые составляющие.

База данных. Требующее значительных аппаратных ресурсов хранилище всех данных, скаченных и проанализированных (проиндексированных) поисковой системой.

Система выдачи результатов. Определяет, какие именно хранящиеся в базе данных веб-страницы удовлетворяют конкретному запросу пользователя.[1]

После того, как пользователь вводит в поле запроса ключевое слово или словосочетание и запускает поиск, поисковая система выбирает из своего хранилища необходимые страницы, причём выдача происходит на основании очень часто меняющихся критериев, которые будут рассмотрены далее.

1.3 Индексация в поисковых системах

Как уже было отмечено во Вступлении, индексация -  это процесс добавления сведений о сайте роботом поисковой машины в базу данных, впоследствии использующуюся для поиска информации на проиндексированных сайтах. Именно для этой цели нужны вышерассмотренные компоненты поисковой системы: паук, паук-ползунок и индексатор.

В сведения о сайте чаще всего входят ключевые слова (алгоритм определения ключевых слов зависит от поисковой системы), статьи, ссылки, документы, также могут индексироваться изображения и т.д.

Различают прямой и обратный индексы страницы.

Прямой индекс – это, по сути, копия документа без стилей и HTML-разметки, т.е. текст страницы. Очевидно, что метод простого перебора всех страниц (документов), хранящихся в базе данных, не будет являться оптимальным. Этот метод называется алгоритмом прямого поиска и при том, что этот метод позволяет наверняка найти нужную информацию, не пропустив ничего важного, он совершенно не подходит для работы с большими объемами данных, так как поиск будет занимать слишком много времени. Прямой индекс хранится для формирования так называемых сниппетов. Сниппет располагается на странице результатов поиска под ссылкой на найденный документ и позволяет пользователю получить представление о содержимом страницы, не переходя на нее. В качестве сниппета используются обычно куски текста из этого документа.  Он формируется автоматически, и какие именно куски текста документа будут использоваться решает поисковая система, для разных поисковых запросов у одного и того же документа будут разные сниппеты.

Обратный индекс страницы представляет собой список всех встречающихся в документе слов, расположенных в алфавитном порядке, и рядом с каждым словом указаны в виде координат те места в документе, где это слово встречается. Кроме позиции в документе, для каждого слова приводятся еще и другие параметры, определяющие его значение в документе. Осуществляется приведение всех используемых в этом документе слов к словарной форме (например, для существительных - именительный падеж единственного числа). Для того чтобы это можно было делать в автоматическом режиме, поисковым системам необходимо располагать всеобъемлющими словарями. Используемое в индексируемом документе слово автоматически отыскивается в таком толковом словаре, и вместо оригинального слова для этого документа в обратный индекс записывается словарная форма этого слова. Еще одной немаловажной особенностью формирования обратных индексов документов является то, что поисковые системы не добавляют в обратные индексы служебные символы и так называемые стоп-слова, такие как «и», «о» и т.д., т.е. предлоги, местоимения, междометия, частицы, союзы, которые сами по себе не несут какой-либо смысловой нагрузки.

Таким образом, поисковые системы ищут информацию для ответа на запрос пользователя не в Интернете, а в обратных индексах обработанных ими документов сети. Прямые индексы также сохраняются для составления сниппетов.

1.4 Алгоритмы работы поисковых систем

Алгоритм - система операций, применяемых по строго определенным правилам, которая после последовательного выполнения приводит к решению поставленной задачи.

Единой терминологии для поисковых систем не существует, поэтому мы употребим несколько общее и упрощенное  представления об алгоритме работы поисковой системы.[8]

Работа поисковой системы циклична. Каждый цикл состоит из нескольких основных этапов, что проиллюстрировано на рис. 1.2.

Рис. 1.2. Функциональная схема алгоритма работы ПС

Когда робот поисковой системы заходит на сайт, в первую очередь он ищет файл robots.txt.

Файл robots.txt – это текстовый файл, находящийся в корневой директории сайта, в котором записываются специальные инструкции для поисковых роботов. Эти инструкции могут запрещать к индексации некоторые разделы или страницы на сайте, рекомендовать поисковому роботу соблюдать определенный временной интервал между скачиванием документов с сервера и т.д. Необходимость использования файла во избежание индексирования страниц с приватной или служебной информацией наглядно демонстрирует рис. 1.3.

Рис. 1.3. Назначение файла robots.txt

Для того, чтобы осуществлять поиск по обратным индексам документов, содержащимся в базе данных поисковых систем, используется математическая модель, позволяющая упростить процесс обнаружения нужных документов (по введенному пользователем поисковому запросу) и процесс определения релевантности всех найденных документов этому запросу. Чем больше документ соответствует данному запросу (чем он релевантнее), тем выше он должен стоять в поисковой выдаче.

Релевантность — семантическое соответствие поискового запроса и поискового образа документа.

Значит основная задача выполняемая математической моделью любой поисковой системы — это поиск документов (страниц) в своей базе обратных индексов соответствующих данному поисковому запросу и сортировка этих найденных документов в порядке убывания их релевантности поисковому запросу. Использование простой логической математической модели, когда документ будет являться найденным, если в нем встречается искомая фраза, не подходит, в силу огромного количества таких документов, выдаваемых на рассмотрение пользователю.[11]

Поисковая система должна не только предоставить список всех документов (веб-страниц), на которых встречаются слова из поискового запроса. Она должна предоставить этот список документов в такой форме, когда в самом начале этого списка будут находиться наиболее соответствующие запросу пользователя документы (осуществить сортировку найденных страниц по релевантности). Эта задача не тривиальна и по умолчанию не может быть выполнена идеально.

Математическая модель, используемая всеми поисковыми системами, относится к классу векторных математических моделей. В этой математической модели используется такое понятие, как вес документа по отношению к заданному пользователем запросу.

В базовой векторной математической модели вес документа по заданному поисковому запросу высчитывается исходя из двух основных параметров: частоты, с которой встречается данное слово в рассматриваемом документе (TF — term frequency) и тем, насколько редко это слово встречается во всех других документах коллекции поисковой системы (IDF — inverse document frequency). Под коллекцией поисковой системы имеется в виду вся совокупность документов, известных поисковой системе. Умножив эти два параметра друг на друга, мы получим вес документа по заданному поисковому запросу.

Различные поисковые системы, кроме параметров TF и IDF, используют множество различных коэффициентов для расчета веса документа по заданному поисковому запросу, но суть остается прежней: вес страницы будет тем больше, чем чаще слово из поискового запроса встречается в документе (до определенных пределов, после которых документ может быть признан спамом) и чем реже встречается это слово во всех остальных документах, проиндексированных поисковой системой.[11]

В связи с тем, что поисковая система работает со своей базой данных, возникает проблема частоты обновления информации в ней, т.е. частоты индексации. Интернет содержит огромное количество страниц, порядка 1015, так что каждый день обновлять информацию о всех физически невозможно. Поэтому паук, в зависимости от рейтинга, посещает страницу в среднем раз в 1-4 недели. С этим связана нужда в создании локального поиска по сайту.

1.5 Поиск по сайту

Основным отличием поиска по сайту, или локального поиска, от поиска в Интернет, или глобального поиска, является, что понятно из названия, область поиска. В случае поиска по сайту поиск происходит только внутри домена данного сайта, не затрагивая другие сайты, что существенно упрощает задачу. Есть несколько путей решения данной задачи.

Во-первых, можно воспользоваться формой поиска по сайту внешней поисковой системы, например Яндекс или Google. Есть платные и бесплатные версии Это решение обладает своими плюсами и минусами. К плюсам можно отнести простоту реализации, релевантность поиска, ранжирование, морфологический анализ поискового запроса. Все плюсы связаны с тем, что предлагается уже готовое качественное решение, которое просто необходимо добавить на страничку, скопировав готовый код. К недостаткам можно отнести:

  •  большое время переиндексации (как было сказано, переиндексация страниц может произойти больше, чем через неделю);
  •  неизвестный алгоритм вычисления релевантности (на определенные запросы на первом месте может оказаться совсем не та страница, которую ищет пользователь, так как не учитывается тематика сайта);
  •  автоматический выбор вариантов запроса по мере ввода (глобальные поисковые системы предлагают подсказки, которые основаны на наиболее популярных запросах, а в контексте одного сайта необходимо включить в этот список заголовки страниц данного сайта);
  •  отсутствие возможности задания гибкого графика переиндексации (если сайт большой, то полная переиндексация может потребовать много времени и ресурсов, поэтому для разделов, которые часто обновляются, например раздел «Новости» или «Форум», лучше задать более высокую частоту переиндексации, чем для таких разделов, которые меняются редко или вообще не меняются, например «О компании»);
  •  отсутствие возможности указывать области поиска или добавлять фильтры для более точного поиска нужной информации;
  •  отсутствие возможности сортировать результаты поиска не только по релевантности, но и, например, по дате.

Можно сделать вывод, что это решение подойдет для небольших сайтов, которые нечасто обновляются.[6]

Во-вторых, кроме решений от глобальных поисковых систем, есть также готовые платные решения в виде поисковых джвижков (search engine) от компаний, специализирующихся именно на локальном поиске, например Sphinx, Apache Lucene, Xapian. Этот вариант позволяет получить готовый поиск с возможностью гибкой настройки с помощью API. Поставляется в виде программных пакетов и использует ресурсы сервера, на который устанавливается. Таким образом, в итоге получатся собственная поисковая система, которую можно подстроить под конкретные задачи.[9]

Есть и более простые решения, которые можно рассматривать как нечто среднее между внешним поиском от Google или Яндекс и платных поисковых движков, рассмотренных в параграфе выше. Ярким примером такой системы является проект suggest.io. Предлагается бесплатный элемент поиска, который генерируется на сайте поставщика и после встраивания в клиентский сайт не требует более поддержки со стороны администрации сайта. Имеются шаблоны для настройки внешнего вида, возможность живого поиска, т.е. генерации страницы результатов уже в процессе ввода запроса и т.д. Можно задать желаемый период индексации, но время будет зависеть от степени загрузки поисковой системы.[7]

Последний вариант решения задачи поиска по сайту – это написание собственной поисковой системы. Главное преимущество собственной системы поиска - возможность тесной интеграции с другими модулями CMS, используемой на сайте. Речь не только о встраивании интерфейса управления в административную страницу, а об интеграции с системой разграничения прав, управления структурой, пользователями и пр.

Процесс написания поисковой системы довольно трудоемок, потому что за кажущейся простотой перебора по словам скрывается множество нюансов и деталей, которые нужно проработать, ведь поиск хорош тогда, когда он выдает правильные результаты поиска и им легко и удобно пользоваться. Помимо решения тех недостатков, которые имеет встраиваемый модуль поиска от глобальной поисковой системы, необходимо разработать и применить те методы, которыми владеют эти поисковые системы, а это: учет морфологии, который подразумевает нахождение словоформ и синонимов, а также исправление опечаток, возможность поиска не только по тексту, но также по базам данных, картинкам или другим форматам представления данных, в зависимости от тематики и назначения сайта и самое главное – это сделать выдачу результатов максимально релевантных запросу, для чего необходимо применить существующий или разработать свой алгоритм ранжирования результатов и способа хранения информации о страницах сайта.

Рассмотрим алгоритм ранжирования BM25.

1.6 Алгоритм BM25

В 1970 и 1980 годах Стивен Робертсон и Карен Спарк Джоунс и другие ученые разработали вероятностную модель, которую в будущем доработали и стали использовать ведущие поисковые системы в «формуле» ранжирования результатов выдачи. Модель была доработана до функции ранжирования в информационном поиске и сейчас она или ее модификации применяется для упорядочивания документов по их релевантности. Теория основана та TF-IDF функциях ранжирования, которые уже были рассмотрены.

Итак, BM25 — поисковая функция на неупорядоченном множестве термов и множестве документов, которые она оценивает на основе встречаемости слов запроса в каждом документе, без учёта взаимоотношений между ними (например, близости). Это не одна функция, а семейство функций с различными компонентами и параметрами. Одна из распространенных форм этой функции описана ниже.

Пусть дан запрос , который содержит слова q1, …, qn, тогда функция BM25 даёт следующую оценку релевантности документа  запросу :

,

где  – частота слова (TF)  в документе ,

- количество слов в документе, 

– средняя длина документа в коллекции,

– свободные коэффициенты (обычно  ),

– обратная частота документа, классическая формула для определения:

, где

- общее количество документов в коллекции,

- количество документов, содержащих .

Функция BM25 в классическом виде оценивает «важность» страницы, исходя из встречаемости ключевых слов без учёта взаимоотношений между страницами (то есть ссылок). В настоящее время поисковыми системами используется модификация этой функции под названием BM25F. Она учитывает другие параметры, такие как заголовки, околоссылочный текст, количество ссылок и т.д. Каждому из этих параметров присваивается своя степень значимости, которая влияет на итоговый результат функции ранжирования.[3]

Таким образом, можно сформулировать и построить алгоритм поиска и выдачи результата по запросу с использованием алгоритма BM25. Блок-схема алгоритма продемонстрирована на рис. 1.4.

Рис. 1.4. Алгоритм поиска запроса в обратном индексе и формирование страницы выдачи результатов.

1.6 Каталоги

Интернет-каталог — это структурированный набор ссылок на сайты с кратким их описанием. Сайты внутри каталога разбиваются по темам, а внутри тем могут быть ранжированы или по индексу цитирования, или по дате добавления, или по алфавиту, или по другому параметру. Это один из старейших сервисов Интернета. Подавляющее большинство рейтингов посещаемости ресурсов имеют классификатор сайтов, но ранжирование всегда основано на посещаемости сайтов. В зависимости от широты тематики ссылок каталоги могут быть общими и специализированными (тематическими).[2]

Каталоги можно разделить на группы:

  •  закрытые каталоги — добавление сайтов в данный каталог может проводить только одно ответственное лицо;
  •  белые каталоги — при регистрации сайта в каталоге веб-мастеру не обязательно размещать на своём сайте обратную ссылку на каталог;
  •  серые каталоги — перед подачей заявки на добавление сайта в данный каталог веб-мастер обязан разместить обратную ссылку, но наличие ссылки не проверяется различными скриптами каталога;
  •  черные каталоги — при регистрации сайта в данном каталоге веб-мастер обязан разместить обратную ссылку на каталог сайтов. Каталог проверяет наличие обратной ссылки и только потом принимает регистрацию сайта;
  •  каталоги сайтов с прямыми ссылками — при регистрации сайта в данном каталоге веб-мастер получает ответную прямую (без перенаправления) ссылку на свой сайт;
  •  каталоги сайтов с ссылками — регистрация сайта в данном каталоге не даёт ссылки на регистрируемый сайт. Ссылки в таких каталогах даны через перенаправление.

Как уже было сказано, основное отличие каталогов от поисковых систем – это то, что добавление сайта в каталог обычно производится модератором каталога после того, как веб-мастер подал соответствующую заявку. Каталоги играют важную роль во время выдачи результатов запроса в поисковой системе. Наличие сайта в каталоге положительно сказывается на его рейтинге.


Глава 2. Поисковая оптимизация

2.1 Понятие поисковой оптимизации и факторы, влияющие на положение сайта

Изучив принципы работы поисковых систем, логично было бы обратить внимание на то, как эти знания можно использовать (кроме написания собственной системы).

Поисковая оптимизация (англ. search engine optimization, SEO) — комплекс мер для поднятия позиций сайта в результатах выдачи поисковых систем по определенным запросам пользователей. Обычно чем выше позиция сайта в результатах поиска, тем больше заинтересованных посетителей переходит на него с поисковых систем.

Также SEO можно определить как подстройка кода, текста и других параметров сайта под алгоритмы поисковых систем с целью поднятия его позиций в выдаче.

Поисковая система учитывает следующие параметры сайта при вычислении его релевантности:

  •  плотность ключевых слов (семантический анализ текста позволяет отсеять поисковый спам, в котором ключевое слово встречается слишком часто).
  •  индекс цитирования сайта, зависящий от количества и авторитетности веб-ресурсов, ссылающихся на данный сайт; многими поисковиками не учитываются взаимные ссылки (друг на друга). Зачастую также важно, чтобы ссылки были с сайтов схожей тематики, что и оптимизируемый сайт.

Соответственно, все факторы, влияющие на положение сайта в выдаче поисковой системы, можно разбить на внешние и внутренние. Работа по оптимизации включает в себя работу с внутренними факторами, т.е. теми, которые находятся под контролем владельца веб-сайта, — приведение текста и разметки страниц в соответствие с выбранными запросами, улучшение качества и количества текста на сайте, стилистическое оформление текста, улучшение структуры и навигации, использование внутренних ссылок, а также внешними факторами.

Внешние факторы делятся на статические и динамические.

Статические внешние факторы определяют релевантность сайта на основании цитируемости его внешними веб-ресурсами, а также их авторитетности вне зависимости от текста цитирования.

Динамические внешние факторы определяют релевантность сайта на основании цитируемости его внешними веб-ресурсами и их авторитетности в зависимости от текста цитирования.

Методы внешней поисковой оптимизации:

  •  Регистрация в самостоятельных каталогах. Она может осуществляться вручную, либо с помощью специальных ресурсов.
  •  Регистрация в каталогах поисковых систем.
  •  Обмен ссылками. Существуют несколько способов обмена — прямой, кольцевой, односторонний (покупка ссылок).
  •  Размещение статей.
  •  Социальные сети.
  •  Пресс-релизы.
  •  Создание и ведение блогов.

Лицо, проводящее работу по оптимизации веб-сайтов, называется оптимизатор.

Существуют различные SEO-сервисы, позволяющие облегчить труд оптимизаторов и дать владельцам сайтов возможность продвигать их самостоятельно.

К факторам, понижающим рейтинг сайта, относятся:

  1.  неуникальный контент (статьи, новости и т.д.);
  2.  технологии, которые поисковые машины рассматривают как спам;
  3.  избыточное число внешних ссылок;
  4.  фреймы;[13]

2.2 Методы поисковой оптимизации

Методы оптимизации можно разделить на три класса, однако это разделение весьма условно — любая манипуляция определёнными параметрами сайта может быть расценена поисковой системой как крайне нежелательное влияние на ее результаты. Так, любая попытка манипулирования поисковыми результатами прямо запрещена в лицензии на использование поисковой системы «Яндекс». «Белые» оптимизаторы и маркетологи пользуются рекомендациями Яндекса по созданию «хороших» сайтов. Таким образом, продвигают сайт, не нарушая правил поисковых систем.

Итак, различают белую, серую и черную оптимизацию.

Белая оптимизация или естественная оптимизация — поисковая оптимизация без применения запрещённых и недобросовестных методов. Это комплекс мер по повышению посещаемости веб-сайта, основанный на анализе поведения целевых посетителей. Естественная оптимизация относится к комплексу мероприятий интернет-маркетинга.

Естественная оптимизация позволяет естественным путём, анализируя поведение потребителей, добиться максимальной отдачи от сайта, а именно возрастания целевой посещаемости, популярности ресурса среди пользователей Интернета и рейтинга в поисковых системах. Естественная оптимизация исключает любые «допинговые» методы оптимизации — рассылку спама, «накручивание» баннерных показов и другие методы чёрной оптимизации.

Можно выделить некоторые особенности белой оптимизации.

Во-первых, эффективность применения методов белого SEO, хотя и является высокой, она слишком отложена во времени, что и заставляет многих web-мастеров прибегать к использованию черного SEO.

Во-вторых, белая оптимизация не может дать гарантий того, что ресурс спустя определенный промежуток времени займет высокие позиции в поисковых системах по его запросам, а также укрепится на них. Это, прежде всего, связано с очень высоким уровнем конкуренции между сайтами в выдаче поисковиков.

К методам белой оптимизации относятся:

  •  Постоянное улучшение видимости сайта роботами поисковых систем.
  •  Постоянное совершенствование удобства сайта для посетителей — юзабилити.
  •  Постоянный анализ качества обработки заявок с сайта — так называемая услуга «тайный покупатель».
  •  Постоянное совершенствование текстов на сайте — контента для формирования семантического ядра.
  •  Постоянный анализ запросов, связанных с продвигаемым продуктом.
  •  Постоянный поиск сайтов родственной тематики для создания партнёрских программ. [12]

Рассмотрим подробнее основные из них.

Написание качественных текстов. Это основной метод белого SEO, так как именно качество текстов, расположенных на страницах сайта, определяет его возможность развиваться в поисковых системах. Важно понимать, что качественный текст, должен быть не только оптимизирован с точки зрения классического SEO, то есть быть наполненным ключевыми словами, но и ориентироваться на нужды его читателей, что даст возможность сформировать качественные поведенческие характеристики проекта.

Разработка качественного юзабилити для ресурса. Понятие юзабилити сегодня также является одним из основных в сфере поисковой оптимизации сайтов, поскольку от его качества также зависят поведенческие факторы web-проекта. Разрабатывая юзабилити сайта, необходимо основное внимание уделить следующим его важнейшим элементам:

  •  структура, которая должна быть понятной и логичной, то есть иметь четкую иерархию страниц;
  •  дизайн, который должен быть «легким», то есть не содержать лишних графических элементов;
  •  навигация, которая должна быть информативной.

Чёрная оптимизация — поисковая оптимизация с применением запрещённых и недобросовестных методов.

К основным методам четной оптимизации относятся:

  •  использование дорвеев;
  •  клоакинг;
  •  использование скрытого текста и однопиксельных ссылок.

Использование дорвеев — страниц и ресурсов, созданных (зачастую автоматически) специально для роботов поисковых систем. В теории человек не должен читать текст, который размещен на дорвее, так как он представляет собой бессмысленный набор ключевых слов, используемых в возможных поисковых запросах. Как правило, дорвеи рассчитаны на привлечение с поисковых систем посетителей, использующих в поиске любые поисковые запросы.

Клоакинг состоит в следующем. Пользователю отдается одна страница, читабельная, а поисковому роботу — другая, оптимизированная под какие-либо запросы. Похожий способ — немедленная замена текста на странице сразу же после индексации этой страницы поисковой системой.

Все эти методы в большинстве случаев раскрываются поисковой системой и могут быть применены штрафные санкции к сайтам, использующим методы черной оптимизации.

Под серой оптимизацией сайтов понимается манипуляция с сайтом, которая способна неестественно (во вред восприятию) завысить популярность сайта/страницы/ключевого слова, что может повлечь наложение санкций со стороны поисковой системы. Данная оптимизация официально не запрещена, однако использование её отражается на качестве сайта, выдачи, а следовательно и интернета в целом. Поэтому специалисты стремятся понизить позиции данных сайтов.

Методы серой оптимизации:

  •  большое количество ключевых слов на одной странице;
  •  злоупотребление метатегами;
  •  покупка/продажа ссылок.

Рассмотрим эти методы подробнее.

Размещение на странице большого количество ключевых слов на одной странице засоряет текст и плохо влияет на его читабельность. На этапе зарождения поисковых систем этот метод был крайне эффективен, но сейчас практически бесполезен.

Метатеги созданы для улучшения анализа страницы поисковыми роботами, однако злоупотребление (использование множества ключевых слов, а также тех фраз, которые даже не употреблялись на странице) привело почти к полному безразличию к ним со стороны ПС.

Самый популярный метод серой оптимизации сайтов – торговля ссылками. Ссылки продаются для извлечения выгоды, и не всегда целесообразно употребляются, либо ведут на сомнительные сайты (с вирусами, порнографи, и т.п.). Покупка же ссылок нацелена на увеличение доверие к сайту-донору. Неграмотная покупка ссылок приводит к наложению фильтров, что пагубно влияет на заданные позиции сайта.

Подводя выводы, можно сказать, что наиболее эффективными и быстродействующими методами оптимизации являются методы черной и серой оптимизации, однако поисковые системы научились вычислять практически все способы их обмана, поэтому наилучшие результаты в итоге принесет белая оптимизация. Есть организации, которые предлагают услуги по продвижению сайтов. Наиболее эффективным методом является привлечение трафика на сайт, т.е. увеличение переходов на страницу сайта со страницы поисковой системы.

Для поднятия своего сайта в рейтинге поисковых систем рекомендуется:

  1.  Наполнять сайт уникальным контентом.
  2.  Использовать ключевые слова в метатегах, теге keywords, заголовках, а также в самом текста, но не злоупотреблять этим в ущерб читаемости текста.
  3.  Сделать дизайн сайта и навигацию наиболее удобными для посетителей.
  4.  Размещать ссылки на сайт на других ресурсах.
  5.  Если позволяет бюджет, разместить рекламу на популярных сайтах или договориться о взаимной помощи, воспользоваться услугами по продвижению сайта и привлечения на него трафика.


Заключение

В ходе данной курсовой работы была рассмотрена проблема поиска информации в Web, был проведен анализ процесса работы поисковых систем, а также проанализирована проблема поиска по сайту, т.е. локального поиска, рассмотрен конкретный алгоритм работы модели поисковой системы, собрана информация про  Интернет-каталоги.

Итак, существует множество поисковых систем, которые схожи в принципах функционирования, но используют разные алгоритмы сканирования и ранжирования информации в Интернет, которые держатся в секрете. Эти алгоритмы совершенствуются и усложняются, происходит эволюция поисковых систем. Основной метод хранения информации о существующих страницах в Интернет – это индексация. Хранится как прямой, так и обратный индекс. Прямой используется для формирования сниппетов, а по обратному производится поиск. В связи с тем, что поисковые системы работают со своими базами данных новая информация или страницы не сразу могут попасть в поисковую выдачу по запросу, также следует отметить, что хранится исключительно текстовая информация в сжатом виде, однако требуются большие аппаратные мощности для ее хранения и обработки.

Знание общей модели функционирования поисковой системы дает возможность понять принципы, которые лежат в основе поиска информации, что можно применить либо для продвижения сайта, либо для проектирования собственной поисковой системы, что является масштабным и трудоемким мероприятием.

Кроме глобального поиска в Интернет существует проблема локального поиска в пределах одного сайта. Проблема имеет несколько вариантов решений, выбор из которых должен основываться на требованиях к поиску и на формате сайта. Для небольших сайтов, обновление которых происходит не слишком часто, может подойти форма поиска от глобальных поисковых систем, например Яндекс, либо использование поискового сервиса, например suggest.io. Для более крупных сайтов, характеризующихся высокой частотой обновления информации, рекомендовано использование более мощных поисковых движков с хорошей морфологией и ранжированием, таких как Lucene, Sphinx, Яндекс.Сервер, FAST, Google Appliance и др. либо можно взяться за написание своего движка, удовлетворяющего все требования системы, в которой будет использоваться.

Интернет-каталоги содержат более подробное описание и классификацию сайтов. Многие поисковые системы имеют при себе каталог. Его основное отличие в том, что ссылки разбиты по категориям и имеют описание, составленное человеком. Каталоги создаются вручную, не роботом, поэтому информация в них всегда более точна и соответствует  поисковому запросу.

В дополнение к анализу работы поисковых систем и каталогов рассмотрены методы продвижения сайтов. Общее название этих методов – SEO (search engine optimization). Даны рекомендации, какие из всевозможных методов SEO лучше и безопаснее использовать для повышения рейтинга своего сайта.


Библиография

  1.  Блог Ловцовых - Алгоритм поисковых систем
    http://7age.ru/2011/06/02/algoritm-poiskovyx-sistem-pomoshh-novichkam-v-raskrutke-sajta/
  2.  Википедия - Каталог ресурсов в Интернете
    http://ru.wikipedia.org/wiki/%D...
  3.  Википедия - Okapi BM25
    http://ru.wikipedia.org/wiki/Okapi_BM25
  4.  Википедия - Web 2.0
    http://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%B1_2.0
  5.  Хабр - Полнотекстовый поиск по сайту — бич современного интернета
    http://habrahabr.ru/post/60551/
  6.  Хабр - Поиск на сайте — это не только поиск на сайте
    http://habrahabr.ru/company/netcat/blog/136492/
  7.  Сервис suggest.io
    https://suggest.io/
  8.  ANTULA - Алгоритм работы поисковой системы
    http://www.antula.ru/algoritm-2.htm
  9.  DOU - Обзор решений для полнотекстового поиска в веб-проектах: Sphinx, Apache Lucene, Xapian
    http://dou.ua/lenta/articles/full-text-search-engines-overview-sphinx-apache-lucene-xapian/
  10.  Dilibrium - Рейтинг поисковых систем за 2011-2012 год от компании Dilibrium
    http://mir.dilibrium.ru/stati/43-stati-o-internet-reklame/381-rejting-poiskovyh-sistem-za-2011-2012-god-ot-kompanii-dilibrium
  11.  KtoNaNovenkogo.ru - Как работают поисковые системы — сниппет, алгоритм обратных индексов, индексация страниц, особенности работы поисковиков
    http://ktonanovenkogo.ru/seo/search/kak-rabotayut-poiskovye-sistemy-snippet-index.html
  12.  firstdev.org - Методы белой оптимизации сайтов
    http://firstdev.org/post/internet/seo/metody-beloj-optimizacii-sajtov/
  13.  Википедия – Поисковая оптимизация

http://ru.wikipedia.org/wiki/%D0


 

А также другие работы, которые могут Вас заинтересовать

70155. Планировка участка по ремонту ДВС 4.4 MB
  Целью данного дипломного проекта является оценка существующей структуры автосервиса, освоение навыков организации и управления предприятием, анализ существующей технической базы обслуживания и ремонта автомобилей с внесением новых конструкторских разработок. В рамках данного проекта предстоит рассчитать городское СТО с детальной разработкой участка по ремонту двигателя.
70156. Планирование кадров предприятия и его подбор 133.5 KB
  Планирование сокращения или высвобождения персонала. Термин планирование персонала включает в себя все проблемы сферы персонала которые могут возникнуть в будущем. Планирование персонала во-первых служит целевому планированию потребностей в области персонала и во-вторых планированию...
70157. Товар и товарная политика 215 KB
  Предпринимательская деятельность является эффективной когда производимый фирмой товар или оказываемая ею услуга находит спрос на рынке а удовлетворение определенных потребностей покупателей благодаря приобретению данного товара или услуги приносит прибыль.
70158. ПРОЕКТИРОВАНИЕ ВОЛОКОННО-ОПТИЧЕСКОЙ ЛИНИИ СВЯЗИ ТОМСК – КРАСНОЯРСК 971 KB
  Волоконно-оптические системы передачи благодаря уникальным возможностям по пропускной способности и затуханию волоконных световодов и успехам в технологии элементов волоконно-оптических систем передачи являются наиболее перспективными информационными системами.
70159. Разработка участка текущего ремонта двигателей автомобилей 519 KB
  ТО - это комплекс операций или операция по поддержанию работоспособности или исправности автомобиля при использовании по назначению при стоянке хранении или транспортировании. Ремонт это комплекс операций по восстановлению работоспособности и восстановлению ресурса автомобиля или его составных частей.
70160. Институт наследственного правопреемства 223 KB
  Разумеется такое утверждение имеет смысл если рассматривать правопреемство традиционно то есть как переход субъективного права в широком смысле также правовой обязанности от одного лица правообладателя к другому правопреемнику в порядке производного правоприобретения в соответствующих...
70161. Инфляция: причины, последствия, опыт решения проблем 891 KB
  Независимо от состояния денежной сферы товарные цены могут возрасти вследствие изменений в динамике производительности труда, циклических и сезонных колебаний, структурных сдвигов в системе воспроизводства, монополизации рынка, государственного регулирования экономики...
70162. Виды и формы предпринимательской деятельности 251 KB
  Предпринимательство – это особый вид деятельности, особое поприще, преуспеть на котором не каждому под силу. Оно требует не только солидных экономических знаний, решительности, деловой хватки, готовности рисковать, но и способности к творчеству, неординарному мышлению.
70163. Датчиками Холла: их возможности применения в технике 935.46 KB
  Первые предложения по техническому использованию эффекта Холла были высказаны на рубеже XIX и XX вв. Реальная база для этого возникла, однако, значительно позднее, а именно со времени разработки технологии получения полупроводниковых материалов, характеризующихся значительными подвижностями носителей тока.