11790

Средства поиска информации в Интернете

Лабораторная работа

Информатика, кибернетика и программирование

Методические указания к выполнению лабораторных работ по курсу Мировые информационные ресурсы Средства поиска информации в Интернете Методические указания к выполнению лабораторных работ предназначены для студентов специальности 080801.65 Прикладная инфо

Русский

2013-04-11

907 KB

8 чел.

Методические указания

к  выполнению лабораторных работ по курсу

«Мировые информационные ресурсы»

Средства поиска информации в Интернете

Методические указания к выполнению лабораторных работ предназначены для студентов специальности 080801.65 Прикладная информатика (по областям) при изучении дисциплины Мировые информационные ресурсы, могут быть полезны студентам других специальностей, изучающих аналогичную дисциплину.

Методические указания утверждены цикловой методической комиссией ИВТФ.

Рецензент

кафедра информационных технологий Ивановского государственного энергетического университета

Оглавление

Введение                                                                                                 4

1. Поисковые машины 4

 1.1. Зарубежные лидеры ПС 8

       1.1.1. Google                                                                                                           8

       1.1.2. Yahoo! Search 10

       1.1.3. AltaVista. 12

       1.1.4. Alltheweb. 13

1.2. Российские лидеры ПС 15

 1.2.1. Яндекс 15

        1.2.2. Рамблер                                                                                                        17

        1.2.3. Апорт                             18

1.3. Организация поиска 19

2. Каталоги в Интернете 24

 

Задание 25

         

        Контрольные вопросы     25

Список литературы 26

Введение

В решении информационных задач одним из важных элементов является обеспечение доступа к информационным ресурсам и работа с ними.

Интернет, являясь глобальной телекоммуникационной сетью, предоставляет возможность доступа к большому количеству информационных ресурсов. По некоторым оценкам, объем Интернет-ресурсов превышает 50 млн веб-сайтов и 10 млрд веб-страниц.

Под веб-страницей понимается электронный документ, который может содержать информацию в различном формате в виде текста, изображения, звука и т.д. Веб-сайт является совокупностью веб-страниц, связанных по смыслу или ссылками. В наиболее благоприятном случае пользователь знает адрес сайта. Адрес он может получить различными способами: из книг, справочников, периодических изданий, рекламных проспектов и других источников.

Основной проблемой, с которой сталкивается пользователь при работе в Интернете, является обнаружение необходимых ему информационных ресурсов.

Поиск необходимых сведений в Интернете осуществляется либо при помощи поисковых машин (search engine), либо каталогов (directory). Но и здесь пользователь сталкивается с проблемой выбора, так как в 2001 году количество поисковых машин в Интернете превысило 2000.

На практике часто оба типа информационных поисковых систем представлены на одном веб-сервере. Эти веб-серверы принято называть порталами. Портал представляет собой веб-сайт, организованный как системное многоуровневое объединение разных ресурсов и сервисов.

Рассмотрим поисковые системы и каталоги отдельно в виду принципиальных различий в организации их работы.

1. Поисковые машины.

Чем больше вы пользуетесь Интернетом, тем чаще обращаетесь к поисковым системам для получения нужной информации. Задача поисковых машин – найти документы в Интернете по запросу пользователя.

Запрос - это набор соединенных операторами ключевых слов, с помощью которых поисковая система автоматически ведет поиск и отбор необходимых документов.

Другими словами, запрос - это инструкция (команда) для ПС на поиск нужных документов.

Запросы бывают двух типов: простые и сложные (или расширенные, advanced).

Простые запросы состоят из отдельных ключевых слов или словосочетаний.

Сложные запросы, кроме ключевых слов, содержат логические и другие операторы.

Конечно, проще всего зайти на сайт с интересующими вас данными. Если вы знаете его точный адрес, вы сможете ввести его прямо в адресную строку. Однако, это не значит, что вы должны посещать только те сайты, адреса которых вам уже известны. Поисковые системы помогут вам искать новые сайты.

С помощью поисковых систем можно производить поиск в Интернете, не зная заранее адресов сайтов, которые вас интересуют. Вам нужно только ввести ключевое слово по нужной теме, а поисковая система покажет вам путь к нужным сайтам. Ключевое слово-это лексическая единица, являющаяся существительным, прилагательным, глаголом, числительным, наречием или местоимением, которая в наибольшей степени отражает содержание всего искомого документа.

Поисковые системы состоят из четырех основных частей:

  1.  Первый из них вы не видите: это так называемые роботы. Робот/Паук – программа, которая систематически посещает веб-страницы, считывает и индексирует полностью или частично их содержимое и далее следует по найденным ссылкам. Полученная информация заносится в базу данных поисковой машины.

     Фактически роботы начинают поиск задолго до обслуживания конкретного запроса. Этим объясняется потрясающе высокая скорость поиска нужной информации.

  1.  Второй элемент – это собственно сайт, содержащий строку поиска для введения ключевого слова и затем выдающий ссылки по данной теме.

  1.  Поисковая база данных Индекс представляет собой гигантское хранилище, которое содержит определенным образом организованные данные: индексы, ссылки на веб-страницы и другую дополнительную информацию.

  1.  Поисковая программа, которая в соответствии с запросом пользователя перебирает индексы в поисках соответствующей информации и выдает результаты поиска в виде ранжированного списка найденных веб-документов. Место в списке определяется тем, насколько полно тот или иной документ отвечает критериям, указанным в запросе пользователя.

Таким образом можно схематически изобразить алгоритм работы поисковых систем:

Принципы работы паука, организации индекса (Индексация - это процедура автоматического создания базы данных, в которой хранятся ключевые слова, аннотации документов и адреса, по которым размещены эти документы), поисковой программы в поисковых машинах, как правило, различаются. Поэтому запрос по одним и тем же выражениям в разных поисковых машинах обычно дает разные результаты.

Программа поиска отыскивает страницы, которые соответствуют формальным требованиям запроса. Чтобы определить последовательность, в которой отработанные страницы будут представлены пользователю, применяется алгоритм ранжирования. В интересах пользователя документы, наиболее соответствующие потребностям пользователя, должны быть помещены первыми в списке результатов. Поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения соответствия документов запросу следующие:

  •  Количество слов запроса в текстовом содержимом документа;
  •  Тэги, в которых эти слова располагаются;
  •  Месторасположение искомых слов в документе;
  •  Удельный вес искомых слов в общем количестве слов документа;
  •  Время-как долго страница находится в базе поискового сервера;
  •  Индекс цитируемости-как много ссылок на данную страницу идет с других страниц, зарегистрированных в базе поисковой машины.

Однако эффективность работы поисковых машин ограничивается тремя существенными факторами.

  1.  Топология Интернета такова, что поисковые  машины могут просматривать не

больше трети всех сайтов в Интернете.

В 2000 году специалисты компании AltaVista, IBM  и Compag  исследовали ресурсы и гиперсвязи существующего информационного пространства WWW. Просмотрев с помощью поисковых средств AltaVista свыше 600 млн веб-страниц и 1,5 млрд ссылок, размещенных на этих страницах, они пришли к выводу, что исследуемое пространство состоит из следующих компонентов:

  •  Центральное ядро-это тесно свяанные между собой веб-страницы, с каждой из которых можно попасть на любую другую (27%);
    •  Отправные страницы. В них могут быть ссылки, ведущие к ядру, но из ядра к отправным страницам попасть нельзя (22%);
    •  Конечные веб-страницы, к которым можно прийти по ссылкам из ядра, но к ядру от них попасть нельзя (22%);
    •  Полностью изолированные от центрального ядра страницы, имеющие ссылки либо на конечные веб-страницы, либо ссылки с отправленных веб-страниц (22%);
    •  Веб-страницы, не пересекающиеся с остальными ресурсами Интернета (7%).

Исследования показали, что при увеличении общего объема информационных ресурсов Интернета установленные отношения компонентов остаются прежними. Проведенный анализ позволяет сделать вывод о том, что информационное пространство Интернета является достаточно сложным и неоднородным. К отдельным ресурсам Интернета поисковые машины не имеют доступа.

  1.  Глубина индексирования веб-сайтов. Большинство поисковых машин индексируют только определенное количество документов на одном веб-сайте.
  2.   «Невидимый Интернет» (скрытый). «Видимая» часть сайтов-это та часть, которая обрабатывается поисковыми системами и индексируется. «Невидимая» часть – это та часть сайта, которая не предназначена для обработки поисковыми системами. Американская фирма BrightPlanet разраьотала программное обеспечение по исследованию «невидимой» части сайтов. Полученные результаты показывают, что число документов «невидимой» части более чем в 500 раз превышает число документов, относящихся к «видимой» части.

К невидимому Интернету в первую очередь относятся ресурсы, для доступа к которым требуется пароль или регистрация, профессиональные базы данных, а также различные форматы предоставления информации. Например, только с недавнего времени поисковые машины начали индексировать информацию в PDF-формате.

Лидирующие позиции по количеству проиндексированных веб-страниц занимают поисковые машины Google, AltaVista.

При работе с поисковыми машинами большое значение имеет язык запросов, так как единственным инструментом поиска становится полнотекстовый поиск по ключевым словам.

При формировании запроса могут использоваться не только отдельные ключевые слова, но и словосочетания, состоящие из нескольких ключевых слов.

В большинстве поисковых систем доступен набор поисковых операторов. Наиболее распространены операторы, реализующие логические условия «И» (AND), «ИЛИ» (OR), «НЕ» (NOT), «РЯДОМ» (NEAR). Эти условия пишутся на английском языке и имеют символьные сокращения И (&&), ИЛИ (|), а также НЕ (-).

. Символьное обозначение поисковых операторов и возможности их использования значительно различаются в поисковых машинах. Оператор близости в чистом виде практически не присутствует (в AltaVista оператор NEAR задает поиск слов запроса в пределах 10 слов, в Lycos-в пределах 25), обычно он обозначается числом в окружении каких-либо специальных символов.

Эти операторы функционируют очень просто. Наберите, например, «музыка & гитара», чтобы найти сайты, посвященные гитарной музыке.

Функция оператора ИЛИ построена на обратном принципе. Если вы введете «Мерседес | порше | ягуар», вас направят на сайты только об одной из этих марок автомобилей.

С помощью НЕ вы можете исключить некоторые темы из своего списка. Например, если вы введете «ягуар-кошка», вы найдете только те сайты, где речь идет о машинах, а не о животных.

Еще один оператор, «Поиск фразы», позволяет искать конкретные сочетания слов. Если взять словосочетание в кавычки, то будут найдены только те документы, в которых эти слова идут строго подряд.

Существуют еще некоторые текстовые функции, которые также просты в применении. Основываясь на собственном синтаксисе, они всегда оканчиваются двоеточием, а за ним следуют ключевые слова или части предложения, которые вы ищете. Можно искать информацию в «зонах»: заголовках (Title), ссылках (Anchor) и адресе сайта (Address). Прочие текстовые функции обычно описываются в разделах поисковых систем «Помощь» или «Как искать».

1.1.Зарубежные поисковые системы (машины)

Наиболее известные поисковые системы:

  •  Google  www.google.com
  •  Yahoo! Search search.yahoo.com
  •  AltaVista  www.altavista.com

     www.av.com

  •  Alltheweb  www.alltheweb.com

1.1.1. Google   

  •  Название поисковой системы происходит от измененного слова googol (гугол), которое означает величину 10 в степени100, т.е. единицу со ста нулями.
  •  По мнение автора термина, математика Э.Каснера, во всей Вселенной нет ни одного материального объекта в количестве гугола единиц.
  •  Назвав свою систему Google и явно ассоциируя это название с термином «гугол», основатели ПС хотели выразить необъятный масштаб интернета.
  •  ПС автоматически определяет из какого региона поступил запрос и в соответствии с этим отображается на одном из 26 языков.
  •  Так, существует сайт www.google.ru, куда автоматически отсылаются пользователи из России.

Google          www.google.ru

Один из основателей Google – Сергей Брин. Его семья уехала из СССР в 1979 году, когда Сергею было шесть лет. Закончив школу, в 1990 году он поступил в университет Мэриленд. Досрочно получив «красный» диплом бакалавра по математике и компьютерным системам, он продолжил учебу в Стэнфордском университете.

Научная работа Сергея Брина, как и его друга Ларри Пейджа, касалась поиска информации. «Мы не читали в интернете гороскопов и объявлений. Нас интересовал поиск – та информация, которая по-настоящему влияет на жизнь людей», - рассказывает Брин. Одну работающую программу поиска Сергей написал в 1994 году.

Она автоматически искала на сайте «Плейбоя» новые картинки и закачивала их на рабочий стол в компьютере Брина. Осенью 1996 года на сайте Стэнфордского университета заработала поисковая страница. Это была практическая часть научной работы Брина и Пейджа. А необходимый для работы поисковика сервер объемом 1024 Гб располагался прямо в комнате Брина в университетском общежитии.

В основе поисковой системы лежал запатентованный в 1996 г. алгоритм PageRank.

Принцип действия: все многочисленные найденные страницы ранжировались по числу ссылающихся на них других страниц.

Таким образом наверху оказывались самые востребованные страницы.

Поисковая система оказалась настолько удобной, что к лету 1998 года к ней обращалось около 10 тысяч пользователей.

Брин и Пейдж взяли академический отпуск и 7 сентября 1998 года основали компанию Google Inc.

В 1999 году Google стала самой популярной ПС и с тех пор ее рейтинг не уменьшался.

В языке американцев появилось новое слово – «гуглить», т.е. искать в интернете (как само собой разумеющееся) с помощью Google.

В США Google предпочитают 34,7% пользователей. В мире доля Google для англоязычного поиска достигает 43,3%! Google позволяет производить поиск web-документов, изображений, новостей, сообщений форумов, а также сайтов из собственного каталога.

1.1.2. Yahoo! Search

   

Самый близкий преследователь Google в рейтинге ПС – компания Yahoo!

Традиционно служба Yahoo! позиционировалась как развитый каталог ресурсов интернета, но возможности поиска все же присутствовали: до 2004 года в каталоге использовалась поисковая технология Google.

С 2004 года начала работу глобальная ПС Yahoo! Search.

ПС позволяет искать web-документы, изображения, новости, сообщения форумов. Возможет поиск и в собственном каталоге.

Существует также уникальная технология борьбы с поисковым мусором и фильтрация избыточных ссылок.

Yahoo!   www.yahoo.com

Yahoo!Search          search.yahoo.com

Компании Yahoo! с 2003 года принадлежат поисковые службы Inktomi, Fast и AltaVista.

1.1.3. AltaVista.

Служба AltaVista появилась в 1995 г.

Преимущество системы – развитые, мощные средства сложного поиска

Сервис осуществляет поиск на 25 языках.

ПС не имеет собственного каталога и производит поиск web-документов, новостей, изображений, музыки и видео.

AltaVista          www.av.com

Поисковая система AltaVista в отличие от других ПС не занимается морфологической обработкой текстов.

Все слова для нее, независимо от языка, - лишь последовательности символов. Это привлекает к AltaVista многих пользователей.

ПС AltaVista принадлежит компании Yahoo!

1.1.4. Alltheweb.

Основана в Норвегии в 1997 году.

В 2002 году на некоторое время ПС Alltheweb стала лидером по количеству документов в базе данных – более 2 млрд.

Сегодня поисковая система Alltheweb получила название Fast. Она считается наиболее близкой к Google по своим возможностям.

Alltheweb       www.alltheweb.com

ПС отличается высокой скоростью.

Время ответа на поисковый запрос не превышает 0,05 секунды!

Alltheweb обеспечивает поиск web-документов, новостей, изображений, музыки, видео.

ПС Alltheweb принадлежит компании Yahoo!

1.2. Российские поисковые системы

  •  Яндекс   www.yandex.ru
  •  Рамблер   www.rambler.ru
  •  Апорт   www.aport.ru

1.2.1. Яндекс.

Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool.

Слово «Яndex» было придумано за несколько лет до этого и означало «Языковой index», или, если по-английски, «Yandex» — «Yet Another indexer».

Яндекс.                             www.yandex.ru 

Основными отличительными чертами ПС Яндекс были и остаются:

  •  проверка уникальности документов (исключение копий в разных кодировках),
    •  учет морфологии русского языка,
    •  поиск с учетом расстояния,
    •  оценка релевантности (соответствия ответа запросу).

В ноябре 1997 года был реализован естественно-языковый запрос.

К Яндексу можно обращаться просто «по-русски», задавать длинные запросы и получать точные ответы.

Средняя длина запроса в ПС сейчас — 2,7 слова.

В 1997 году она составляла 1,2 слова, тогда пользователи поисковых машин были приучены к телеграфному стилю.

В 1998 году на Яндексе появилась возможность найти :

  •  «похожий документ»,
  •  список найденных серверов,
  •  поиск в заданном диапазоне дат,
  •  сортировка результатов поиска по времени последнего изменения.

В марте 2004 г. были реализованы новые возможности:

  •  система может отличать мнения людей от технической, вспомогательной и рекламной информации;
    •  система  автоматически определяет, в каком городе находится пользователь и предлагает уточнение поиска по региону.

Яндекс позволяет производить поиск:

  •  web-документов,
  •  изображений,
  •  новостей,
  •  сообщений блогов,
  •  товаров из интернет-магазинов,
  •  адресов предприятий и организаций,
  •  а также сайтов из собственного каталога.

ПС поддерживает шесть языков: русский, английский, украинский, белорусский, французский и немецкий.

Язык документа определяется автоматически. Нужным языком можно ограничить область поиска.

С 2001 года, по опросам исследовательских компаний Gallup Media и Комкон, Яндекс является самым популярным поисковым ресурсом в рунете.

Сегодня ежедневная аудитория Яндекса (включая зарубежных пользователей) – 12 млн. человек

Яндекс – Интернет-портал.

Яндекс – не просто поисковая система или каталог, а весьма продвинутый интернет-портал, обладающий широким набором вспомогательных сервисов:

  •  Народ.Ру www.narod.ru

    narod.yandex.ru

Служба бесплатного хостинга и набор средств, позволяющий каждому желающему создать свой сайт с форумами, чатами, гостевыми книгами и бесплатной почтой.

  •  Яндекс.Деньги money.yandex.ru

Система оплаты цифровой наличностью.

На виртуальный счет можно переводить деньги, переводить на другие счета, оплачивать услуги, снимать и обналичивать

  •  Яндекс.Новости  news.yandex.ru

Сервис предлагает автоматическое выделение главных тем дня в различных информационных агентствах и объединение их в информационные блоки.

  •  Яндекс.Энциклопедии

  encycl.yandex.ru

Поиск в энциклопедиях, справочниках и толковых словарях.

1.2.2. Рамблер.

В 1996 году программист Дмитрий Крюков написал поисковую программу для ресурсов интернета.

Она сразу же была введена в эксплуатацию на www.rambler.ru

Слово «rambler» означает «скиталец, странник, бродяга»

Рамблер                www.rambler.ru

Ramblers Top 100

 Весной 1997 года появляется Rambler's Top100 - уникальный рейтинг-классификатор, который не только оценивает на основе объективных данных популярность российских ресурсов, но и позволяет одним «кликом» попасть на них.

Возникновение универсального счетчика, способного направлять аудиторию на разные ресурсы, создало в рунете  динамичную конкурентную среду.

Авторы сайтов стали более тщательно работать над своими сайтами, стремясь занять в Топ100 более высокие строчки.

Хороший рейтинг давал дополнительные преимущества - быстрый рост аудитории.

Рамблер.

В июне 2003 года Рамблер запустил новую версию поисковой машины, которая отличается от предыдущей по двум основным параметрам:

  •  во-первых, значительно увеличилась скорость поиска;
  •  во-вторых, благодаря новой архитектуре системы обновление поискового индекса происходит несколько раз в день.

Rambler Mass Media.

Rambler Mass Media - одна из крупнейших информационных площадок рунета.

Проект круглосуточно взаимодействует с более чем 50 ведущими российскими и зарубежными СМИ.

Использование большого количества информационных источников позволяет Rambler Mass Media предоставлять аудитории полную и достоверную информационную картину дня.

1.2.3. Апорт.

Поисковая система Апорт появилась в интернете в 1996 году.

В 2000 году была официально представлена новая версия – «Апорт 2000».

Поиск в ПС производится в таких сегментах интернете, как web-сайты, рефераты, товары, работа, знакомства, музыка, новости, энциклопедия «Кругосвет», а также в собственном каталоге.

Апорт                   www.aport.ru

Разработчики Апорта удачно использовали некоторые идеи, впервые реализованные в системе Google: в конечном итоге поиска одними из первых выдаются сайты, чей «ранг страницы» выше, т.е. чем больше сайтов ссылаются на данный сайт, тем он выше в списке.

Система ранжирования (похожая на PageRank у Google) была реализована и в ПС Апорт.

1.3. Организация поиска

Рассмотрим работу поисковой машины на примере поисковой системы Яндекс.
Для вызова поисковой системы, пользователь вводит в адресной строке обозревателя Интернет ее адрес, в нашем примере мы используем поисковую систему Яндекс: www.yandex.ru или www.ya.ru (в варианте упрощенной загрузки). После загрузки поисковой системы в строке для поиска вводите запрос (ключевую фразу), который представляет собой строку текста (на русском, английском или любом другом языке) и нажимайте кнопку Найти.

Советы по поиску

Ищите больше, чем по одному слову. Слово "психология" или "продукты" дадут при поиске поодиночке большое число бессмысленных ссылок. Добавьте одно или два ключевых слова, связанных с искомой темой. Например, "психология Юнга" или "продажа и покупка продовольствия". Рекомендуем также сужать область вашего вопроса. Если вы интересуетесь автомобилями ГАЗ, то запросы "автомобиль Волга" или "автомобиль ГАЗ" выдадут более подходящие документы, чем просто "легковые автомобили".

Проверяйте орфографию. Если поисковая машина не нашла ни одного документа, то вы, возможно, допустили орфографическую ошибку в написании слова. Проверьте правильность написания. Если вы использовали при поиске несколько слов, то посмотрите на количество каждого из слов в найденных документах (перед их списком после фразы "Результат поиска"). Какое-то из слов не встречается ни разу? Скорее всего, его вы и написали неверно.

Используйте синонимы. Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово. Например, вместо "рефераты" возможно больше подойдет "курсовые работы" или "сочинения". Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через вертикальную черту (|). Тогда будут найдены страницы, где встречается хотя бы одно из них. Например, вместо "фотографии" попробуйте "фотографии|фото|фотоснимки".

Не пишите большими буквами. Начиная слово с большой буквы, вы не найдете слов, написанных с маленькой буквы, если это слово не первое в предложении. Поэтому не набирайте обычные слова с Большой Буквы, даже если с них начинается ваш запрос Яндексу. Заглавные буквы в запросе рекомендуется использовать только в именах собственных. Например, "группа Черный кофе", "телепередача Здоровье".

Найти похожие документы. Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку "найти похожие документы". Ссылка расположена под краткими описаниями найденных документов. Яndex проанализирует страницу и найдет документы, похожие на тот, что вы указали. Но если эта страница была стерта с сервера, а Яндекс еще не успел удалить ее из базы, то вы получите сообщение "Запрошенный документ не найден".

Используйте знаки "+" и "-". Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минуса. И наоборот, чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс. Обратите внимание, что между словом и знаком плюс или минус не должно быть пробела. Например, если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос "путеводитель по Парижу -агентство -тур". Плюс стоит использовать в том случае, когда нужно найти так называемые стоп-слова (наиболее частотные слова русского языка, в основном это местоимения, предлоги, частицы). Чтобы найти цитату из Гамлета, надо задать запрос "+быть или +не быть".

Попробуйте использовать язык запросов. С помощью специальных знаков вы сможете сделать запрос более точным. Например, укажите, каких слов не должно быть в документе, или что два слова должны идти подряд, а не просто оба встречаться в документе.

Искать без морфологии. Вы можете заставить Яндекс не учитывать формы слов из запроса при поиске. Например, запрос !иванов найдет только страницы с упоминанием этой фамилии, а не города "Иваново".

Результаты поиска

После того, как вы задали запрос, Яндекс выведет список ссылок на документы, наиболее точно ему соответствующие. На этой странице результатов вы обнаружите некоторые специальные обозначения и ссылки, предназначенные облегчить просмотр и сортировку найденных страниц. На рисунке приведен общий вид страницы результатов:

1. Поисковая форма. Главный ее элемент - строка запроса. При желании можно искать только в результатах предыдущего поиска ("искать в найденном"). Можно также задать запрос по любому из источников информации ("Везде", "Каталог", "Новости", "Маркет", "Энциклопедии", "Картинки").

2. Статистика поиска: число найденных документов и частота заданных в запросе слов. По ссылке "страниц" можно перейти на несгруппированную по серверам выдачу.

3. Рубрики каталога. По нажатию на ссылку происходит переход в соответствующий раздел каталога (выводится только при точном соответствии запросу).

4. Результаты поиска по вебу. Для каждого документа выдается следующая информация: заголовок - ссылка на ресурс, краткое описание ресурса, информация о размере, кодировке и, дате документа, его URL. Найденные слова - переход на "подсвеченный" документ, в котором контекст запроса выделен стрелочками, поиск похожего документа и, если найденный сайт описан в каталоге, переход в рубрику каталога.

5. Переход на следующие страницы результата. Сортировка по убыванию дат или релевантности.

6. Возможность поискать в других русскоязычных поисковых машинах.

7. Результат поиска в новостных лентах информационных агентств (выводится только при точном соответствии запросу). При высоком соответствии и актуальности эта секция может оказаться над результатами поиска по вебу.

8. Результат поиска в базе товарных предложений магазинов (выводится только при точном соответствии запросу).

Расширенный поиск

Яндекс обладает развитым языком запросов, позволяющим осуществлять тонкий поиск. Для того, чтобы воспользоваться широким спектром возможностей, используйте страницу "расширенный поиск", где большая часть настроек Яндекса задается простым образом.

Искомые слова. Здесь вы можете указать, какие слова обязательно должны встретиться в документе, каких быть не должно, а какие желательны (то есть могут быть, а могут не быть).
Зоной поиска слова может быть как текст документа (слова находятся в одном предложении или всем документе), так и его заголовок, аннотация (тэг description), ссылка (подпись URL) или адрес (сам URL).

Страницы. Яндекс умеет определять язык документа. Вы можете задать язык документа, где надо провести поиск: русский (кириллица) или не русский. В базе Яндекса находятся только документы русскоязычного Интернета (по умолчанию в поисковую машину вносятся сервера в доменах su, ru, am, az, by, ge, kg, kz, md, tj, ua, uz), а также зарубежные сайты, представляющие интерес для русскоязычного поиска. Так же вы можете указать ограничение выдачи документов по дате и формат дакумента.

Внизу страницы вы можете посмотреть ваш запрос и все указанные параметры.

Опрос зарубежных пользователей Интернет

Наиболее популярные ПС

                                                                    в мире

по данным Nielsen//NetRatings
за февраль 2006 г.)

по данным Nielsen//NetRatings
за февраль 2006 г.)

Опрос российских пользователей Интернета

Опрос: какими поисковыми системами Вы пользуетесь?
(март 2006 г., 1800 человек в 7 округах РФ, ЦМиСИ)

3. Каталоги в Интернете.

Каким количеством ПС  Вы пользуетесь?

(март 2006 г., 1800 человек в 7 округах РФ, ЦМиСИ)

Среди тех, кто использует одну ПС: Какой именно ПС Вы пользуетесь?
(март 2006 г., 1800 человек в 7 округах РФ, ЦМиСИ)

2. Каталоги в Интернете

В каталогах имеются иерархические тематические рубрики. Отнесение веб-сайтов к тем или иным рубрикам каталога осуществляется человеком.

Тематические каталоги в общем виде подобны глобальным электронным справочникам, имеющим привычную логико-тематическую структуру, что позволяет ориентироваться в ресурсах Интернета в пределах отдельных отраслей знаний. В отличие от поисковых машин решение о направлении информации в ту или иную рубрику каталога принимает человек, составляется и корректируется рубрикатор также человеком. В настоящее время деление на тематические каталоги и поисковые системы в чистом виде сохраняется только как технологии структуризации информации в Интернете, поскольку практически все средства справочного типа обладают некоторой возможностью непосредственного поиска, а многие поисковые системы снабжены небольшими справочниками.

В то время как лучшие из каталогов содержат десятки и сотни тысяч ссылок на веб-страницы, многие поисковые машины индексируют несколько миллионов страниц, причем эта информация пополняется и периодически обновляется. Однако полученные документы будут больше соответствовать запросу пользователя, так как отнесение информации к рубрикам оценивается по смыслу, а не по наличию каких-либо символов в документе, как это делается в поисковых системах.

Среди иностранных каталогов можно выделить Yahoo (www.yahoo.com), Lycos (www.lycos.com), InfoSeek (www.infoseek.com) и Galaxy (galaxy.einet.net).

Наиболее распространенным является каталог Yahoo. На его верхнем уровне содержится 14 главных разделов (категорий). Общее число рубрик составляет около 25 тыс.

Начиная с любого раздела верхнего уровня, пользователь последовательно открывает рубрику, затем подрубрику, пока не дойдет до списка веб-сайтов. Так, пункт меню «Библиотеки» разворачивается в перечень библиотек по типу, отраслевой принадлежности и местоположению. Выбор из меню университетских библиотек в США приводит к выводу на экран списка всех библиотек американских университетов и т.д. Такая иерархическая структура дает возможность шаг за шагом обследовать интересующие разделы, будь то физика, история, биология, география, музыка или спорт, последние новости или справочные издания. Справочник Yahoo обладает также возможностью поиска ключевых слов в описании рубрик и ресурсов.

Особенность каталогов в том, что они более эффективны при поиске ответа на конкретный вопрос. Можно выделить следующие отличительные черты каталогов ресурсов Интернета:

  1.  каталоги, как правило, имеют строгую иерархическую структуру. Информация в каталогах расположена по разделам, подразделам и т.д.для облегчения поиска нужных ссылок;
  2.  предметные каталоги предоставляют возможность автоматического поиска по ключевым словам. Однако поиск этот происходит не в содержимом самих веб-сайтов, а в их кратких описаниях, хранящихся в каталоге;
  3.  охват ресурсов у каталогов значительно уже, чем у поисковых машин.

Адреса популярных каталогов:

  •  @Rus (русскоязычный) - http://www.atrus.ru/ 
  •  Weblist (русскоязычный) - http://www.weblist.ru/ 
  •  Созвездие интернет (русскоязычный) - http://www.stars.ru/ 
  •  Yahoo (англоязычный) - http://people.yahoo.com/ 
  •  Magellan (англоязычный) - http://www.mckinley.com/.

Задание  

1. Вы планируете выпуск информационно-развлекательной газеты.

2.Большей частью Ваше издание будет представлять собой интернет-дайджест.

3.Вам необходимо найти источники (интернет-сайты) для наполнения тематических                  разделов газеты с использованием поисковых машин и каталогов.

Тематические разделы газеты:

  •  Новости страны и мира
  •  Курьезы и забавные случаи
  •  Необъяснимые явления и происшествия
  •  Новости науки и техники
  •  Новости из мира звезд
  •  Советы домохозяйкам
  •  Советы автовладельцам
  •  Гороскоп
  •  Кроссворды
  •  Анекдоты.

4.  Привести результаты поиска как  с использованием поисковых машин так и каталогов  и сравнить их между собой.

5. Оформить отчет по работе.  Отчет должен содержать:

-название и цель работы;

-задание;

-полученные результаты;

-выводы по результатам работы.

Контрольные вопросы

1. Принципы поиска информации в Интернете.

2. Типы поисковых систем в Интернете.

3. Принцип работы поисковой машины.

4. Правила составления запроса из ключевых слов.

5. Дополнительные возможности расширенного поиска.

6. Возможности поиска по каталогам.

Список литературы и источников

1. Дудихин В.В., Дудихина О.В. Конкурентная разведка в Интернет. – М.: ООО «Изд-во АСТ»: изд-во «НТ Пресс», 2004.

2. Ландэ Д.В. Поиск знаний в INTERNET. Профессиональная работа.: Пер. с англ. – М.: «Вильямс», 2005.

3. Синебрюхов Л. Американский гражданин Сергей Михайлович Брин // Известия, №79. 05.05.2006 г.

4. Хорошилов А.В., Селетков С.Н., Днепровская Н.В.  Управление информационными ресурсами.  – М.: Финансы и статистика, 2006.

     4. www.searchenginewatch.com.

5. http://webs.h11.ru/pol_e/07.htm.

PAGE  4


Поисковый

робот

База данных

Информация о сайтах

Пользователь

Результат

поиска

Запрос


 

А также другие работы, которые могут Вас заинтересовать

78567. Вчимо правила безпечної поведінки, граючи 94.5 KB
  Мета: Навчити учнів дотримуватися правил безпечного переходу вулиць і доріг повторити правила дорожнього руху розглянути причини ДТП вчити запобігати їх виникнення. Я допомагаю машинам і пішоходам виконувати правила дорожнього руху.
78568. ОСНОВНІ ПРАВОПОРУШЕННЯ 32.5 KB
  Мета: Сформулювати уявлення про правопорушення; познайомити з видами правопорушень; вчити учнів бути чесними громадянами України; виховувати негативне ставлення до правопорушень норм моралі та прав людини. Сьогодні на уроці ми поговоримо про правопорушення.
78569. Мы школьниками стали 43 KB
  Ведущий: Ну, конечно, в первый! Мы проучились в нем...месяца и стали настоящими учениками. Приглашаем всех на весёлый праздник - «Мы школьниками стали». 3-й ученик: Пусть зовут нас «шестилетки»! пусть не ставят нам отметки! Не ведём мы дневники!
78570. Повторення вивченого про прикметник. Спостереження за роллю прикметників у мовленні 90 KB
  Прикметники-синоніми прикметники-антоніми та прикметники багатозначні слова. Спиши вставляючи в речення потрібні за змістом прикметники. Випиши прикметники. Опиши поданий український вишитий рушник використовуючи різні прикметники.
78571. Водойми, їх різноманіття 49 KB
  Вода. Під горою під крутою не ріка тече струною Це холодна б’є вода із старого Джерела. Яке значення має вода на Землі Які водойми суші ви знаєте Яким кольором позначають воду на карті глобусі IV Вивчення нового матеріалу 1. Вода напуває Землю яка годує людину.
78572. Збережемо природу Землі разом 95 KB
  Мета. Поглибити і розширити знання учнів про вплив людини на природу Землі. Підвести дітей до усвідомлення необхідності зберігати та примножувати природні багатства, раціонально їх використовувати.
78573. Що належить до природи. Жива і нежива природа 35.5 KB
  Мета: розширити знання учнів про різноманітність природи; формувати уявлення про живу та неживу природу; вчити відрізняти предмети природи від речей виготовлених людиною; розвивати вміння спостерігати за об’єктами природи; виховувати дбайливе ставлення до природи речей створених людиною.
78574. Охорона природи України 165.5 KB
  Поглибити і розширити знання дітей про роль природи її вплив на людину про необхідність збереження і охорони природного середовища; підвести дітей до усвідомлення необхідності зберігати і примножувати природні багатства раціонально їх використовувати.
78575. Охрана природы 10.03 MB
  Много животных там стало водиться: Змеи слоны черепахи и птицы. За 1000 лет наша Земля изменилась до неузнаваемости: обмелевшие реки вырубленные леса нефтяные пятна на поверхности морей и океанов сотни исчезнувших растений и животных.