36938

Пошук інформації в Internet

Лабораторная работа

Информатика, кибернетика и программирование

Як трактуються слова Незалежно від того яка форма слова стоїть в запиті пошук враховує всі форми за правилами російської мови. Наприклад якщо задано запит “идти†те в результаті пошуку будуть знайдені посилання на документи що містять слова идет†шел†шла†тощо . Якщо в запиті слово набране з великої букви будуть знайдені тільки слова з великої літери у противному випадку будуть знайдені як слова з великої так і з маленької літери. Між словами можна поставити знак †або кому †щоб знайти документи що містять...

Украинкский

2013-09-23

99.5 KB

1 чел.

Лабораторна робота № 3

Пошук інформації в Internet

Мета роботи – опанувати основні принципи роботи з пошуковими серверами. Опанувати метод пошуку інформації з використанням ключових слів.

 

Робота з сервером Яндекс.

Сервер Яндекс має адреси:

http://yandex.ru/ 

http://www.ya.ru/ 

1. Як трактуються слова

Незалежно від того, яка форма слова стоїть в запиті, пошук враховує всі форми за правилами російської мови.

Наприклад, якщо задано запит “идти”, те в результаті пошуку будуть знайдені посилання на документи, що містять слова „идет”, „шел”, „шла” тощо . На запит „окно” буде видана інформація, що містить і слово „окон”, а на запит „отзывали” - документи, що містять слово „отозвали”.

Якщо в запиті слово набране з великої букви, будуть знайдені тільки слова з великої літери, у противному випадку будуть знайдені як слова з великої, так і з маленької літери.

Наприклад, запит „лебедь” знайде й птаха, і генерала. Запит „Лебедь” - генерала й ті випадки згадування птаха, коли вона написана з великої букви.

2. Основні оператори

Декілька набраних у запиті слів, розділених пробілами, означають, що всі вони повинні входити в один абзац шуканого документа. Той же самий ефект зробить вживання символу „&”.

Наприклад, при запиті „холодная вода” (або „холодная & вода”), результатом пошуку буде список документів, у яких в одному абзаці втримуються й слово „холодная”, і слово „вода”.

Між словами можна поставити знак „|” (або кому „,”), щоб знайти документи, що містять будь-яке з цих слів.

Запит виду „вода | огонь” або „вода,огонь” задає пошук документів, що містять в одному абзаці хоча б одне зі слів „вода” або „огонь”.

Ще один знак, тильда „~”, дозволить знайти документи з абзацом, що містить перше слово, але не містять друге.

По запиті „холодный ~ горячий” будуть знайдені всі документи, що містять слово „холодний”, поруч із яким (у межах абзацу) немає слова „горячий”.

Щоб здійнятися на сходинку вище, від рівня абзацу до рівня документа, треба подвоїти відповідний знак. Одинарний оператор (&, ~) шукає в межах абзацу, подвійний (&&, ~~) - у межах документа.

Наприклад, по запиті „холодная && вода” будуть знайдені документи, що містять будь-де обоє ці слова. А запит „квас ~~ теплый” видасть всі документи зі словом „квас”, але без слова „теплый”

3. Пошук з відстанню

Як Яndex адресує слова? Якщо всі слова в тексті перенумерувати, то відстань між словами a й b - це різниця між номерами слів a й b. Таким чином, відстань між сусідніми словами дорівнює 1 (а не 0), а відстань між сусідніми словами, що стоять "не в тому порядку", дорівнює -1. Те ж саме стосується й абзаців. Якщо між двома словами поставлений знак „/”, за яким відразу надруковане число, виходить, потрібно, щоб відстань між ними не перевищувало цього числа слів.

Наприклад, по запиті „холодная /2 вода” повинні бути знайдені документи, у яких містяться й слово „холодная” і слово „вода”, причому відстань між ними повинне бути не більше двох слів і вони повинні перебувати в одному абзаці.

Якщо порядок слів і відстань точно відомі, можна скористатися пунктуацією /+n. Так, наприклад, задається пошук слів, що стоять підряд.

Запит „холодная /+1 вода” означає, що слово „вода” повинне випливати безпосередньо за словом „холодная”. (До речі, до того ж результату приведе запит "холодная вода")

У загальному виді обмеження по відстані задається за допомогою пунктуації виду „/(n m)”, де „n” мінімальне, а „m” максимально припустима відстань. Звідси запис „/n” еквівалентний „/(-n +n)”, а запис „/+n” еквівалентний „/(+n +n)”.

Запит „холодная /(-2 4) вода” означає, що „вода” повинна перебувати від „холодная” в інтервалі відстаней від 2 слів ліворуч до 4 слів праворуч.

Знаки можна комбінувати з обмеженням відстані.

Наприклад, результатом пошуку по запиті „холодная ~ /+1 вода” будуть документи, що містять слово „холодна”, причому в цих документах слово „вода” не стоїть безпосередньо за словом „холодная”.

Коли знаки обмеження по відстані стоять після подвійних операторів, то вжиті там числа - це відстань не в словах, а в абзацах. Відстань в абзацах визначається аналогічно відстані в словах.

Запит „холодная && /1 вода” означає, що слово „вода” повинне перебувати в тому ж самому, або в сусідньому зі словом „холодная” абзаці.

4. Круглі дужки  

Замість одного слова в запиті можна підставити цілий вираз. Для цього його треба взяти в дужки.

Наприклад, запит „(холодная,горячая) /+1 (вода|огонь)” задає пошук документів, які містять кожну із фраз „холодная вода”, „холодный огонь”, „горячая вода”, „горячий огонь”.

5. Пошук у певних елементах

Можна шукати інформацію у двох "зонах" - заголовках (ім”я "зони": Title) і посиланнях (ім”я "зони": A).

Синтаксис: $ім”я_зони логічний_множник

Запит „$Title Комптек” шукає в заголовках документів слово „Комптек”. Запит „ $A (Комптек | Dialogic)” знаходить документи, в посиланнях усередині яких є одне зі слів „Комптек” або „Dialogic”.

6. Пошук у знайденому

Поставивши в пошуковому рядку „$$” можна обмежити область пошуку - здійснювати його не по всіх документах, а тільки по тим, які були знайдені в попередньому пошуку. Оператор дозволяє послідовно звужувати область пошуку (при дуже вузькому пошуку є небезпека не знайти жодного релевантного документа).

Запит „$Title Комптек $$ „ знайде ті документи з останнього результату пошуку, у яких у заголовку є слово «Комптек».

7. Ранжирування результату пошуку

При пошуку для кожного знайденого документа Яндекс обчислює величину релевантности (відповідності) змісту цього документа пошуковому запиту. Список знайдених документів перед видачею користувачеві сортується по цій величині в порядку убування. Релевантность документа залежить від ряду факторів, у тому числі від частотних характеристик шуканих слів, ваги слова або виразу, близькості шуканих слів у тексті документа одне до одного тощо.

Користувач може вплинути на порядок сортування, використовуючи оператори ваги й уточнення запиту. Завдання ваги слова або вираження застосовується для того, щоб збільшити релевантность документів, що містять "зважене" вираження.

Синтаксис: слово:число або (пошуковий_вираз):число

По запиті „поисковые механизмы:5” будуть знайдені ті ж документи, що й по запиті „поисковые механизмы”. Різниця полягає в тому, що нагорі списку знайденого виявляться документи, де частіше зустрічається саме слово „механізмы”. Запит „поисковые (механизмы|машины|аппараты):5 „ рівнозначний запиту „поисковые (механізмы:5|машины:5|аппараты:5) „.

Завдання уточнюючого слова або виразу застосовується для того, щоб збільшити релеватность документів, що містять уточнюючий вираз.

Синтаксис: <- слово або <- (уточнюючий_вираз)

По запиті „компьютер <- телефон „ будуть знайдені всі документи, що містять слово „компьютер”, при цьому першими будуть видані документи, що містять слово „телефон” . Якщо в жодному документі зі словом „компьютер” немає слова „телефон”, результат запиту буде еквівалентний запиту „компьютер”.

Цей сервер добрі обробляе запити, що складенi як з використанням латиниці так і кiрилицi.

Синтаксис

Що означає оператор

Приклад запиту

пробіл або &

логічне И (у межах абзацу)

лечебная физкультура

&&

логічне И (у межах документа)

рецепты && (плавленый сыр)

|

логічне АБО

фото | фотография | снимок | фотоизображение

+

обов”язкова наявність слова в знайденому документі (працює також у застосуванні до стоп-слів)

+быть или +не быть

( )

групування слів

(технология | изготовление) (сыра | творога)

~

бінарний оператор І НЕ (у межах абзацу)

банки ~ закон

~~ або -

бінарний оператор І НЕ (у межах документа)

путеводитель по парижу ~~ (агентство | тур)

/(n m)

відстань у словах (-назад +уперед)

поставщики /2 кофе
музыкальное /(-2 4) образование
вакансии ~ /+1 студентов

" "

пошук фрази

"красная шапочка"
(эквивалентно красная /+1 шапочка)

&&/(n m)

відстань у абзацах (-назад +уперед)

банк && /1 налоги

Пошук в елементах 

Синтаксис

Що означає оператор

Приклад запиту

$title (вираження)

пошук у заголовку

$title (CompTek)

$anchor (вираження)

пошук у тексті посилань

$anchor (CompTek | Dialogic)

#keywords=(вираження)

пошук у ключових словах

#keywords=(поисковая система)

#abstract=(вираження)

пошук в описі

#abstract=(искалка | поиск) 

#image="значення"

пошук файлу зображення

#image="tort*"

#hint=(вираження)

пошук у підписах до зображень

#hint=(lenin | ленин)

#url="значення"

пошук на заданому сайті (сторінці)

#url="www.comptek.ru*"

#link="значення"

пошук посилань на заданий URL

#link="www.yandex.ru*"

Робота з сервером Rambler.

Сервер Rambler (http://www.rambler.ru/)є російским, тому він коректно обробляе запити, що робляться з використанням кірилиці.

1. Пошуковi слова

У запитi Ви можете використати одне чи декiлька слiв, розподiних промiжками. Можуть бути використані як російські, так й англійські словосполучення. За замовчуванням, якщо Ви не використаєте розширений пошук і не відзначили в ньому, що повинно зустрітися будь-яке слово, вважається, що в знайдених документах повинні міститися всі слова.

2. Логичнi зв”язки: And, Or, Not.

Пошукові терміни можуть бути об”єднані логічними операціями за допомогою службових слів And, Or й Not. Символи „&”, „|” й „!” можуть використатися замість або в сполученні зі службовими словами.

3. Регiстр.

Будь-який пошуковий термін може містити в собі яквеликі, так і прописні символи. Індекс бази даних будується із приведенням слів до прописних символів.

4. Словоформи.

При необхідності знаходження документів, що містять різні форми пошукового слова (наприклад „амінокислота”, „амінокислоти” тощо) відразу перед таким терміном варто використати службовий символ „@”. У меню детального запиту є відповідна можливість установити такий режим для всіх слів запиту.

5. Використання метасимволiв у словах.

Можливе використання метасимволов „*” й „?” для позначення довільної частини слова й довільного символу слова. За замовчуванням наша система шукає пошукові слова так, як ви їх ввели, щоб зменшити „шум” у знайдених документах.

6. Вагові коефіцієнти.

Ви можете використати „+” й „-” для збільшення/зменшення вагового значення будь-якого слова. Можливо багаторазове використання даних символів.

7. Пошук у частині документа.

Для цього ви можете використати спеціальні слова: $All, $URL, $Title, $Header, $Essence, $Address. Спеціальні слова починаються із символу „$”

8. Логічні групи.

Терміни можуть бути згруповані за допомогою використання символів „(„ and „)”. Можлива багаторазова вкладеність дужок у сполученні з логічними операторами.

9. Мова документів.

Ви можете визначити в яких документах шукати за допомогою службових слів $RUSSIAN або $ENGLISH для російської й англійської мов відповідно. Регістр слів не важливий. По-умовчанню вважається, що варто робити пошук по всіх документах.

10. Сортування результатів.

Ви можете визначити тип сортування, відмінний від звичайної релевантности (відповідності запиту) результатів пошука службовими словами $YOUNG й $OLD. У першому випадку документи будуть відсортовані так, що на верху будуть показані найсвіжіші документи, в-другому - навпаки.

11. Відстань між словами.

При бажанні ви можете мінімізувати відстань між пошуковыми термінами. Для цього використається службове слово $NEAR, слово $RANDOM використається для скасування цього режиму. Обоє службових слова можна використати в запиті окремо, але можна й разом якщо після комбінації слів необхідно відключити поточний режим оптимізації між словами.

Всі перераховані вище правила можуть бути використані спільно один з одним у необхідній вам послідовності.

Робота з сервером AltaVista.

Серед численних інформаційно - пошукових серверів можна особливо відзначити сервер AltaVista. Цей сервер має такi адреси:

http://www.altavista.com/ 

http:// yahoo.com/ 

Американський пошуковий сервер. Пошук багатьма мовами, в тому числі – россійською.

Інформаційно - пошуковий сервер AltaVista обробляє пошукові запити, яки можуть бути складені у двох режимах - режимі простих запитів і розширеному режимі.

У режимі простих запитів користувачеві надається можливість уведенню ключових слів (послідовність літер та цифр, яки обмежені проміжками) і фраз (будяка послідовність слів, обмежена лапками).

У процесі обробки запиту ведеться пошук документів, яки містять найбільшу кількість ключових слів та фраз. Звіт про результати пошуку є HTML - документом, у якому назви знайдених документів упорядковані згідно з кількістю ключових слів та фраз, що містяться в них.

У мові запитів слова та фрази можуть бути позначені знаками "+" й "-". Якщо знак "+" передує ключовому слову, те це означає, що це слово обов”язково винне бути присутнім у документі, що шукається. Якщо ключовому слову передує знак "-", те це означає, що це слово не в якому разі не винно бути в документі, що шукається. Для маскування деяких частин слів використовується знак "*".

У розширеному режимі роботи серверу можна складати запити з використанням бінарних операцій AND (&), OR(|), NEAR (~), NOT (!), а також дужки.

Запити в простому та розширеному режимах мають різні інтерфейси уведенню. Алі AltaVista перетворює прості запити в розширені й обробляє їх за допомоги одного й того ж механізму пошуку.

 Якщо ви користуєтесь пошуковим сервером Altavista, те вам стануть у нагоді такі поради:

Найкращій режим роботи з цім сервером - режим простих запитів. У розширеному режимі дуже складно конструювати синтаксично вірні запити.

Якщо вам потрібно знайти документ, який обов”язково винний містити усі введені вами ключові слова, те перед кожним словом обов”язково ставте знак "+". Якщо набирати ключові слова без знаку "+", те AltaVista буде шукати документи спочатку по першому ключовому слову, потім по іншому, а в кінці пошуку збере всі його результати в єдиний файл звіту.

 

Завдання

  1.  Обрати тему для пошуку:
    1.  Указ Президента України Про заходи щодо вдосконалення системи вищої освіти України. 2010 р.
    2.  Закон України “Про державний бюджет України на 2013 рік”.
    3.  Закон України про освіту.
    4.  Наказ Міністерства освіти і науки України Про внесення змін і доповнень до Умов прийому до вищих навчальних закладів України.
  2.  Визначити ключові слова, яки найкраще відображають напрямок пошуку, чи найповніше характеризують документ, який ви шукаєте.
  3.  Обрати пошуковий сервер.
  4.  Ознайомитися з його системою команд та правилами складання запитів. Ця інформація є в системі допомоги (help), вказівник на якові, як правило, присутній на головній (титульній) сторінці цого серверу.
  5.  Зробити серію запитів до обраного вами серверу змінюючи кількість та послідовність ключових слів у запиті.
  6.  Переглядаючи список назв та зміст знайдених документів уточнити перелік ключових слів, яки найбільш повно відповідають обраному вами напрямку пошуку.
  7.  Знайти інформацію за темами
  8.  Історія пошукової системи
  9.  Гугл та Яндекс (схожість і відмінності)
  10.  Просування сайтів в Google.ru
  11.  Просування сайтів в Google.com
  12.  Як Гугл та Яндекс визначають регіони
  13.  Як працює пошукова система Google
  14.  Основний і додатковий індекси

8. Описати (за зразком, що у п. 7) будь-яку пошукову систему, що не була розглянута у даній лабораторній роботі.


 

А также другие работы, которые могут Вас заинтересовать

42606. Табличный процессор Microsoft Excel 94.5 KB
  Настроить внешний вид таблицы – выделить ее выбрать Формат Ячейки. В закладке Число нажать на кнопку – выбрать ячейку В2 Должно получиться: Число В2 = 0. В закладке Число для функции BS нажав на кнопку – выбрать ячейку С2 Должно получиться: Число С2 = 0. Выбрать: График самый верхний левый; Нажать Далее посмотреть вид графика; Нажать Далее; Заполнить: Название диаграммы: график функций f1x f2x Ось Х: х радианы Ось Y: f1x f2x.
42607. Постмодернистские теории Н. Луман, Э. Гидденс 16.15 KB
  Исследование диаграмм компонентов и развертывание обретение навыков в их использовании. Диаграмма компонентов Архитектура ПО это представление ПО с помощью базовых элементов трех типов: компонентов соединителей и данных. Диаграмма компонентов Component digrm описывает физическое представление системы и обеспечивает переход от логического представления к реализации проекта в форме программного кода. Стереотипы компонентов такие: база данных DB; модуль который выполняется .
42608. Кинематическая схема токарно-винторезного станка ТВ-4 181 KB
  Углубить знания по устройству и принципу работы токарно-винторезного станка ТВ-4. Приобрести практические навыки составления и расчета уравнений кинематического баланса.Оборудование и инструмент: токарно-винторезный станок ТВ-4, плакаты отдельных узлов станка, кинематическая схема станка. Изучите кинематическую схему станка по методическому пособию.
42609. Изучение работы жидкостного U-образного манометра и комплекта приборов для измерения давления пневматической ветви ГСП 67.5 KB
  В процессе выполнения лабораторной работы студенты закрепляют знания по разделу Измерение давления и Дистанционная передача сигнала измерительной информации теоретического курса Технические измерения и приборы. Студенты знакомятся с принципом действия устройством преобразователя измерительного разности давления пневматического 13ДД11 в комплекте с вторичным прибором РПВ4. Стенд предназначен для выполнения лабораторной работы по изучению работы измерительного преобразователя разности давления пневматического 13ДД11 в...
42610. Изучить содержание панели управления NC, записать назначение функциональных клавиш, записать команды изменения функций клавиш F1 – F10 47.5 KB
  Для входа в меню надо нажать клавишу [F9]. В верхней строке экрана появится строка меню, содержащая следующие пункты “Левая”, “Файл”, “Диск”, “Команды”, “Правая”. Пункты меню ”Левая” и “Правая” задают режимы вывода информации соответственно в левой и правой панелях NC. Пункт меню “Файл” дает возможность производить разные операции над файлами
42611. Текстовый редактор MS WORD 64 KB
  Цель работы – настройка параметров текстового редактора MS WORD; создание документа и шаблона в текстовом редакторе MS WORD; основные приемы форматирования документа MS WORD имеющего сложную структуру. Создание документа включает выбор параметров документа: размера бумаги величины полей пространственной ориентации листа и т. Редактирование документа подразумевает исправление всевозможных ошибок в тексте внесение изменений в текст документа. Форматирование документа оформление документа с целью задания ему требуемой...
42613. Використанням складних нейромереж в системах розпізнавання образів 1.63 MB
  Зворотне розповсюдження (Backpropagation algorithm) - це найпопулярніший алгоритм для навчання за допомогою зміни ваги зв'язків. Помилка розраховується від вихідного шару до вхідного, тобто в напрямі, протилежному напряму проходження сигналу при нормальному функціонуванні мережі. Хоча алгоритм достатньо простий, його розрахунок може зайняти досить багато ресурсу, залежно від розміру помилки.
42614. Переменной x присвоить дробную часть от положительного числа 44 KB
  Переменной x присвоить дробную часть от положительного числа. Вычисление формулы bcd de fh и присваивание получившегося результата переменной D. Вывод результата или переменной D на экран. Объявление целочисленной переменной y.