36938

Пошук інформації в Internet

Лабораторная работа

Информатика, кибернетика и программирование

Як трактуються слова Незалежно від того яка форма слова стоїть в запиті пошук враховує всі форми за правилами російської мови. Наприклад якщо задано запит “идти†те в результаті пошуку будуть знайдені посилання на документи що містять слова идет†шел†шла†тощо . Якщо в запиті слово набране з великої букви будуть знайдені тільки слова з великої літери у противному випадку будуть знайдені як слова з великої так і з маленької літери. Між словами можна поставити знак †або кому †щоб знайти документи що містять...

Украинкский

2013-09-23

99.5 KB

1 чел.

Лабораторна робота № 3

Пошук інформації в Internet

Мета роботи – опанувати основні принципи роботи з пошуковими серверами. Опанувати метод пошуку інформації з використанням ключових слів.

 

Робота з сервером Яндекс.

Сервер Яндекс має адреси:

http://yandex.ru/ 

http://www.ya.ru/ 

1. Як трактуються слова

Незалежно від того, яка форма слова стоїть в запиті, пошук враховує всі форми за правилами російської мови.

Наприклад, якщо задано запит “идти”, те в результаті пошуку будуть знайдені посилання на документи, що містять слова „идет”, „шел”, „шла” тощо . На запит „окно” буде видана інформація, що містить і слово „окон”, а на запит „отзывали” - документи, що містять слово „отозвали”.

Якщо в запиті слово набране з великої букви, будуть знайдені тільки слова з великої літери, у противному випадку будуть знайдені як слова з великої, так і з маленької літери.

Наприклад, запит „лебедь” знайде й птаха, і генерала. Запит „Лебедь” - генерала й ті випадки згадування птаха, коли вона написана з великої букви.

2. Основні оператори

Декілька набраних у запиті слів, розділених пробілами, означають, що всі вони повинні входити в один абзац шуканого документа. Той же самий ефект зробить вживання символу „&”.

Наприклад, при запиті „холодная вода” (або „холодная & вода”), результатом пошуку буде список документів, у яких в одному абзаці втримуються й слово „холодная”, і слово „вода”.

Між словами можна поставити знак „|” (або кому „,”), щоб знайти документи, що містять будь-яке з цих слів.

Запит виду „вода | огонь” або „вода,огонь” задає пошук документів, що містять в одному абзаці хоча б одне зі слів „вода” або „огонь”.

Ще один знак, тильда „~”, дозволить знайти документи з абзацом, що містить перше слово, але не містять друге.

По запиті „холодный ~ горячий” будуть знайдені всі документи, що містять слово „холодний”, поруч із яким (у межах абзацу) немає слова „горячий”.

Щоб здійнятися на сходинку вище, від рівня абзацу до рівня документа, треба подвоїти відповідний знак. Одинарний оператор (&, ~) шукає в межах абзацу, подвійний (&&, ~~) - у межах документа.

Наприклад, по запиті „холодная && вода” будуть знайдені документи, що містять будь-де обоє ці слова. А запит „квас ~~ теплый” видасть всі документи зі словом „квас”, але без слова „теплый”

3. Пошук з відстанню

Як Яndex адресує слова? Якщо всі слова в тексті перенумерувати, то відстань між словами a й b - це різниця між номерами слів a й b. Таким чином, відстань між сусідніми словами дорівнює 1 (а не 0), а відстань між сусідніми словами, що стоять "не в тому порядку", дорівнює -1. Те ж саме стосується й абзаців. Якщо між двома словами поставлений знак „/”, за яким відразу надруковане число, виходить, потрібно, щоб відстань між ними не перевищувало цього числа слів.

Наприклад, по запиті „холодная /2 вода” повинні бути знайдені документи, у яких містяться й слово „холодная” і слово „вода”, причому відстань між ними повинне бути не більше двох слів і вони повинні перебувати в одному абзаці.

Якщо порядок слів і відстань точно відомі, можна скористатися пунктуацією /+n. Так, наприклад, задається пошук слів, що стоять підряд.

Запит „холодная /+1 вода” означає, що слово „вода” повинне випливати безпосередньо за словом „холодная”. (До речі, до того ж результату приведе запит "холодная вода")

У загальному виді обмеження по відстані задається за допомогою пунктуації виду „/(n m)”, де „n” мінімальне, а „m” максимально припустима відстань. Звідси запис „/n” еквівалентний „/(-n +n)”, а запис „/+n” еквівалентний „/(+n +n)”.

Запит „холодная /(-2 4) вода” означає, що „вода” повинна перебувати від „холодная” в інтервалі відстаней від 2 слів ліворуч до 4 слів праворуч.

Знаки можна комбінувати з обмеженням відстані.

Наприклад, результатом пошуку по запиті „холодная ~ /+1 вода” будуть документи, що містять слово „холодна”, причому в цих документах слово „вода” не стоїть безпосередньо за словом „холодная”.

Коли знаки обмеження по відстані стоять після подвійних операторів, то вжиті там числа - це відстань не в словах, а в абзацах. Відстань в абзацах визначається аналогічно відстані в словах.

Запит „холодная && /1 вода” означає, що слово „вода” повинне перебувати в тому ж самому, або в сусідньому зі словом „холодная” абзаці.

4. Круглі дужки  

Замість одного слова в запиті можна підставити цілий вираз. Для цього його треба взяти в дужки.

Наприклад, запит „(холодная,горячая) /+1 (вода|огонь)” задає пошук документів, які містять кожну із фраз „холодная вода”, „холодный огонь”, „горячая вода”, „горячий огонь”.

5. Пошук у певних елементах

Можна шукати інформацію у двох "зонах" - заголовках (ім”я "зони": Title) і посиланнях (ім”я "зони": A).

Синтаксис: $ім”я_зони логічний_множник

Запит „$Title Комптек” шукає в заголовках документів слово „Комптек”. Запит „ $A (Комптек | Dialogic)” знаходить документи, в посиланнях усередині яких є одне зі слів „Комптек” або „Dialogic”.

6. Пошук у знайденому

Поставивши в пошуковому рядку „$$” можна обмежити область пошуку - здійснювати його не по всіх документах, а тільки по тим, які були знайдені в попередньому пошуку. Оператор дозволяє послідовно звужувати область пошуку (при дуже вузькому пошуку є небезпека не знайти жодного релевантного документа).

Запит „$Title Комптек $$ „ знайде ті документи з останнього результату пошуку, у яких у заголовку є слово «Комптек».

7. Ранжирування результату пошуку

При пошуку для кожного знайденого документа Яндекс обчислює величину релевантности (відповідності) змісту цього документа пошуковому запиту. Список знайдених документів перед видачею користувачеві сортується по цій величині в порядку убування. Релевантность документа залежить від ряду факторів, у тому числі від частотних характеристик шуканих слів, ваги слова або виразу, близькості шуканих слів у тексті документа одне до одного тощо.

Користувач може вплинути на порядок сортування, використовуючи оператори ваги й уточнення запиту. Завдання ваги слова або вираження застосовується для того, щоб збільшити релевантность документів, що містять "зважене" вираження.

Синтаксис: слово:число або (пошуковий_вираз):число

По запиті „поисковые механизмы:5” будуть знайдені ті ж документи, що й по запиті „поисковые механизмы”. Різниця полягає в тому, що нагорі списку знайденого виявляться документи, де частіше зустрічається саме слово „механізмы”. Запит „поисковые (механизмы|машины|аппараты):5 „ рівнозначний запиту „поисковые (механізмы:5|машины:5|аппараты:5) „.

Завдання уточнюючого слова або виразу застосовується для того, щоб збільшити релеватность документів, що містять уточнюючий вираз.

Синтаксис: <- слово або <- (уточнюючий_вираз)

По запиті „компьютер <- телефон „ будуть знайдені всі документи, що містять слово „компьютер”, при цьому першими будуть видані документи, що містять слово „телефон” . Якщо в жодному документі зі словом „компьютер” немає слова „телефон”, результат запиту буде еквівалентний запиту „компьютер”.

Цей сервер добрі обробляе запити, що складенi як з використанням латиниці так і кiрилицi.

Синтаксис

Що означає оператор

Приклад запиту

пробіл або &

логічне И (у межах абзацу)

лечебная физкультура

&&

логічне И (у межах документа)

рецепты && (плавленый сыр)

|

логічне АБО

фото | фотография | снимок | фотоизображение

+

обов”язкова наявність слова в знайденому документі (працює також у застосуванні до стоп-слів)

+быть или +не быть

( )

групування слів

(технология | изготовление) (сыра | творога)

~

бінарний оператор І НЕ (у межах абзацу)

банки ~ закон

~~ або -

бінарний оператор І НЕ (у межах документа)

путеводитель по парижу ~~ (агентство | тур)

/(n m)

відстань у словах (-назад +уперед)

поставщики /2 кофе
музыкальное /(-2 4) образование
вакансии ~ /+1 студентов

" "

пошук фрази

"красная шапочка"
(эквивалентно красная /+1 шапочка)

&&/(n m)

відстань у абзацах (-назад +уперед)

банк && /1 налоги

Пошук в елементах 

Синтаксис

Що означає оператор

Приклад запиту

$title (вираження)

пошук у заголовку

$title (CompTek)

$anchor (вираження)

пошук у тексті посилань

$anchor (CompTek | Dialogic)

#keywords=(вираження)

пошук у ключових словах

#keywords=(поисковая система)

#abstract=(вираження)

пошук в описі

#abstract=(искалка | поиск) 

#image="значення"

пошук файлу зображення

#image="tort*"

#hint=(вираження)

пошук у підписах до зображень

#hint=(lenin | ленин)

#url="значення"

пошук на заданому сайті (сторінці)

#url="www.comptek.ru*"

#link="значення"

пошук посилань на заданий URL

#link="www.yandex.ru*"

Робота з сервером Rambler.

Сервер Rambler (http://www.rambler.ru/)є російским, тому він коректно обробляе запити, що робляться з використанням кірилиці.

1. Пошуковi слова

У запитi Ви можете використати одне чи декiлька слiв, розподiних промiжками. Можуть бути використані як російські, так й англійські словосполучення. За замовчуванням, якщо Ви не використаєте розширений пошук і не відзначили в ньому, що повинно зустрітися будь-яке слово, вважається, що в знайдених документах повинні міститися всі слова.

2. Логичнi зв”язки: And, Or, Not.

Пошукові терміни можуть бути об”єднані логічними операціями за допомогою службових слів And, Or й Not. Символи „&”, „|” й „!” можуть використатися замість або в сполученні зі службовими словами.

3. Регiстр.

Будь-який пошуковий термін може містити в собі яквеликі, так і прописні символи. Індекс бази даних будується із приведенням слів до прописних символів.

4. Словоформи.

При необхідності знаходження документів, що містять різні форми пошукового слова (наприклад „амінокислота”, „амінокислоти” тощо) відразу перед таким терміном варто використати службовий символ „@”. У меню детального запиту є відповідна можливість установити такий режим для всіх слів запиту.

5. Використання метасимволiв у словах.

Можливе використання метасимволов „*” й „?” для позначення довільної частини слова й довільного символу слова. За замовчуванням наша система шукає пошукові слова так, як ви їх ввели, щоб зменшити „шум” у знайдених документах.

6. Вагові коефіцієнти.

Ви можете використати „+” й „-” для збільшення/зменшення вагового значення будь-якого слова. Можливо багаторазове використання даних символів.

7. Пошук у частині документа.

Для цього ви можете використати спеціальні слова: $All, $URL, $Title, $Header, $Essence, $Address. Спеціальні слова починаються із символу „$”

8. Логічні групи.

Терміни можуть бути згруповані за допомогою використання символів „(„ and „)”. Можлива багаторазова вкладеність дужок у сполученні з логічними операторами.

9. Мова документів.

Ви можете визначити в яких документах шукати за допомогою службових слів $RUSSIAN або $ENGLISH для російської й англійської мов відповідно. Регістр слів не важливий. По-умовчанню вважається, що варто робити пошук по всіх документах.

10. Сортування результатів.

Ви можете визначити тип сортування, відмінний від звичайної релевантности (відповідності запиту) результатів пошука службовими словами $YOUNG й $OLD. У першому випадку документи будуть відсортовані так, що на верху будуть показані найсвіжіші документи, в-другому - навпаки.

11. Відстань між словами.

При бажанні ви можете мінімізувати відстань між пошуковыми термінами. Для цього використається службове слово $NEAR, слово $RANDOM використається для скасування цього режиму. Обоє службових слова можна використати в запиті окремо, але можна й разом якщо після комбінації слів необхідно відключити поточний режим оптимізації між словами.

Всі перераховані вище правила можуть бути використані спільно один з одним у необхідній вам послідовності.

Робота з сервером AltaVista.

Серед численних інформаційно - пошукових серверів можна особливо відзначити сервер AltaVista. Цей сервер має такi адреси:

http://www.altavista.com/ 

http:// yahoo.com/ 

Американський пошуковий сервер. Пошук багатьма мовами, в тому числі – россійською.

Інформаційно - пошуковий сервер AltaVista обробляє пошукові запити, яки можуть бути складені у двох режимах - режимі простих запитів і розширеному режимі.

У режимі простих запитів користувачеві надається можливість уведенню ключових слів (послідовність літер та цифр, яки обмежені проміжками) і фраз (будяка послідовність слів, обмежена лапками).

У процесі обробки запиту ведеться пошук документів, яки містять найбільшу кількість ключових слів та фраз. Звіт про результати пошуку є HTML - документом, у якому назви знайдених документів упорядковані згідно з кількістю ключових слів та фраз, що містяться в них.

У мові запитів слова та фрази можуть бути позначені знаками "+" й "-". Якщо знак "+" передує ключовому слову, те це означає, що це слово обов”язково винне бути присутнім у документі, що шукається. Якщо ключовому слову передує знак "-", те це означає, що це слово не в якому разі не винно бути в документі, що шукається. Для маскування деяких частин слів використовується знак "*".

У розширеному режимі роботи серверу можна складати запити з використанням бінарних операцій AND (&), OR(|), NEAR (~), NOT (!), а також дужки.

Запити в простому та розширеному режимах мають різні інтерфейси уведенню. Алі AltaVista перетворює прості запити в розширені й обробляє їх за допомоги одного й того ж механізму пошуку.

 Якщо ви користуєтесь пошуковим сервером Altavista, те вам стануть у нагоді такі поради:

Найкращій режим роботи з цім сервером - режим простих запитів. У розширеному режимі дуже складно конструювати синтаксично вірні запити.

Якщо вам потрібно знайти документ, який обов”язково винний містити усі введені вами ключові слова, те перед кожним словом обов”язково ставте знак "+". Якщо набирати ключові слова без знаку "+", те AltaVista буде шукати документи спочатку по першому ключовому слову, потім по іншому, а в кінці пошуку збере всі його результати в єдиний файл звіту.

 

Завдання

  1.  Обрати тему для пошуку:
    1.  Указ Президента України Про заходи щодо вдосконалення системи вищої освіти України. 2010 р.
    2.  Закон України “Про державний бюджет України на 2013 рік”.
    3.  Закон України про освіту.
    4.  Наказ Міністерства освіти і науки України Про внесення змін і доповнень до Умов прийому до вищих навчальних закладів України.
  2.  Визначити ключові слова, яки найкраще відображають напрямок пошуку, чи найповніше характеризують документ, який ви шукаєте.
  3.  Обрати пошуковий сервер.
  4.  Ознайомитися з його системою команд та правилами складання запитів. Ця інформація є в системі допомоги (help), вказівник на якові, як правило, присутній на головній (титульній) сторінці цого серверу.
  5.  Зробити серію запитів до обраного вами серверу змінюючи кількість та послідовність ключових слів у запиті.
  6.  Переглядаючи список назв та зміст знайдених документів уточнити перелік ключових слів, яки найбільш повно відповідають обраному вами напрямку пошуку.
  7.  Знайти інформацію за темами
  8.  Історія пошукової системи
  9.  Гугл та Яндекс (схожість і відмінності)
  10.  Просування сайтів в Google.ru
  11.  Просування сайтів в Google.com
  12.  Як Гугл та Яндекс визначають регіони
  13.  Як працює пошукова система Google
  14.  Основний і додатковий індекси

8. Описати (за зразком, що у п. 7) будь-яку пошукову систему, що не була розглянута у даній лабораторній роботі.


 

А также другие работы, которые могут Вас заинтересовать

67110. Шкільна кімната Бойової Слави: історична краєзнавча освіта школярів 107.5 KB
  У той час в кожній учнівській групі виникли пошукові загони які розпочали збір експонатів для майбутньої Кімнати. І на зборах школи було прийнято рішення про відкриття кімнати Бойової Слави. Найменша організаційна ланка кімнати Бойової Слави відділ який має свою назву та об’єднує дітей за інтересами.
67111. Папір. Види паперу. Загальне уявлення про виробництво паперу 32.5 KB
  Обладнання: таблиці із зображенням послідовності процесу виготовлення паперу дидактичний матеріал із видами паперу картон клей пензлик гофрований папір зразки роботи. Тут усіх вітають майстер Папірчик та його помічники. На уроці ви довідаєтесь яким буває папір та як його виготовляють створите аплікацію.
67112. Гриби – це користь чи отрута? 6.22 MB
  Розповісти учням про позитивні та негативні якості грибів. Навчити учнів правилам техніки безпеки при споживанні та зборі грибів. Засвоїти правила першої допомоги при отруєнні грибами. Розширити вміння учнів працювати в групах, працювати з додатковою літературою.
67113. Гумористично-розважальний захід 44 KB
  Але чи завжди ми прислухаємося до них ІІ ведучий: Сьогодні в нас є чудова нагода поспілкуватися триває тиждень української мови. І ведучий: А я хочу навести цікавий приклад. Може це й правильно ІІ ведучий: Отже нам приємно бачити всіх хто відгукнувся на наше запрошення.
67116. ФІ3ИКА НАВКОЛО НАС 68 KB
  Мета: зацікавити дітей показом цікавих i ефектних дослідів, які можна поясните на основі знанъ з кypcv природознавства та географії. Навчити спостерігати i робити висновки. Проілюструвати єдність законів природи. Зацікавити дітей майбутнім предметом.
67117. Пам’ять священна 49.5 KB
  Повернутися до подій 1941-1945 рр., поглибити знання про події Великої Вітчизняної війни, розвивати в учнів уміння опрацьовувати і порівнювати статистичні дані, аналізувати історичні документи, виховувати в учнів почуття гордості за український народ і його подвиг в роки війни.