13378

Пошук інформації в Інтернет

Лабораторная работа

Информатика, кибернетика и программирование

Автори: Бондар Н.П. Глушак О.М.Дисципліна Інформаційні технології та ТЗН Теоретичний матеріал. Пошук інформації в Інтернет. В Інтернет розміщено кілька мільярдів документів у вигляді вебсторінок. Для швидкого пошуку інформації у мережі використовуєт...

Украинкский

2013-05-11

780 KB

9 чел.

Автори: Бондар Н.П., Глушак О.М. Дисципліна «Інформаційні технології та ТЗН»

Теоретичний матеріал.

Пошук інформації в Інтернет.

В Інтернет розміщено кілька мільярдів документів у вигляді веб-сторінок. Для швидкого пошуку інформації у мережі використовується такі засоби:

  •  тематичні каталоги (або веб-каталоги);
  •  пошукові машини.

Тематичним каталогом називається сайт, де зберігаються впорядковані за темами посилання на інші сайти. Якщо потрібна загальна інформація, яка стосується глобальної теми або певних її галузей, доцільно скористатися саме тематичними каталогами. Вони створюються вручну редакторами на основі інформації, зібраної на сайтах Інтернету тому добірки досить якісні.

Найбільш відомі тематичні каталоги представлені у табл. 1.

Таблиця 1.

Українські

Російські

Світові

Каталог «Вибране»:

http://www.favorites.com.ua

Каталог дитячий ресурсів Рунету:

http://www.kinder.ru

Yahoo! – каталог ресурсів (англійською мовою):

http://www.yahoo.com

Інтернет портал:

http://www.era.com.ua

Федеральный портал «Российское образование»:

http://www.poral.edu.ru

Yahooligans – веб-путівник для дітей (англійською мовою):

http://www.yahooligans.com

Український портал (каталог сайтів України):

http://www.uacenter.com

Шкільний світ: каталог освітніх ресурсів:

http://www.school.holm.ru

Публічна бібліотека Інтернету:

http://www.ipl.org

Каталог Silver:

http://www.silver.kiev.ua

Russia on the Net: http://www.ru

Look Smart: http://www.looksmart.com

Каталог ualist:

http://www.ualist.com

List.ru: http://www.list.ru

Відкритий каталог:

http://www.dmoz.org

Max.ru: http://www.max.ru

WebBrain:

http://www.web-sitebrain.com

Weblist.ru: http://www.weblist.ru

MavicaNet: http://www.mavica.ru

Тематичні каталоги мають деревоподібну структуру, що дозволяє користувачу переходити від загальних тем до більш вузьких. Каталоги призначені насамперед для пошуку сайтів, присвячених загальним темам, тому знайти з їх застосуванням відповідь на специфічне питання практично неможливо.

Каталоги можуть стати хорошою відправною точкою у пошуку інформації, (бази даних значно поступаються базам даних пошукових машин).

Кожний каталог має свою систему класифікації, проте загальний принцип організації даних в них приблизно однаковий.

Абсолютна більшість каталогів також має систему пошуку. Пошук здійснюється у коротких описах сайтів та назвах категорій, а не у вмісті веб-сторінок, як у пошукових системах.

Недоліком тематичних каталогів є неповне охоплення існуючих у мережі ресурсів, оскільки відслідкувати всю наявну в Інтернеті інформацію фактично неможливо, навіть маючи для обслуговування серверу значну кількість персоналу.

Пошуковими машинами називають сайти, які використовуються для пошуку потрібної інформації в інтернет-просторі та мають для цієї мети спеціальні засоби.

Якщо відомі конкретна назва, фраза або термін, то для одержання інформації щодо предмета пошуку слід використовувати саме пошукові машини.

Пошук на таких машинах здійснюється за допомогою спеціально розроблених для цього програм, які постійно відвідують веб-сайти Інтернету з метою створення каталогів веб-сторінок.

Для визначення місцезнаходження певної інформації, наприклад, якогось відомого документа, зображення або фрази, а не загальної теми, найліпше застосовувати саме пошукові машини.

Пошукові машини працюють з використанням автоматичних засобів, що дозволяє швидко опрацьовувати велику кількість веб-документів і створювати бази даних обсягом у сотні мільйонів веб-сторінок. Але при цьому ніхто не може гарантувати, що наявність у документі певних слів, за якими здійснюється пошук, вказує на належність документа до конкретної теми. Тому точність пошуку інформації в таких базах даних залишає бажати кращого.

Бази даних пошукових машин значно більші за обсягом, ніж бази даних тематичних каталогів, та й поновлюються вони частіше.

Робота пошукової машини проводиться у три етапи:

1 – сканується інформаційний простір і збираються копії веб-ресурсів;

2 – бази даних, складені за результатами сканування, змінюються таким чином, щоб у них можна було проводити прискорений пошук;

3 – пошукова машина приймає запит від користувача і після цього проводить пошук у своїх базах даних та відображає веб-сторінку з оформленими результатами пошуку.

Пошукова машина здатна самостійно збирати інформацію про наявні у веб-просторі сайти, впорядковувати ці дані та робити їх доступними для користувача.

Найбільш відомі пошукові машини представлені у табл. 2.

Таблиця 2.

Українські

Російські

Світові

Meta: www.meta.ua

Quick Search: www.Qs.kiev.ua

Atlas: www.atlasua.net

Avaport: www.avaport.com

Bigmir: www.bigmir.net

Topping: www.topping.com.ua

Uaport: www.uaport.net

Uaportal: www.uaportal.com

Uaplus: www.uaplus.com

Рамблер: www.rambler.ru

Яндекс: www.yandex.ru

Апорт: www.aport.ru

Metabot: www.metebot.ru

Google: www.google.com

AltaViasta: www.altavista.com

AskJeeves: www.askjeeves.com

Lycos: www.lycos.com

SciSeek (пошук наукової інформації): www.sciseek.com

All the Web: www.alltheweb.com

Excite: www.excite.com

Hotbot: www.hotbot.lycos.com

Northern Light: www.northernlight.com

Основні принципи організації пошуку інформації.

Пошук у мережі описано у схемі на рис. 1 поданій нижче.

Рис. 1. Схема організації пошуку інформації у мережі.

Розглянемо використання пошукових машин. Кожна така машина має свій сайт з домашньою сторінкою. Кожна пошукова система зберігається на певному сервері, який називають пошуковим.

Для успішного пошуку потрібно правильно підібрати ключові слова, які описують тему, і задати їх пошуковій системі. На пошуковому сервері, задана спеціальна форма для введення ключових слів, які будуть використовуватися у процесі пошуку.

Після введення в поле такої форми, потрібного слова треба клацнути на кнопку Знайти (на інших сайтах подібна кнопка може називатися Пошук, Найти, GO). Ключова фраза буде передана на сервер пошукової машини, яка знайде у своїх базах даних адреси веб-ресурсів, що містять вказані ключові слова.

За успішного пошуку на екран виводиться інформація про чергові десять сторінок, що відповідають зазначеним критеріям пошуку.

Зверху у вікні відображається загальна кількість знайдених посилань. Щоб переглянути одну зі знайдених веб-сторінок, потрібно клацнути мишею на посиланні на неї.

Створення запиту для пошуку.

Кожна пошукова машина має власний набір параметрів пошуку та способів їхнього введення. Правила складання запитів на пошук зазвичай містяться на сторінці довідки, яка відкривається після вибору посилання на зразок Допомога, Підказка, Правила складання запитів тощо.

Всі машини забезпечують такі можливості:

  •  введення тексту (слова, речення тощо), який потрібно шукати;
  •  вибір мови, частини сторінки, де має міститися текст (заголовок, основна частина, URL, гіперпосилання);
  •  добір сторінок, створених або модифікованих протягом визначеного періоду часу.

Більшість пошукових машин дають змогу також задавати тип необхідних документів. Крім того, пошукові машини дозволяють формувати критерії з використанням логічних операцій І (AND), АБО (OR) та НЕ (NOT).

Логічні операції в критеріях пошуку.

У веб-просторі, під логічними операціями розуміють способи об’єднання декількох простих критеріїв пошуку в один складений.

Об’єднання двох критеріїв за допомогою логічної операції І (AND) означає, що на сторінці мають бути присутні обидва вказані елементи.

При використанні операції АБО (OR) будуть пропонуватися сторінки, що містять хоча б один із заданих елементів.

Операція НЕ (NOT), застосована до одного з критеріїв, означає, що відповідний елемент не повинен міститися на сторінці.

Зверніть увагу! Операцію І всі найбільші пошукові машини застосовують до введених Вами слів за умовчанням, тобто коли Ви вводите декілька слів без лапок.

Формулювання запиту.

Запит до пошукової служби має складатися з таких ключових слів, що найточніше характеризують тему або завдання пошуку.

Ключових слів краще підбирати три і більше. Вказуючи декілька ключових слів, Ви забезпечуєте пошук більшої кількості веб-сторінок, на яких вони містяться.

За призначенням усі команди пошукових систем можна поділити на три групи.

Для простого пошуку. Запити створюються нескладними методами, але це звичайно призводить до занадто великої кількості результатів, з яких важко вибрати потрібний.

Для розширеного пошуку. Команди даного типу дозволяють досить точно описати необхідний документ.

Для спеціального пошуку. Ці команди призначені не для пошуку документів за вмістом,а, наприклад, для пошуку веб-сайтів за їх назвами, фрагментами адрес, а також адресами посилань, які зустрічаються на веб-сторінках.

Загальні правила розширеного пошуку.

Незалежно від того, яка форма слова вказана в запиті, у процесі пошуку враховуються всі словоформи за правилами російської та української (у деяких пошукових системах) мов.

Якщо в запиті слово набрано з великої літери, то всі пошукові системи будуть враховувати регістр, у якому набрані літери (мала/велика).

Якщо запит складається з одного чи кількох слів, то в результаті проведення пошуку будуть знайдені документи, в яких зустрічаються всі слова запиту, крім обмеженої кількості спів (сполучники, прийменники та ін.), які ігноруються, оскільки не несуть змістового навантаження. Зірочка наприкінці слова означає будь-яку кількість довільних літер.

Лапки вказують пошуковій системі, що задані в запиті слова належать до ключової фрази, яку слід шукати в тексті повністю.

При складанні запиту можна комбінувати ключові слова за допомогою логічних операцій І (AND), АБО (OR), HE (NOT).

Різні типи груп операторів.

Група операторів, яка дозволяє задати відстань між словами запиту.

Оператор

Синоніми

Описання

" "

Подвійні лапки дозволяють знаходити словосполучення, вказане в них або близьке до нього. Останнє застереження пов’язано з двома обставинами. По-перше, стоп-слова (прийменники, сполучники тощо) в лапках нехтуються, як у звичайному запиті. По-друге, граматична форма слів також лапками не фіксується (щодо запитів російською мовою). Наприклад, за запитом «погода в Криму» будуть знайдені документи, що містять наступні словосполучення: «погода в Криму», «погода та Крим», «погода над Кримом», «погода Крим» тощо.

сл2(...)

с2(...)
w2(...)
[2,...]

Обмеження відстані у словах (двійка вказана як приклад). Якщо Ви потребуєте, щоб задані Вами слова зустрічались, скажімо, у межах 5 слів, треба написати: сл5(сонце вітер вода). У цьому випадку будуть знайдені документи, де мiж словами «сонце», «вітер» та «вода» розташовано не більш двох інших слів (тобто загальне число слів у фрагменті не перевищує 5). Порядок, в якому зустрічаються задані слова – не важливий.

пр2(...)

п2(...)
реч2(...)
s2(...)
{2,...}

Обмеження вiдстанi у реченнях (двійка вказана як приклад). Якщо Ви потребуєте, щоб задані Вами слова зустрічались, скажімо, у межах 1 речення, треба написати: пр1(сонце вітер вода).

Ще один поширений випадок - пошук за адресами Web-серверів.

Оператор

Синоніми

Описання

url=

url:

Обмеження пошуку одним або декількома серверами, або навіть частиною сервера.

Приклад. Запит:url=www.kharkiv.com

За таким запитом будуть видані всі документи, проіндексовані машиною на сервері www.kharkiv.com. У цьому разі документи видаються у випадковому порядку.

url=*.kharkiv.com.

Окрім позначених вище можна користуватися спеціалізованими операторами – зрізання та нормальної форми.

Оператор

Синоніми

Описання

*

Оператор зрізання. Зірочка наприкінці слова замінює довільне число будь-яких літер. Отже, за запитом вол* окрім «вола» буде знайдено документи, що містять слова «воля», «Волинь», «вольт» та інші у будь-якій граматичній формі.

!

Оператор нормальної форми. Іноді деякі форми різних слів співпадають за написанням. Наприклад, слово «лада» – це нормальна форма іменника жіночого роду та одночасно родовий відмінок слова «лад». Для того, щоб усунути таку неоднозначність, Ви можете поставити поперед слова у запиті знак вигуку (!). Таким чином, Ви підкреслюєте, що це нормальна форма, та відтинаєте деяку частину непотрібних словоформ та якось обмежуєте видачу результатів. За запитом !лад не буде знаходитись словоформа «ладой», що є тільки у іменника жіночого роду «лада».

Додаткові параметри пошуку.

На відміну від операторів розширеного пошуку, які встановлюють взаємозв’язок між словами, оператори параметрів запиту дозволяють обмежити область пошуку (як за часом створення, так і за рядом службових полів документа).

Оператор обмеження інтервалу дат:

Оператор

Синоніми

Описання

дата=

дата:
date=
date:

Цей оператор дозволить Вам обмежити пошук тільки тими документами, які попадають в заданий інтервал дат. Приклад, запит: Україна дата=01/01/99-01/02/99

За таким запитом будуть видані всі документи, що містять слово «Україна», і що мають дату від 1 січня 1999 року до 1 лютого 1999 року.

Запит: date=01/01/99 Україна

За таким запитом будуть видані всі документи, що містять слово «Україна», і що мають дату 1 січня 1999 року.

Запит: дата:<01/02/99 Україна або дата:-01/02/99 Україна

За таким запитом будуть видані всі документи, що містять слово «Україна», і що мають дату не пізніше 1 лютого 1999 року.

Оператори пошуку по службових полях документа:

Оператор

Синоніми

Описання

з=

t=
заг=
title=

Слово, що вказане після знаку дорівнює (або складна конструкція у дужках) буде шукатись у назвах документів. За запитом t=(море або сонце) буде знайдено документи, що містять у назві слово «море» або слово «сонце», або обидва слова одночасно.

р=

a=
рис=
alt=

Вказане після знака рівності слово (або складова конструкція в круглих дужках) будуть шукатися в полях ALT (коментарі до картинок). За запитом alt=weather будуть знайдені документи, в яких є картинка з коментарем, що містить слово «weather».

сс=

L=
ссылка=
link=

Вказане після знака рівності ім’я інтернет-серверу буде шукатися в посиланнях, що є в HTML-документах. Цей пошук ведеться тільки по посиланнях, де вказане повне ім’я сервера (шлях до конкретного файлу нехтується). За запитом link=www.kharkiv.com будуть знайдені документи, в яких є посилання на документи з сервера www.kharkiv.com, в тому числі будуть знайдені й локальні посилання в межах самого www.kharkiv.com, але тільки в тому випадку, якщо в посиланні вказане повне ім’я сервера.

ком=

c=
к=
comment=

Вказане після знаку дорівнює слово (або складова конструкція у дужках) буде шукатись у полях COMMENT (коментарі). За запитом с=(файли у мережі) будуть знайдені документи, в коментарях до яких зустрічаються обидва слова: «файл» та «мережа».

текст=

x=
т=
text=

Вказане після знаку рівності слово (або складова конструкція в круглих дужках) будуть шукатися тільки в звичайному тексті. За умовчанням слова запиту шукаються як в тексті, так і у всіх вказаних вище полях. Щоб шукати тільки по тексту, який Ви бачите в основному вікні програми перегляду (browser), користуйтесь цим оператором. За запитом text=(підсумки або коментарі) будуть знайдені документи, в яких будь-яке з вказаних слів зустрічається в межах основного тексту документа.

Окремо розглянемо оператори пошукової системи Google:

Синтаксис

Що значить оператор

Приклад запиту

+

Обов’язкова наявність слова у знайденому документі (працює також у застосуванні до стоп-слів та цифрам)

ЗМІ +Україна – будуть знайдені документи, що мають відношення до засобів масової інформації України

Виключення із результату пошуку документів із заданим словом

сплата податків –ПДВ – будуть знайдені документи щодо сплати податків за виключенням ПДВ

OR

Логічне «або»

дешевий доступ Інтернет OR Internet

"…"

Пошук точної фрази

"Застосування відкритого методу координації та оціночних досліджень"

[link:

адреса_сторінки]

Пошук сторінок, які містять посилання на сторінку, яка вказана у запиті

[link:www.km.ru] – буде представлений перелік сторінок, які містять посилання на портал "Кирило та Мефодій"

[слово site:домен]

Пошук документів із вказаним словом у вказаному домені (або на сторінці із вказаною адресою)

[журнал site:www.academy.gov.ua] – будуть знайдені документи із словом "журнал" на сторінках вказаного сайту

[allintitle:

слово1 слово2]

Пошук документів, у яких всі вказані слова містяться у заголовках

[allintitle: державні фінанси] – будуть знайдені документи, у заголовках яких містяться слова "державні" та "фінанси"

[intitle:

слово1 слово2]

Пошук документів, у яких слово1 міститься у заголовках, а інші слова – як у заголовках, так і в тексті

[intitle: державні фінанси] – будуть знайдені документи, в яких слово "державні" міститься у заголовку, а слово "фінанси" – у заголовку або у тексті

[allinurl:

слово1 слово2]

Пошук сторінок, в адресі яких містяться всі вказані слова

[allinurl: google search] – будуть знайдені сторінки, в адресах яких містяться слова "Google" та "search"

[inurl:

слово1 слово2]

Пошук сторінок, в адресі яких міститься слово1, а інші слова – в адресі або тексті

[inurl: google search] – будуть знайдені сторінки, в адресах яких містяться слова "Google", а в текстах або адресах – ще й слово "search"

Розширений пошук на базі пошукової системи Google.

Перейти до розширеного пошуку можна з головної сторінки Google (рис. 2) по посиланню «Складний пошук».

Рис. 2. Головна сторінка пошукової системи Google.

У результаті відобразиться вікно, зображене на рис. 3.

Рис. 3. Налаштування складного пошуку у пошуковій системі Google.

Функція розширеного пошуку дозволяє обмежити пошук сторінками наступних типів:

  •  що містять ВСІ задані умови пошуку;
  •  що містять фразу, вказану в запиті;ї
  •  що містять принаймні одне слово з перерахованих в запиті;
  •  що НЕ містять жодного слова з перерахованих в запиті;
  •  написані на певній мові;
  •  що мають певний формат файлу;
  •  оновлені в певний період;
  •  що належать тому або іншому домену або веб-сайту;

Додатковими функціями пошуку в пошуковій системі Google є:

  •  картинки;
  •  відео;
  •  карти;
  •  каталоги;
  •  новини;
  •  словники;
  •  перекладачі;
  •  пошук у віртуальній бібліотеці.

10

  •  

 

А также другие работы, которые могут Вас заинтересовать

38259. Доходы, расходы и результаты деятельности 60 KB
  В течение отчётного периода на счетах классов 7 и 9 накапливаются соответственно доходы и расходы а в конце месяца эти счета закрываются путём списания их Сдо на сч. № 92 Административные расходы предназначен для учёта общехозяйственных расходов связанных с управлением и обслуживанием предпр. № 93 Расходы на сбыт используется для отражения расходов на содержание подразделений занимающихся сбытом ГП товаров учитываются расходы на рекламу доставку товаров покупателю.