10075

Концепція атаки web-орієнтованих пошукових систем

Научная статья

Информатика, кибернетика и программирование

Концепція атаки web-орієнтованих пошукових систем І.А. Терейковський Запропонована нова концепція активного впливу атаки на популярні вітчизняні та закордонні Web-орієнтовані пошукові системи з метою підвищення рейтингу зареєстрованих в них сайтів. Доведено що для вп

Украинкский

2013-03-20

57.5 KB

0 чел.

Концепція атаки web-орієнтованих пошукових систем

І.А.Терейковський

Запропонована нова концепція активного впливу (атаки) на популярні вітчизняні та закордонні Web-орієнтовані пошукові системи з метою підвищення рейтингу зареєстрованих в них сайтів. Доведено, що для впливу на рейтинг сайту в пошукових системах можливо використати особливості механізму підрахунку кількості користувачів та механізму формування реєстраційних параметрів сайту. Наведено алгоритм функціонування програмних засобів здійснення атаки. Показано приклад програмної реалізації.

Вступ

 За останні роки мережа Internet, а особливо її найбільш популярна частина Web стала одним із основних місць публікації різноманітної інформації. Як правило ця інформація  публікується у вигляді Web-сайтів, що стали невід’ємною та важливою складовою частиною практично всіх корпоративних комп’ютерних мереж. На сьогодні в мережі Web функціонує декілька мільйонів сайтів, причому їх кількість постійно збільшується. Велика кількість сайтів та специфіка визначення їх адрес призвела до необхідності забезпечення доступності інформації опублікованої в мережі Web, що і є загальною проблемою представленої наукової роботи. Проблема безпосередньо пов'язана з таким глобальним науково — практичним напрямом,  як створення ефективних Web — орієнтованих корпоративних комп’ютерних мереж.

Напрямки вирішення означеної проблеми базуються на дослідженні шляхів того, яким чином користувачі Web-сайту можуть отримати доступ до його сторінок, тобто взнати про його адресу.  В [1, 2, 3, 4] відзначено, що в теперішній час, в більшості випадків основним джерелом знань про адреси сайтів комерційного спрямування є так звані пошукові системи (ПС). Найбільшою популярністю серед вітчизняних користувачів користуються ПС  www.google.com, www.meta.ua, www.rambler.ru, www.aport.ru, www,yandex.ru. Принцип їх використання полягає в визначенні користувачем пошукових запитів та у формуванні ПС списку знайдених адрес, з коротким описом змісту відповідних сайтів. Даний список дістав назву рейтингу сайтів. Дослідження [1, 2, 3, 4] показали, що в більшості випадків користувачі відвідують тільки 10-20 перших  адрес із списку. По цій причині, рейтинг сайту в ПС безпосередньо впливає на кількість його відвідувачів яка в свою чергу використовується в якості одного із критеріїв ефективності  функціонування комерційних сайтів [2]. З іншої точки зору, низький рейтинг сайту можна розцінити як загрозу доступності розміщених на ньому інформаційних ресурсів.  Таким чином, функціонування ПС в значній мірі впливає на ефективність, надійність та захищеність Web-сайтів корпоративних комп’ютерних мереж.

На сьогодні проблема підвищення рейтингу сайту вирішується в основному за рахунок ефективної реєстрації в ПС, оптимізації його змісту, продуманого опису сайту та ключових слів сайту за допомогою тегу meta, залучення нецільової аудиторії за допомогою того ж таки тегу <meta>, вибору доменного імені, семантичної насиченості HTML-коду, створенням метаданих, що описують конвент сайту та забезпечують автоматичну інтерпретацію його семантики [2, 3, 4]. Аналіз цих заходів вказує, що всі вони орієнтовані на адаптацію сайту до методики формування рейтингу ПС, тобто носять односторонній пасивний характер. Ці обставини накладають певні обмеження на реалізацію та результати застосування означених заходів. Наприклад, при реєстрації сайту в ПС можливо використовувати тільки обмежену кількість ключових слів. Обсяг опису сайту за допомогою тегу <meta> також обмежений. Крім того методика формування рейтингу кожної з ПС має певну специфіку, яка може час від часу змінюватись.  Тобто, високий рейтинг сайту в одній із популярних ПС не свідчить про високий рейтинг в інших системах.  Таким чином відсутність в системі підвищення рейтингу активної складової є однією із не вирішених частин проблеми підвищення доступності інформації опублікованої в мережі Web.

Постановка задачі

Розробка концепції активного впливу (атаки) на Web-орієнтовані ПС з метою  підвищення рейтингу зареєстрованого в них сайту. Концепція повинна враховувати особливості функціонування і формування рейтингу популярними ПС та бути орієнтована на реалізацію програмними засобами.

Аналіз можливих напрямів атаки

Популярні ПС представляють собою сучасні розподілені  комп’ютерні системи, що використовують добре захищене та високонадійне апаратне та програмне забезпечення, яке обслуговується висококваліфікованим персоналом. Безперспективність зміни рейтингу сайту за рахунок несанкціонованого доступу та модифікації відповідних даних в ПС не викликає сумніву. На наш погляд єдиним напрямком атаки є використання санкціонованих шляхів впливу адміністратора сайту на ПС. Для виявлення вказаних шляхів слід проаналізувати механізм пошуку по ключовим словам та механізм формування рейтингу сайтів. Завдання ускладнюється тим, що в різних типах ПС  вказані механізми дещо відрізняється і як правило офіційно не документуються. Але скрізь пошук реалізований на основі ключових слів, опису та метаданних сайту, занесених в БД ПС. Можливі шляхи поповнення вказаної БД полягають:

  1.  В реєстрації сайту спеціальним програмним агентом ПС.
  2.  В реалізації адміністратором сайту спеціальної процедури його реєстрації в ПС.
  3.  В спільному використанні шляхів 1 та 2.

Практичний досвід свідчить що для ПС www.google.com характерний перший шлях поповнення БД. При цьому в БД записуватись:

  •  Ключові слова та опис сторінок сайту, визначені за допомогою тегу <meta>.
    •  Декілька десятків слів визначених в тілі сторінки сайту. Вони використовуються в якості ключових слів.
    •  Метаданні сторінок сайту, визначені за допомогою відповідного RDF-опису.

Практичний досвід та аналіз документації розміщеної на відповідних порталах свідчать, що для ПС www.meta.ua, www.rambler.ru, www.aport.ru, www,yandex.ru. характерний третій шлях поповнення БД. На відміну від  www.google.com, в них можуть використовуватись ключові  слова та опис задані в процесі реєстрації сайту його адміністратором. Відзначимо, що в процесі реєстрації адміністратор має можливість включити сайт як правило до трьох різних тематичних категорій, що дозволяє дещо підвищити ефективність пошуку за рахунок зменшення його універсальності.

Механізм формування рейтингу сайту, також унікальний для кожної із ПС. Проте можливо визначити ряд найбільш важливих критеріїв які так чи інакше повинні бути використані. До вказаних критеріїв відносяться:

  •  Кількість відвідувачів сайту. Як показує практичний досвід це домінуючий критерій, що забезпечує високий рейтинг сайту в ПС www.meta.ua, www.rambler.ru, www.aport.ru, www,yandex.ru. При цьому сайт має бути зареєстрований в них адміністратором, а на його сторінках повинні розміщуватись так звані "лічильники відвідувачів".
  •  Кількість слів запиту користувача, що відповідають ключовим словам, опису та метаданним сайту, що знаходяться в базі даних (БД) ПС. На наш погляд це домінуючий критерій в ПС www.google.com. Використовується в якості допоміжного критерію в ПС www.meta.ua, www.rambler.ru, www.aport.ru, www,yandex.ru. Таким чином реєстраційні параметри сайту багато в чому визначають його рейтинг в ПС.
  •  Кількістю посилань на сайт з інших сайтів, зареєстрованих цією ПС. Використовується в якості допоміжного критерію в ПС www.aport.ru та www,yandex.ru.

Таким чином, якщо відкинути можливість несанкціонованої модифікації БД ПС та інших сайтів можливі напрямки санкціонованого впливу на ПС полягають в зміні реєстраційних параметрів сайту (збільшенні ключових слів,  опису та метаданих) та в збільшені зареєстрованих відвідувачів.

Механізм впливу на реєстраційні параметри сайту в ПС

Метою впливу на реєстраційні параметри є збільшення в БД ПС даних, релевантним запиту користувача ПС.  При цьому доцільно залучати до перегляду сайту і не цільову аудиторію, тобто сайт повинен мати високий рейтинг і в тому випадку коли в пошуковому запиті користувача не має слів, що відповідають його тематиці. Збільшення вказаних даних в звичайному випадку не можливе через те, що ПС заносять в свою БД реєстраційні параметри по закритому алгоритму. Досить часто в процесі реєстрації використовуються не тільки опис сайту виконаний за допомогою тегу <meta> та RDF-опису, але й текст визначений в тілі сторінок сайту. Таким чином в БД ПС записуються дані, що достатньо точно відповідають тематиці сайту. Відзначимо, що ПС реєструють не тільки головну сторінку сайту. Тому для збільшення популярності сайтів за рахунок не цільової аудиторії на окремих Web-сторінках розміщують популярну інформацію, наприклад спортивного характеру.  Недоліком такого підходу є суттєве збільшення витрат на розробку та підтримку сайту.  Виходом із цієї ситуації може стати розробка Web-сторінок які будуть записувати при реєстрації в БД ПС визначені додаткові параметри, але будуть перенаправляти запит користувача на головну сторінки сайту.  Програмна реалізація такої Web-сторінки, виконана за допомогою мови програмування Php, може мати наступний вигляд:

<?php  

if (eregi("Mozilla",$HTTP_USER_AGENT)) {

header("Location:http:/www.mydomen.com/index.htm");

}

?>

<html><head><title>Спорт</title></head>

<body>Короткий опис сайту присвяченого спорту </body></html>

При відкритті такого файлу спрацьовує скрипт Php в якому перевіряється чи міститься в змінній оточення Web-сервера HTTP_USER_AGENT слово Mozilla. Відзначимо, що  в означену змінну Web-сервером записується ім’я програмного агента, який звертається до Web-сторінки. Для перевірки використовується функція пошуку по шаблону eregi. Позитивний результат перевірки свідчить, що сайт відкривається за допомогою найбільш популярного браузера Microsoft Internet Explorer. Тому користувач переадресується на  головну сторінку сайту за адресою http:/www.mydomen.com/index.htm. Негативний результат з великою ймовірністю свідчить, що сторінка сайту реєструється ПС. В цьому випадку відповіддю є  інформація призначена для запису в БД ПС. Очевидно, що розробка та підтримка такої Web-сторінки не потребує великих зусиль. Звісно, що на практиці наведений програмний код потребує деякого вдосконалення. В першу чергу його слід додатково адаптувати до інших браузерів.   

Механізм впливу на зареєстровану в ПС кількість відвідувачів сайту

Практичний досвід свідчить, що всі популярні ПС використовують практично однакові механізми реєстрації кількості відвідувачів. Типовий механізм означеної реєстрації розглянемо на прикладі рейтингу Rambler's TopShop, що є складовою частиною www.rambler.ru. Для участі у цьому рейтингу на головній сторінці сайту адміністратором якого був автор розміщено програмний код:

<!--begin of TopShop counter-->

<img src="http://topshop-counter.rambler.ru/top100.cnt?11958" width=1 height=1>

<!--end of TopShop counter--><!--begin of TopShop logo-->

<a href="http://topshop.rambler.ru/go.html?ID=11958" target=_blank>

<img src="http://images.rambler.ru/topshop/ban/count-topshop-009.gif" width=88

height=31 alt="Rambler's TopShop" border=0></a>

<!--end of TopShop logo-->

Відзначимо, що означений програмний код було надіслано автору адміністрацією ПС після проходження реєстрації сайту. Аналіз даного коду дозволяє зробити висновок, що реєстрація нового відвідувача сайту реалізується при завантажені сторінки сайту на комп’ютер користувача, за рахунок звернення методом get до ресурсу http://topshop-counter.rambler.ru/top100.cnt. Очевидно, що параметр ID=11958 є унікальним ідентифікатором сайту в ПС. Відповідно протоколу TCP/IP, що використовується в мережі Web, ПС здатна ідентифікувати адресу користувача. При цьому більшість ПС не реєструють звернення з однієї адреси, якщо вони реалізовані за невеликий проміжок часу. Таким чином для збільшення кількості зареєстрованих ПС відвідувачів сайту достатньо створити прикладну програму яка буде інсценувати часте відкриття різними користувачами сторінок сайту. Для цього програма повинна досить часто відповідно протоколу TCP/IP методом get звертатись до відповідного реєстраційного ресурсу. При звернені необхідно використовувати  параметри, що санкціоновано надаються ПС адміністратору сайту після реєстрації. В кожному звернені доцільно програмним шляхом змінювати зворотню адресу інсценованого користувача. Створення такої програми засобами середовища програмування Microsoft VC++.NET з використання бібліотеки для роботи з Internet afxinet не викликає особливих труднощів.

Висновки

Концепція атаки Web-орієнтованих ПС передбачає підвищення рейтингу сайтів за рахунок збільшення:

  •  Реєстраційних параметрів (ключових слів, опису, метаданих) сайту в ПС.
  •  Зареєстрованої в ПС кількості відвідувачів сайту.

Для реалізації даної концепції необхідно застосувати спеціальні програмні засоби, алгоритм функціонування та програмний код яких наведено. Використання запропонованої концепції дозволить суттєво збільшити обсяг користувачів сайту.

Перспективи подальших розвиток у даному напрямку полягають в доведені запропонованої концепції до практичного застосування.

Література

  1.  Жигалов В. Как нам обустроить поиск в сети? // Открытые системы. – 2000. №12. – С. 53 – 61.
  2.  Терейковський І.А. Підвищення ефективності функціонування корпоративних Web-сайтів // Вісник КНУТД. - 2004. №4.- С.41 - 46.
  3.  Терейковський І.А. Оптимізація структури та змісту корпоративних Web-сайтів // Вісник КНТЕУ. - 2004. №3. - С.95 -104.
  4.  Рогушина Ю.В., Гришанова И.Ю. Разработка принципов представления электронных изданий, обеспечивающих корректную индексацию  поисковыми системами Интернета // Проблеми програмування. – 2004. №4. – С. 39 – 48.


 

А также другие работы, которые могут Вас заинтересовать

58613. Темперамент и выбор профессии 60.5 KB
  Задачи урока: Образовательная – ознакомить учащихся с понятиями тип темперамента характер; Развивающая – развить у учащихся интерес к выбору будущей профессии; Воспитательная – содействовать воспитанию трудолюбия стремления к выбору будущей профессии...
58615. Урок по рендерингу анимации 3d Max. Экспорт анимации 3d Max в видео 230.5 KB
  В разделе Render Output нажимаем кнопку Files и переходим в папку или создаём новую куда будем сохранять получившиеся кадры анимации. Нажимаем кнопку Sve для возврата в окно Render Setup Запускаем визуализацию нажатием на кнопку Render.
58616. Неопределённая форма глагола 50.5 KB
  Цели: формирование представлений о глаголах неопределённой формы и умений определять их в устной и письменной речи; развитие познавательной деятельности учащихся, критического мышления, умений ставить вопросы и находить ответы, умений самоанализа и самооценки своей деятельности.
58617. Повторение по теме «Местоимения» 56.5 KB
  Итак вспомним что же такое местоимение Местоимение –- это часть речи которая указывает на предметы признаки и количества но не называет их. Так чем же местоимение отличается от существительного прилагательного числительного...
58618. УРОКИ ОДНОГО СЛОВА В ЛИНГВОКОГНИТИВНОМ АСПЕКТЕ 5.63 MB
  А синтагматика изучает типы связи единиц одного уровня например связи между морфемами в слове кошка листик между словами весёлый ветер между частями сложного предложения Хочешь есть калачи так не сиди на печи. ВЕТЕР: урок одного слова 9 класс Цель урока развитие образного мышления. Закройте глаза и представьте что вас обвевает легкий чарующий вольный ветер. Вы – часть всего живого значит ветер приветствует вас.
58619. Бессоюзные сложные предложения 128.5 KB
  Цели урока: познакомить учащихся со сложными предложениями с бессоюзной связью; показать различие между предложениями союзными и бессоюзными а также между предложениями сложными бессоюзными и предложениями простыми с однородными членами предложения...
58620. День пожилых людей 49 KB
  Эмоциональный настрой Ребята скажите а никто не знает какой сегодня праздник Нет. Скажите ребята как вы заботитесь о своих бабушках и дедушках Как вы вообще относитесь к пожилым людям Учащиеся рассказывают.
58621. Природные зоны России. Арктическая пустыня, тундра 46 KB
  Цель урока формирование географического образа своей Родины посредством многообразия и целостности природных зон и показа взаимодействия и взаимовлияния трех основных компонентов природы населения и хозяйства.