17298

Методи захисту від спаму

Лекция

Информатика, кибернетика и программирование

Лекція 9. Методи захисту від спаму Одна з найбільших проблем при роботі з електронною поштою – це небажані повідомлення комерційного характеру а просто кажучи – спам. Крім незручностей пов'язаних з позбавленням від спаму спам – це ще й прямі збитки для підприємства: вит

Украинкский

2013-06-30

92.5 KB

5 чел.

Лекція 9. Методи захисту від спаму

Одна з найбільших проблем при роботі з електронною поштою – це небажані повідомлення комерційного характеру, а просто кажучи – спам. Крім незручностей, пов'язаних з позбавленням від спаму, спам – це ще й прямі збитки для підприємства: витрачається Інтернет-трафік і місце на носіях, на розбір такої пошти витрачається робочий час користувачів. Один з головних засобів боротьби зі спамом – це підвищення рівня грамотності користувачів. Зокрема, користувачі повинні знати, що:

  •  ніколи не можна давати свій робочий адрес електронної пошти в ненадійні руки (залишати у формах реєстрації на ненадійних Web-сайтах, гостьових книгах і форумах і т.п.). Навчіть користувача для участі у лотереях використовувати спеціальну адресу електронної пошти де-небудь на безкоштовній поштовій системи типу mail.ru, hotmail.com тощо;
  •  краще не розміщувати явну адресу електронної пошти на Web-сторінки корпоративного Web-сайту. Для запитів можна використовувати, наприклад, прості Web-додатки з формами;
  •  навчіть користувачів не використовувати робочу адресу електронної пошти в каталогах ICQ, AOL Instant Messenger і т.п.;
  •  ніколи не можна відповідати на повідомлення спамерів (навіть якщо дуже хочеться посваритися). Дуже часто «на іншому кінці» знаходиться поштовий робот, який фіксує адреси, з яких надійшли відповіді. Цінність таких адрес сильно зростає і, відповідно, потік спаму стає набагато більше;
  •  якщо користувач все-таки допустив помилку, можливо, є сенс звернутися до админістратора, щоб він змінив для цього користувача адреси його електронної пошти.

Проте такі заходи рятують не завжди, і часто доводити боротися зі спамом технічними засобами.

Існує програмне забезпечення (ПЗ) для автоматичного визначення спаму (т.з. фільтри). Воно може бути призначено для кінцевих користувачів або для використання на серверах. Це ПЗ використовує два основні підходи.

Перший полягає в тому, що аналізується зміст листа і робиться висновок, спам це чи ні. Якщо лист класифікований як спам, він може бути помічений, переміщений в іншу папку або навіть видалений. Таке ПЗ може працювати як на сервері, так і на комп'ютері клієнта. При такому підході ви не бачите відфільтрованого спаму, але продовжуєте повністю нести витрати, пов'язані з прийомом пошти, оскільки антиспамне ПЗ у будь-якому випадку одержує кожен спамерський лист (витрачаючи ваші гроші), а тільки потім вирішує показувати його чи ні.

Другий підхід полягає в тому, щоб розпізнавати відправника як спамера не заглядаючи в текст листа. Для визначення застосовуються різні методи. Це ПЗ може працювати тільки на сервері, який безпосередньо приймає листи. При такому підході можна зменшити витрати — гроші витрачаються тільки на спілкування із спамерськими поштовими програмами (тобто на відмови приймати листи) і звернення до інших серверів (якщо такі потрібні) при перевірці. Виграш, проте, не такий великий, як можна було б чекати. Якщо одержувач відмовляється прийняти лист, спамерська програма намагається обійти захист і відправити його іншим способом. Кожну таку спробу доводитися відображати окремо, що збільшує навантаження на сервер.

Місце установки антіспамного ПЗ (комп'ютер кінцевого користувача або поштовий сервер, наприклад, провайдера) визначає того хто нестиме витрати, пов'язані з фільтрацією спаму.

Якщо спам фільрує кінцевий користувач, то він і нестиме витрати (а можливо і провайдер, якщо пошта «безкоштовна»), оскільки буде вимушений одержувати всі повідомлення, включаючи спам.

Якщо спам фільтрує сервер, то користувач не несе витрат, тому що одержує тільки корисну кореспонденцію, а всі витрати лягають на власника сервера.

В даний час використовується декілька методів фільтрації електронної пошти.

Чорні списки

У чорні списки заносяться IP-адреси комп'ютерів, про які відомо, що з них ведеться розсилка спаму. Також широко використовуються списки комп'ютерів, які можна використовувати для розсилки — «відкриті релєї» і «відкриті прокси», а також — списки «діалапів» — клієнтських адрес, на яких не може бути поштових серверів. Можна використовувати локальний список або список, підтримуваний кимось ще. Завдяки простоті реалізації, широкого поширення набули чорні списки, запит до яких здійснюється через службу DNS. Вони одержали назву DNSBL (DNS Black List). В даний час цей метод не дуже ефективний. Спамери знаходять нові комп'ютери для своїх цілей швидше, ніж їх встигають заносити в чорні списки. Крім того, декілька комп'ютерів, що відправляють спам, можуть скомпрометувати весь поштовий домен і тисячі законопокірних користувачів на невизначений час будуть позбавлені можливості відправляти пошту серверам, що використовують такий чорний список.

Сірі списки

Метод сірих списків заснований на тому, що «поведінка» програмного забезпечення, призначеного для розсилки спаму відрізняється від поведінки звичайних поштових серверів, а саме, спамерські програми не намагаються повторно відправити лист при виникненні тимчасової помилки, як того вимагає протокол SMTP.

Спочатку всі невідомі сервери заносяться в «сірий» список і листи від них не приймаються. Серверу відправника повертається код тимчасової помилки, тому, звичайні листи (не спам) не втрачаються, а тільки затримується їх доставка (вони залишаються в черзі на сервері відправника і доставляються при наступній спробі). Якщо сервер поводиться так, як очікувалося, він автоматично переноситься в білий список і наступні листи приймаються без затримки.

Цей метод в даний час дозволяє відсіяти до 90% спаму, практично без ризику втратити важливі листи. Проте його теж не можна назвати бездоганним.

  •  Можуть помилково відсіватися листи з серверів, що не виконують рекомендації протоколу SMTP, наприклад, розсилки з сайтів, що розсилають новини.
  •  Затримка при доставці листа може досягати півгодини (а то і більше), що може бути неприйнятно у разі термінової кореспонденції. Цей недолік компенсується тим, що затримка вноситься тільки при посилці першого листа з раніше невідомої адреси.
  •  Великі поштові служби використовують декілька серверів, з різними IP-адресами, більш того, можлива ситуація, коли декілька серверів по-черзі намагаються відправити один і той же лист. Це може привести до дуже великих затримок при доставці листів.
  •  Спамерські програми можуть удосконалюватися. Підтримка повторної посилки повідомлення реалізується досить легко і повністю нівелює даний вид захисту.

Контроль масовості

Технологія припускає виявлення в потоці пошти масових повідомлень, які абсолютно ідентичні або розрізняються незначно. Для побудови працездатного «масового» аналізатору потрібні величезні потоки пошти, тому цю технологію пропонують великі виробники, що володіють значними обсягами пошти, що вони можуть піддати аналізу.

Перевірка Інтернет-заголовків повідомлення

Спамери пишуть спеціальні програми для генерації спамерских повідомлень й їхнього миттєвого поширення. При цьому вони свідомо допускають помилки в оформленні заголовків, у результаті спам далеко не завжди відповідає вимогам поштового стандарту RFC, що описує формат заголовків. По цих помилках можна обчислити спамерське повідомлення.

Контентна фільтрація

Також одна зі старих, перевірених технологій. Спамерскі повідомлення перевіряються на наявність специфічних для спама слів, фрагментів тексту, картинок й інших характерних спамерських рис. Контентна фільтрація починалася з аналізу того повідомлення й тих же його частин, які містили текст (plaіn text, HTML), але зараз спам-фільтри перевіряють всі частини, включаючи графічне вкладення.

У результаті аналізу може бути побудовані текстова сигнатура або зроблений підрахунок «спамерської ваги» повідомлення.

Грейлістінг

Тимчасова відмова в прийоми повідомлення. Відмова йде з кодом помилки, що розуміють всі поштові системи. Через деякий час Вони повторно надсилають повідомлення. А програми, що розсилають спам, у такому випадку повторно лист не відправляють.

Статистичні методи фільтрації спаму

Ці методи використовують статистичний аналіз змісту листа для ухвалення рішення, чи є воно спамом. Найбільшого успіху вдалося досягти за допомогою алгоритмів, заснованих на теоремі Байеса. Для роботи цих методів потрібне «навчання» фільтрів, тобто потрібно використовувати розсортовані вручну листи для виявлення статистичних особливостей нормальних листів і спаму. Після навчання на достатньо великій вибірці, вдається відсікти до 95—97% спаму.

Байєсовські мережі довіри.

Байєсовські мережі довіри - Bayesian Belief Network - використовуються в тих областях, які характеризуються успадкованою невизначеністю. Ця невизначеність може виникати внаслідок: неповного розуміння предметної області; неповних знань; коли завдання характеризується випадковістю.

Таким чином, байєсовські мережі довіри (БМД) застосовують для моделювання ситуацій, що містять невизначеність в деякому розумінні. Для байєсовських мереж довіри іноді використовується ще одна назва: причинно-наслідкова мережа, в який випадкові події сполучені причинно-наслідковими зв'язками.

З'єднання методом причин і наслідків дозволяють простіше оцінювати вірогідність подій. У реальному світі оцінювання найчастіше робиться в напрямі від “спостерігача” до “спостереження”, або від “ефекту” до “наслідку”, яке в загальному випадку складніше оцінити, чим напрям “наслідок -> ефект”, тобто в напрямі від наслідку.

Рис.1. Приклад простої байєсовської мережі довіри.

Розглянемо приклад мережі (рис.1), в якій вірогідність перебування вершини «e» в різних станах (ek) залежить від станів

(ci, dj) вершин «c» і «d» і визначається виразом:

де p(ek | ci, dj) - вірогідність перебування тільки залежно від станів ci, dj. Оскільки події, представлені вершинами «c» і «d» незалежні, то

p(ek | ci, dj)= p(ci) Ч p(dj).

Рис.2. Дворівнева БМД.

Розглянемо приклад складнішої мережі (рис.2). Даний рисунок ілюструє умовну незалежність подій. Для оцінки вершин «c» і «d» використовуються ті ж вирази, що і для обчислення p(ek), тоді:

З цих виразів видно, що вершина «e» умовно не залежить від вершин A1, A2, B1, B2, оскільки немає тих стрілок, що безпосередньо сполучають ці вершини.

Розглянувши ці приклади спробуємо тепер точніше визначити основні поняття, що використовуються в БМД. Байєсовські мережі довіри - це направлений ациклічний граф, що володіє наступними властивостями:

  •  кожна вершина є подією, що описується випадковою величиною, яка може мати декілька станів;
  •  всі вершини, що пов'язані з “батьківськими”, визначаються таблицею умовної вірогідності (ТУВ) або функцією умовної вірогідності (ФУВ);
  •  для вершин без “батьків” вірогідності її станів є безумовними (маргінальними).

Іншими словами, в байєсовських мережах довіри вершини є випадковими змінними, а дуги - імовірнісні залежності, які визначаються через таблиці умовної вірогідності. Таблиця умовної вірогідності кожної вершини містить вірогідність станів цієї вершини за умови станів її “батьків”.

Застосування Байєсовського класифікатора для завдання визначення спаму

Формальне визначення Байєсовського класифікатора

Завдання класифікації документів полягає в тому, щоб знайти наближене відображення K´=DxC→{T,F} відображення K, такого що K(d,с)=T тоді і тільки тоді, коли документ d відповідає категорії K(d,c)=F у зворотньому випадку.

Одержана апроксимація K' називається класифікатором. У випадку якщо категорії статистично незалежні одна від одної (тобто K´(dj,c´) не залежить від K´(dj,c´´) для будь-яких c´c´´ ), то можна без втрати спільності припустити, що безліч категорій складається тільки з двох непересічних категорій, до однієї з яких обов'язково належить кожний з документів. Це пов'язано з тим, що випадок з великою кількістю категорій {c1,...cn} можна представити як n завдань вигляду.

Таким чином, завдання класифікації зводиться до пошуку наближеного відображення K´=DxC→{T,F}.

Крім того, вводиться множина характеристик T, які можуть бути зіставлені з документами. Тоді документ d представляється вектором коефіцієнтів (w1,...,w|T|), 0≤wi≤1.  Коефіцієнти wi, грубо кажучи, визначають 'внесок' характеристики ti в семантику документа d.

У будь-якому методі автоматичної класифікації спочатку визначаються характеристики документів і спосіб обчислення вагів.

Наївний Байєсовський класифікатор

Байесовський класифікатор заснований на використанні знаменитої теореми Байєса, і перші згадки про нього можна зустріти ще в 1960-му році. За вже більш ніж 40-річну історію НБК використовувався для вирішення найрізноманітніших завдань: від класифікації текстів в агентствах новин до первинної діагностики захворювань в медичних установах.

При постановці завдання для НБК як характеристики звичайно вибирається наявність або відсутність будь яких слів в документі, тобто за множину характеристик T береться множина всіх слів в оброблюваних документах. Таким чином, вага характеристики wi=1 в тому випадку, якщо слово ti було знайдено, і wi=0 у зворотному випадку. У випадку з фільтрами, які використовуються для класифікації спаму, враховується ще і область, в якій зустрілося слово: заголовки, тема листа (subject), тіло листа. Тобто слово 'спам', що зустрілося в темі листа, є іншим терміном, чим слово 'спам' в тілі листа.

Крім того, робиться дуже важливе припущення: передбачається, що всі характеристики документів, одержані таким чином (слова), статистично незалежні; саме із-за цього припущення в назві класифікатора присутнє слово «наївний». Це сильно спрощує застосування теореми Байєса для побудови класифікатора.

НБК, звичайно використовуваний в спам-фільтрах (запропонований Полом Гремом) має вигляд p1·p2 ... p|d|/(p1·p2 ... p|d|+(1–p1)·(1–p2 ... (1–p|d|))>W, де pi=P(wi=1|c), W - заданий користувачем поріг. При цьому використовується вірогідність тільки тих характеристик, які зустрілися в документі. Такий НБК відрізняється від класичної формули тим, що в ньому не використовується вірогідність самих категорій (або, точніше, ці категорії прийняті за рівноймовірні). Таке рішення обґрунтовується тим, що ухвалення рішення про конкретний лист не повинно бути пов'язано з кількістю спаму в поштовій скриньці, а повинно обчислюватися виключно по вмісту самого листа.

Для обчислення вірогідності pi використовується т.з. процес навчання, під час якого аналізуються наперед класифіковані документи. Тоді вірогідність можна розрахувати, наприклад, таким чином: pi=bi/(gi+bj) , де bi - кількість 'поганих' документів, що містять характеристику ti; gi - кількість 'гарних' документів, що містять характеристику ti.

У реальних фільтрах, заснованих на НБК, можуть використовуватися інші способи обчислення оцінок вірогідності, що враховують спеціальні випадки рідкісних характеристик (документів, що зустрічаються у малій кількості). Наприклад, Гар Робінсон рекомендує замінити оцінку pi на fi: fi=(s·x+ni·pi)/(s+ni), де s и x - експериментально підібрані параметри (рекомендується 1 і 0.5), а n - кількість документів з характеристикою ti.

Метод Фішера

Починаючи з публікації статті Гара Робінсона, в деяких фільтрах (наприклад, SpamAssassin) замість НБК став використовуватися метод поєднання вірогідностей, запропонований Р. Фішером в 1950 році.

Стосовно класифікації документів, Робінсон сформулював цей метод таким чином: припустимо, що документ має n характеристик, для кожної з яких вже розрахована вірогідність pi. Тоді, згідно Фішеру, якщо ці вірогідності не розподілені рівномірно, то значення  підкорятиметься закону розподілу χ2(2n).

Таким чином, стає можливим знайти вірогідність того, що для деяких інших значень pi відповідне число  буде більше, ніж розраховане для даного документа. Якщо ця вірогідність достатньо мала, то документ слід віднести до даної категорії.

Для визначення спаму Робінсон запропонував розрахувати так само не тільки вірогідність 'спамності' документа (H), але і вірогідність того, що лист не є спамом (S), і використовувати показник I, що розраховується по формулі I=(1+H–S)/2. Якщо показник I достатньо близький до 0, то лист вважається 'не спамом'; якщо I достатньо близький до 1, лист вважається 'спамом'. Інакше лист вважається спірним. Таким чином, в роботі вводиться класифікація не по двох категоріях, а по трьох.

Фільтрація спаму на стороні провайдера

Стрімко зростаюча кількість спаму примушує великі інтернет-сервіси упроваджувати нові технології фільтрації пошти. Посилюється боротьба із спамом на Hotmail, Yahoo! і MSN, які упроваджують нові технології фільтрації. Вже запущений безкоштовний фільтр спаму Spamtest.ru, на найбільшому російському поштовому сервісі Mail.ru запроваджений "Антіспам Касперського", Yandex оголосив про запуск власного сервісу "Спамооборона", поштовий сервіс порталу KM.RU упровадив захист від спаму "Карантин", компанії E-Style ISP", "Петерлінк" встановили "Антіспам Касперського", "Корбіна Телеком" оголосила про впровадження власного фільтру спаму, побудованого на безкоштовному програмному забезпеченні SpamAssassin.

Провайдери можуть фільтрувати спам для клієнтів, які тримають у них свої поштові скриньки. Звичайно це домашні користувачі, що використовують доступ по телефонній лінії, або користувачі виділених ліній. Серед них також є деяка кількість корпоративних користувачів. Це характерно тільки для компаній, у яких не створена власна поштова система, і вони тримають пошту виключно у провайдера. В деяких випадках це достатньо зручно і не вимагає великих витрат. Проте для компаній, у яких створена своя поштова система, такий спосіб фільтрації не прийнятний з наступних причин:

  •  Конфіденційність електронної пошти. Ефективна фільтрація пошти вимагає як мінімум контролю текстової складової листа, а це означає, що провайдер буде обізнаний про зміст електронного листування компанії.
  •  Неможливість побудови гнучкої політики використання електронної пошти. Компанії, як правило, мають складну структуру, в якій різні групи користувачів можуть одержувати певні категорії листів. При цьому один і той же лист може відноситися одночасно до декількох категорій (лист може бути спамом для однієї категорії користувачів і діловим листом для іншої, наприклад, рекламний лист про виставку профільної продукції для відділу маркетингу буде діловим, а для відділу інформаційних технологій — спамом).
  •  Методи і технології фільтрації на стороні провайдера не застосовні для корпоративного користувача.

Якщо з першими двома причинами все гранично ясно, то остання причина вимагає деякого пояснення. Для фільтрації спаму провайдери використовують наступні методи фільтрації спаму:

  •  З використанням RBL-сервісів (за поштовими адресами).
  •  Розподілені методи виявлення спаму.

Кожний із способів має свої переваги і недоліки.


 

А также другие работы, которые могут Вас заинтересовать

45478. Технология защиты информации 430.5 KB
  Выделяют следующие основные группы причин сбоев и отказов в работе компьютерных систем: нарушения физической и логической целостности хранящихся в оперативной и внешней памяти структур данных возникающие по причине старения или преждевременного износа их носителей; нарушения возникающие в работе аппаратных средств изза их старения или преждевременного износа; нарушения физической и логической целостности хранящихся в оперативной и внешней памяти структур данных возникающие по причине некорректного использования компьютерных...
45479. CASE-ТЕХНОЛОГИИ 53.5 KB
  Объектноориентированный подход основан на объектной декомпозиции с описанием поведения системы в терминах взаимодействия объектов. В силу этих причин в настоящее время наибольшее распространение получил объектноориентированный подход. Под CSEтехнологией будем понимать комплекс программных средств поддерживающих процессы создания и сопровождения программного обеспечения включая анализ и формулировку требований проектирование генерацию кода тестирование документирование обеспечение качества конфигурационное управление и управление...
45480. ТЕЛЕКОММУНИКАЦИОННЫЕ ТЕХНОЛОГИИ 139.5 KB
  Особенность данного класса систем состоит в децентрализации архитектуры автономных вычислительных систем и их объединении в глобальные компьютерные сети.13 представлена типовая архитектура клиент сервер однако различают несколько моделей отличающихся распределением компонентов программного обеспечения между компьютерами сети. На основе распределения перечисленных компонентов между рабочей станцией и сервером сети выделяют следующие модели архитектуры клиент сервер: модель доступа к удаленным данным; модель сервера управления...
45481. Аспекты информатизации образования 43 KB
  Компьютерные программы и обучающие системы представляющие собой: компьютерные учебники предназначенные для формирования новых знаний и навыков; диагностические или тестовые системы предназначенные для диагностирования оценивания и проверки знаний способностей и умений; тренажеры и имитационные программы представляющие тот или иной аспект реальности отражающие его основные структурные и функциональные характеристики и предназначенные для формирования практических навыков; лабораторные комплексы в основе которых...
45482. ИТ АВТОМАТИЗИРОВАННОГО ПРОЕКТИРОВАНИЯ 132 KB
  Наиболее полно возможности САПРпродукта на уровне универсального графического пакета можно проследить на примере utoCD 2000 новой версии самого популярного в России чертежного пакета.; наличие средств моделирования позволяющих редактировать твердотельные объекты на уровне ребер и граней; возможность обращения к свойствам объектов; возможность выбора группировки и фильтрации объектов по типам и свойствам; наличие технологии создания и редактирования блоков; возможность вставки в чертеж гиперссылок; включение...
45484. ФОРМИРОВАНИЕ МОДЕЛИ ПРЕДМЕТНОЙ ОБЛАСТИ 4.08 MB
  Таким образом для современного состояния информационных технологий необходим переход от информационного описания предметной области к представлению на уровне данных осуществляемый на основе декомпозиции абстракции агрегирования. При анализе предметной области принято выделять три этапа: анализ требований и информационных потребностей; определение информационных объектов и связей между ними; конструирование концептуальной модели предметной области. Этап анализа требований и информационных потребностей включает следующие задачи:...
45485. Объектно-ориентированная технология проектирования ИС 52 KB
  В основу объектноориентированной технологии проектирования ИС положены разработка анализ и спецификация концептуальной объектноориентированной модели предметной области. Концептуальная объектноориентированная модель предметной области является основой проекта и реализации системы и обеспечивает: необходимый уровень формализации описания проектных решений; высокий уровень абстрагирования типизации и параметризации проектных решений; компактность описания; удобство сопровождения готовой системы. Отличительными...
45486. ОЦЕНКА КАЧЕСТВА ИНФОРМАЦИОННЫХ СИСТЕМ 75 KB
  В настоящее время наибольшее распространение получила иерархическая модель взаимосвязи компонент качества ИС. В начале определяются характеристики качества в числе которых. Каждому показателю качества ставится в соотвествие группа критериев.