39924

Пошук знань

Реферат

Журналистика, издательское дело, полиграфия и СМИ

Інструменти для корпоративних масивів Отже на жорстких дисках окремих компютерів або на серверах в корпоративних мережах накопичуються величезні масиви документів навігація в яких із зрозумілих причин утруднена. Для забезпечення комфортності роботи із такими масивами документів зазвичай намагаються класифікувати розподілити їх по тематичних папка або каталогах. Поряд з пошуком великого значення набувають завдання угрупування тематично близьких документів автоматичного реферування перекладу виявлення ключових понять проведення...

Украинкский

2013-10-12

93 KB

1 чел.

Тема 7

Пошук знань

Дані, що зберігаються в корпоративних мережах, часто є основою для ухвалення важливих рішень, що впливають на роботу або навіть на виживання компаній. Отримання потрібного і відсікання інформаційного шуму стає визначальним для конурентноздатності.

Велика кількість інформації вже давно сприймається як щось само собою зрозуміле. Кількісні оцінки її сумарного обсягу, як такі, навряд чи можуть стати чинником особливих роздумів. Але якщо подібні показники піддати структурному аналізу, то отримані результати можуть виявитися дуже несподіваними.

Візьмемо дослідження зміни обсягу інформації в світі за рік. Таке дослідження під керівництвом професорів Пітера Лаймана і Хола Верієна з 2000 року проводиться в Каліфорнійському університеті в Берклі. Учені зробили висновок, що впродовж трьох років, передуючих 2002 рокові, кількість інформації, створеної людством, подвоїлася. А в самому 2002 році в світі з’явилося ще п'ять екзабайт (мільйон терабайт) інформації. Для порівняння приведемо дані про обсяг фонду бібліотеки Конгресу США, де зберігаються 19 млн. книг і 56 млн. рукописів: він складає близько десяти терабайт інформації. У згаданому дослідженні інформація структурувалася за типами носіїв. Виявилось, що лідерство міцно утримують магнітні носії, доля яких перевищує 90%. З них велику частину складають жорсткі диски. На кіно, фото, друкарські видання і інші паперові документи разом з оптичними цифровими носіями припадає лише 7% інформації.

Інструменти для корпоративних масивів

Отже, на жорстких дисках окремих комп'ютерів або на серверах в корпоративних мережах накопичуються величезні масиви документів, навігація в яких із зрозумілих причин утруднена. Для забезпечення комфортності роботи із такими масивами документів зазвичай  намагаються класифікувати, розподілити їх по тематичних папка або каталогах. Ця процедура трудомістка, і, що саме головне, не виключає можливості внесення додаткових помилок.

Зрозуміло, що створити інформаційне середовище, що інкапсулює різнорідні об'єкти, непросто. Природним виходом з цієї ситуації виявилися повнотекстові інформаційно-пошукові системи, що набули свого часу широкого поширення в Інтернеті. На відміну від Мережі, де дані в основному представлені як html-файли, пошук проводиться в іншому середовищі. Адже в корпоративних системах переважно використовуються формати офісних додатків і систем документообігу. Поряд з, пошуком великого значення набувають завдання угрупування тематично близьких документів, автоматичного реферування, перекладу, виявлення ключових понять, проведення нечіткого пошуку.

Засоби пошуку

Розглянемо деякі популярні системи пошуку для корпоративних мереж.

Універсальна пошукова система mnoGoSearch (mnogosearch.org) призначена для інтернет- або інтранет-серверів. Вона індексує інформацію, яка сканується по локальних дисках або відповідно до протоколів http, ftp, nntp. Система працює з документами у форматах html, txt, doc, pdf. У запитах сприймаються різні форми слів і логічні оператори. Результати запитів можна налаштовувати за допомогою html-шаблонів. Система mnoGoSearch може зберігати дані у всіх популярних реляційних СУБД. Існують версії для Linux і Windows.

Повнотекстова персональна пошукова система "Шукач"(www.isleuthound.com) володіє можливостями пошуку документів і файлів на російській і англійській мовах. Вона сприймає запити у всіх словоформах і з будь-якими відмінковими закінченнями (тобто підтримує морфологічний пошук) і здатна автоматично розпізнавати основні кодування тексту - ASCII, ANSI, Unicode. Передбачається робота з документами форматів txt, rtf, doc, html.

При першому запуску на основі заданого масиву документів "Шукач" створює і індексує базу даних, яка є зоною пошуку, що складається з каталогів. В межах цієї зони і проводиться пошук документів і файлів.

Система допускає організацію власних сховищ даних з неструктурованої інформації, створення до п'ятдесяти зон пошуку з індексуванням необмеженої кількості файлів, накопичення "популярних" запитів і т.п.

Серверний "Слідопит 1.5" (www.medialingua.ru) - могутня пошукова система, що надає можливість пошуку потрібної інформації на окремому веб-сайті або сервері корпоративної інтрамережі. Пошук здійснюється за змістом документів і їх атрибутам, а також за розміром, ім'ям, датою створення, по відправникові або одержувачеві поштового повідомлення. Програма може обробляти файли практично всіх форматів: doc, rtf, html, xls, pdf, zip, pst, а також папки (як самі повідомлення, так і вкладені файли) Microsoft Outlook. У системі реалізований морфологічний пошук, тобто для кожного слова враховується вся парадигма. Фільтр для формату pdf при роботі з російською мовою є в "Слідопиті" одним з кращих.

Повнотекстовий пошук під Microsoft SQL Server 2000 в "Слідопиті" реалізований для російської і англійської мов (мається на увазі можливість динамічного відстежування змін в базі даних і оновлення повнотекстового індексу Change Tracking, яка з'явилася в Microsoft SQL Server 2000).

Основне призначення програми Data Search 6.0. (www.dtsearch.com) - пошук інформації на локальному комп'ютері. Система має англійський інтерфейс і працює під управлінням операційних систем Windows 9x/Me/NT/2000. Вона складається з наступних модулів: dtSearch Desktop 6.0 - головний інтерфейс програми, dtSearch Indexer - індексатор документів, dtSearch Index Library Manager - менеджер бібліотек індексів, dtSearch CD Wizard - індексатор даних, що знаходяться на CD. Data Search дозволяє створювати один спільний індекс для декількох комп'ютерів в локальній мережі.

Система підтримує пошук документів різних типів, включаючи zip, rtf, pdf, html, xml, документи Microsoft Office (Word, Excel, PowerPoint) і WordPerfect. Підтримується кодування Unicode. Допускаються декілька видів пошуку, а саме морфологічний, і фонетичний пошук, а також пошук синонімів і пошук в словах з орфографічними помилками.

Система повнотекстового пошуку CROS 4.01 (www.cronos.ru), призначена для накопичення і обробки текстових документів різних форматів. Зберігання документів в базах даних системи забезпечує зменшення два-три рази необхідного обсягу дискової пам'яті. Передбачено автоматичне визначення форматів документів Microsoft Word версій 6.0, 7.0, 97, 2000, а також rtf і html. Крім цього визначається тип кодування (DOS, Win, КОИ8, Unicode).

CROS забезпечує навігацію по знайдених документах, здатний працювати в локальній мережі і підтримує захист інформації від несанкціонованого доступу. При цьому відсутні обмеження на кількість ієрархічних областей пошуку, здійснюється сортування знайдених документів по даті, імені, типу і атрибутам, які задаються самим користувачем.

Система Greenstone (www.greenstone.org) є Open Source-рішенням для створення "цифрових бібліотек". Природно, вона включає пошук з попереднім індексуванням по документах всіх популярних форматів, і перш за все doc і pdf, які можуть бути представлені і у заархівованому вигляді. Система створює каталог документів, конвертує їх в html-формат, а потім забезпечує віддалений доступ до бібліотеки за допомогою браузера.

Програмно-апаратний комплекс Google Search Appliance забезпечує пошук документів у рамках корпоративних мереж. Джон Піськітелло, менеджер Google по продуктах, визначив цей продукт як "природний крок для компанії, яка завжди прагне запропонувати користувачам нові способи доступу до інформації". За його словами, довелося враховувати зростаючі вимоги, включаючи пошук в межах, визначених корпоративними міжмережевими екранами, і це примусило Google розробити нові рішення.

Пошукові пристрої цієї компанії використовують в своїй роботі армія США, адміністрація каліфорнійського міста Сан-дієго, фармацевтичний гігант Pfizer, корпорація Boeing, Procter & Gamble, Cisco Systems та інші.

Пошуковий механізм комплексу забезпечує роботу більш ніж з двомастами типами файлів (звичайно, включаючи html, pdf, doc). При цьому здійснюється урахування| синонімів при повнотекстовому пошуку по запитах і можлива робота більш ніж на п'ятдесяти мовах.

Google Search Appliance підтримує функції пошуку захищеної інформації, що знаходиться на закритих серверах. При цьому користувач може звернутися до захищеного документа лише за наявності у нього відповідних повноважень доступу.

Новий рівень обробки інформації в мережі

Спроби аналізу великих обсягів неструктурованих або слабо структурованих даних дуже часто ускладнюють процес прийняття рішень. Якщо широкий спектр пошукових систем досить легко справляється з "простим" повнотекстовим пошуком, то для подібного аналізу потрібні технології зовсім іншого типу, представлені системами добування  знань (Knowledge Mining). Вартість впровадження таких систем складає сотні тисяч доларів.

Отже, ставиться основне завдання по виявленню знань в масивах неструктурованих даних, з метою використання цих знань в процесі прийняття рішень. Щоб добитися цього, інформацію необхідно зробити доступною для аналізу, виявити класи понять і зіставити їх з документами.

Як правило, інформаційні масиви перетворюються такими системами в сховище даних (Data Warehouse) або корпоративні портали знань - інтегровані інформаційні репозитарії, доступні для оперативного узагальнення і аналізу. Часто такі сховища є самонавчальними| за рахунок використання статистичних бейсівських алгоритмів. Останні забезпечують адаптацію критеріїв групування документів. Велику роль грають і "відгуки" реальних користувачів.

За рахунок попередньої обробки інформації, що проводиться на етапі формування сховищ даних, значно підвищується ефективність таких процесів, як інтелектуальний аналіз даних, глибинний аналіз текстів і виявлення нових знань в текстах. Як несподівану похідну цих процесів можна назвати появу засобів, що спрощують пошук для користувача, таких як реалізація нечіткої логіки запитів (нечіткого пошуку), засобів побудови| функціональних інформаційних портретів, візуалізації семантичних зв'язків і т.д. У свою чергу, ці можливості безпосередньо пов'язані з розпізнаванням образів, пошуком мультимедійних даних, аналізом мовного введення.

Розробка інформаційних ресурсів

Відповідно до методології, що вже склалася, до основних елементів Text Mining відносяться: сумаризація (summarization), виділення феноменів, понять (feature extraction), кластеризація (clustering), класифікація (classification), відповідь на запити (question answering), тематичне індексування (thematic indexing) і пошук за ключовими словами (keyword searching). Також в деяких випадках набір доповнюють засоби підтримки і створення таксонометрії (oftaxonomies) і тезаурусів (thesauri). Олександр Лінден, директор компанії Gartner Research, виділив чотири основні види додатків технологій Text Mining:

- Класифікація тексту, в якій використовуються статистичні кореляції для побудови правил розміщення документів в зумовлені категорії. У сучасних системах класифікація застосовується, наприклад, в таких задачах: угрупування документів в інтранет-мережах, розміщення документів в певні папка, вибіркове розповсюдження новин передплатникам.

- Кластеризація, що базується на ознаках документів, використовує лінгвістичні і математичні методи без використання зумовлених категорій. Кластеризація широко застосовується при реферуванні великих документальних масивів, визначенні взаємозв'язаних груп документів, для спрощення візуалізації інформації, виявлення дублікатів або близьких за змістом документів.

- Семантичні мережі або аналіз зв'язків, які визначають появу дескрипторів (ключових фраз) в документі для забезпечення навігації. Використовувана при цьому візуалізація є ключовою ланкою при представленні схем неструктурованих текстових документів. Вона використовується як засіб представлення змісту масиву документів, а також для реалізації навігаційного механізму, який може застосовуватися при дослідженні документів і їх класів.

- Видобування фактів призначене для отримання деяких фактів із тексту з метою покращання класифікації, пошуку і кластеризації.

Можна назвати ще декілька задач технології Text Mining, наприклад, прогнозування і знаходження винятків, тобто пошук об'єктів, які своїми характеристиками виділяються із загальної маси. Всі ці задачі знаходять своє втілення в сучасних корпоративних сховищах.

Збагачувачі знань

Сьогодні на ринку корпоративних систем все велику популярність здобуває технологія компанії Autonomy (www.autonomy.com), яка позиціонується як інструментарій для автоматизованого управління інформаційними потоками. Основні наукові принципи Autonomy базуються на інформаційній теорії Клода Шеннона, байєсівських ймовірностях і нейронних мережах. Концепція адаптивного імовірнісного моделювання дозволяє системі Autonomy ідентифікувати шаблони в тексті документа і автоматично визначати подібні шаблони в масиві інших документів.

Обробляючи шаблони рядків в документах, система Autonomy визначає кореляцію образів і виявляє закономірності серед великих масивів документів. При цьому не враховуються ніякі специфічні правила (у тому числі і лінгвістичні). Оскільки система не базується на зумовлених ключових словах, вона може працювати з будь-якими мовами.

Одним з програмних продуктів Autonomy є пакет Portal-in-a-box, який крім традиційних функцій агрегації інформації з різнорідних джерел має і засоби для вирішення такої проблеми, що виникає при побудові порталів, як систематизація неструктурованих даних. Очевидно, що угрупування документів по категоріях і створення їх метаописів вимагає чималих редакторських зусиль. Portal-in-a-box в цьому випадку повністю автоматизує процеси категоризації інформації, її реферування і розстановки гіперпосилань.

Незважаючи на високу ціну впровадження (декілька сотень тисяч доларів), у Autonomy - понад 400 корпоративних клієнтів, у тому числі і British Telecom, France Telecom, General Motors, Reuters, ВВС, British Airways та інші.

Інформаційно-пошукова система RetrievaWare (www.convera.com) є засобом повнотекстового і атрибутивного пошуку. До документів, з якими RetrievalWare здатна працювати, відносяться тексти в різних форматах і кодуваннях, електронні таблиці, бази даних, поштові повідомлення і т. п., - всього більше двохсот форматів. Система володіє додатковим інструментарієм, що дозволяє настроїтися на підтримку документів специфічних форматів. Обсяг архіву при необхідності може вимірюватися терабайтами.

Архітектура RetrievalWare дозволяє працювати із системою як через корпоративну локальну мережу, так і через інтернет. Серверна частина системи підтримує всі поширені серверні платформи, а клієнтським місцем може бути будь-який комп'ютер, що має графічний веб-браузер. Система володіє можливістю роботи в різних багатопроцесорних і розподілених багатосерверних конфігураціях.

Джерелом інформації може бути файлова система, системи управління базами даних (MS SQL, ORACLE, Sybase, інші СУБД), поштові системи (Microsoft Exchange, Lotus Notes і т. п.), системи управління документами (Documentum EDMS, FILENET Panagon і т.п.), вузли корпоративної мережі і Інтернету, а також електронний архів Excalibur File Room - засіб організації доступу до паперових документів.

Технологія, що лежить  в основі системи адаптивного розпізнавання образів базується на нейронних мережах для обробки інформації і діє як система, що самоорганізовується, яка виділяє в масиві інформації, що зберігається, і індексує бінарні образи. До переваг застосування цієї технології для пошуку текстової інформації можна віднести здійснення нечіткого пошуку, мовну незалежність, малі обсяги індексних файлів.

Основою технології семантичного пошуку є використання семантичних мереж, що описують сенс слів природної мови і зв'язку між поняттями, що позначаються ними. Реалізована також підтримка російської морфології. Семантична мережа словника цієї мови включає близько 40 тисяч семантичних груп в базовому варіанті. Це дозволяє користувачеві здійснювати запит на природній мові, надавши можливість системі самій шукати всі документи, контекст яких співпадає з контекстом запиту. Застосування семантики дозволяє враховувати загальний контекст документа.

Модуль анотування в системі Retrieval Ware, який дозволяє будувати анотації документів у вигляді зв'язного тексту, побудований на базі сервера анотування ML NetLibretto компанії "Медіалінгва".

У список компаній і організацій, що користуються цією системою, входять ABC News, Encyclopedia Britannica, Microsoft, Sun Microsystems, Всесвітній| банк, ФАПСИ, Центральний Банк Росії, "Лукойл" та інші.

Яndex.ServerStandard 3.0 (www.yandex.ru) є системним сервісом для організації повнотекстового пошуку інформації в заданій колекції документів. Він призначений для роботи з текстами як в локальній, так і в глобальній мережах. Система не містить ліцензійних обмежень на число індексованих документів, їх розмір або сумарний розмір індексу і дозволяє індексувати документи як через http-з'єднання, так і читанням локальної файлової системи.

Яndex.Server 3.0 складається з двох основних логічних частин: індексатора і пошукового сервера. Індексатор аналізує документи, серед яких повинен проводитися пошук, і зберігає інформацію про них в спеціальних індексних файлах.

Зазвичай використовується режим роботи, при якому не створюються наново індексні файли, а опрацьовується інформація тільки по документах, що змінилися, нових і видалених. Пошуковий сервер після запуску знаходиться в постійному очікуванні запитів, які можуть бути представлені на природній мові. Пошук може здійснюватися з урахуванням морфології мови, в одній або декількох колекціях документів.

Яndex.Server 3.0 підтримує формати html, xml, rtf, pdf, doc, mp3 і багато інших. Вміст індексованих документів також може бути отриманий при зверненні до довільної бази даних, зокрема, MYSQL і MS SQL.

Система надає можливість кластеризації результатів пошуку (групує знайдені документи відповідно до зовнішніх атрибутів), а також рангує результати (сортує документи по ступеню відповідності запиту).

Рішення PolyAnalyst російської компанії "Мегапьютер" (www.megaputer.ru) - це система, призначена для автоматичного і напівавтоматичного аналізу числових і текстових баз даних з метою виявлення в них раніше невідомих, нетривіальних, практично корисних і доступних розумінню закономірностей, які необхідні для ухвалення оптимальних рішень в бізнесі і в інших областях людської діяльності.

За своєю природою, PolyAnalyst є клієнт/серверним додатком. Користувач працює з клієнтською програмою PolyAnalyst Workplace. Математичні модулі виділені в серверну частину - PolyAnalyst Knowledge Server. Така архітектура надає природну можливість для масштабування системи від однокористувацького варіанту до корпоративного рішення з декількома серверами.

PolyAnalyst працює з різними типами даних. Це - числа, логічні змінні, категоріальні змінні, текстові рядки, дати, а також вільний текст. PolyAnalyst може обробляти вихідні дані з різних джерел, таких як файли Microsoft Excel 97/2000, будь-яка ODBC- сумісна СУБД, SAS data files, Oracle Express, IBM Visual Warehouse.

Модулі PolyAnalyst використовують різні алгоритми Data і Text Mining, зокрема, модуль Text Categorizer - каталогізатор текстів, який дозволяє автоматично створити ієрархічний деревовидний каталог наявних текстів і позначити кожен вузол цієї деревовидної структури як найбільш індикативний для текстів, що відносяться до нього.

Модуль Link Terms забезпечує зв'язок понять. Він дозволяє виявляти зв'язки між поняттями, що зустрічаються в текстових полях бази даних, що вивчається, і представляти їх у вигляді графа, який може бути використаний для виділення записів, що реалізовують вибраний зв'язок. Модуль Link Analysis виявляє кореляційні і антикореляційні зв'язки між значеннями категоріальних і булевих полів.

Завдяки унікальній технології "еволюційного програмування" і іншим інтелектуальним алгоритмам, PolyAnalyst з успіхом застосовується в різних типах бізнес-задач, в соціологічних дослідженнях, в прикладних наукових і інженерних завданнях, в банківській справі, в страхуванні і медицині.

PolyAnalyst набув широкого поширення в світі, серед її користувачів Boeing, 3M, Chase Manhattan Bank, Dupont, Siemens та інші.

Ядром механізму обробки контенту InfoStream (infostream.com.ua) є повнотекстова інформаційно-пошукова система InfoReS. Технологія InfoStream дозволяє створювати повнотекстові бази даних і здійснювати пошук інформації, формувати тематичні інформаційні канали, автоматично рубрикувати інформацію, формувати дайджести, таблиці взаємозв'язків понять, гістограми розподілу вагових значень окремих понять. За допомогою InfoStream можна обробляти дані у форматах Microsoft WORD (версії 2000, 97, 6), rtf, pdf, і всіх текстових форматах (простій текст, html, xml). Системи на основі InfoStream в даний час функціонують під управлінням таких операційних систем, як FREEBDS, Linux, Solaris.

Технології InfoStream дозволяють створити комплекс підтримки документального інформаційного сховища, в якому реалізується інтегроване інформаційно-пошукове середовище на основі веб-рішень. З її допомогою забезпечується доступ до електронних документів, розміщених на комп'ютерах в корпоративній мережі, в режимах пошуку, навігації по комп'ютерах/каталогах, переглядання як оригіналів документів, так і їх текстових образів. Комплекс забезпечує інтерактивний повнотекстовий пошук інформації по складних запитах, що складаються з ключових слів, логічних і контекстних операторів, різноманітне рангування результатів пошуку. Надається можливість уточнення результатів пошуку за допомогою механізму "інформаційних портретів".

Портали знань

За даними нещодавно проведеного дослідження, співробітники компаній можуть витрачати до трьох годин в день на пошук інформації, який частовиявляється безрезультатним. У наслідок цього тисяча найбільших фірм США щорічно втрачає $2,5 млрд.

БЕЗ ПОШУКОВИХ СИСТЕМ, СИСТЕМ АНАЛІЗУ ТЕКСТІВ І СИСТЕМ ЗДОБУТТЯ  ЗНАНЬ БУДЬ-ЯКІ СЕРЙОЗНІ ІНФОРМАЦІЙНІ ПОЧИНАННЯ ПРИРЕЧЕНІ НА ПРОВАЛ

Саме для вирішення даної проблеми створені і продовжують створюватися корпоративні пошукові системи і портали знань, що є середовищем для ефективного пошуку і обміну знаннями. Це інструменти, що є сукупністю технологічних рішень для виявлення, зберігання, класифікації, обробки і розповсюдження знань.

В даний час широко використовуються системи Lotus Discovery Server - програмний продукт, призначений для управління знаннями в корпоративних порталах. Він передбачає знаходження та ідентифікацію зв'язків, а також спільне управління інтелектуальним капіталом. Завдяки можливості пошуку інформації, що зберігається в організації Lotus Discovery Server може визначати області експертних знань і знання співробітників, знаходячи і організовуючи динамічні зв'язки між інформацією, людьми і їх діяльністю.

Сучасні портали управління знаннями забезпечують розв'язання цілого комплексу завдань, серед яких збір інформації про об'єкти, визначення зв'язку об'єктів, виявлення тенденцій. Функціональні можливості таких систем дозволяють проводити багатофакторні динамічні дослідження, виконувати діагностику і прогнозування розвитку ситуації. На додаток до можливостей глибинного аналізу даних і тексту, в порталах знань широко використовується людський досвід, знання експертів.

Близько п'яти років тому за замовленням групи аналітиків Гарвардського університету російські розробники з "Інфорус" створили систему Avalanche, яка в процесі пошуку формує модель наочної області у вигляді набору "розумних папок", кожна з яких знає, що в неї повинно потрапити. Наповненням папки займається спеціалізований робот, який запускається з комп'ютера "власника" і "приносить" тільки те, що просили. Це - одне з перших ефективних рішень на базі сучасних технологій глибинного аналізу текстів.

Дуже близьким до Avalanche по ідеології є підхід компанії Vivisimo, в рамках якого результати інтернет-пошуку розподіляються по папка-категоріях, що автоматично створюються системою. Досягається це за рахунок логічного зіставлення запитів і результатів пошуку.

Природно, своє застосування Vivisimo відразу ж знайшла в корпоративних мережах і веб-сервісах. Рауль-Валдес-Перес, один із засновників Vivisimo, порівняв систему з дуже розумним бібліотекарем, який миттєво знаходить потрібну книгу в морі неврегульованої інформації.

Перспективи обробки інформації

Сьогодні дані, представлені на комп'ютерах корпоративних мереж, часто є| основою для ухвалення важливих рішень, що впливають на роботу або навіть на виживання компаній. Інтенсивна інформатизація державних органів і комерційних структур, доступність інструментарію для збору і моніторингу даних ведуть до достатньої кількості інформації, в якій може потонути робота практично будь-якої організації.

Ефективний пошук, що вчасно пропонує необхідні відомості, супроводжуваний здатністю позбавлятися від інформаційного шуму, виявляється вирішальним фактором для підвищення конкурентноздатності. Без пошукових систем, систем аналізу текстів і систем здобуття знань будь-які серйозні інформаційні почини завтра будуть приречені на провал.

Природно, ці технології широко використовуються "силовиками". Свої технології "здобуття даних", вживані для пошуку інформації в текстах, радіо- і телепередачах публічно представило ЦРУ. Виявилось, що об'єктами пошуку спецслужби є тексти в друкарських виданнях і в цифровому вигляді, графічні зображення, аудіоінформація на 35 мовах. Для відсіювання аудіоінформації використовується методика Oasis, яка розпізнає мову і перетворює її на текст. Методика дозволяє виділяти з аудіопотоку тільки ті голоси або ту конкретну інформацію, яка закладена в настройках пошуку. Ще одна технологія, Fluent, дозволила ЦРУ шукати інформацію в текстових документах, причому запит вводиться англійською мовою і тут же перекладається на цілий ряд інших мов, а знайдена інформація з бази даних на різних мовах поступає дослідникові після автоматичного перекладу.

PAGE  1


 

А также другие работы, которые могут Вас заинтересовать

60163. Література бароко, класицизму, просвітництва 39.5 KB
  Мета: узагальнити вивчений матеріал, повторити найважливіші літературні твори зазначених напрямів, розвивати логічне мислення, навички роботи у групі, вміння чітко аргументувати свій вибір, сприяти підвищенню інтересу до вивчення літератури.
60164. Сценарий к 8 марта «Самой любимой и родной мамочке» 3.82 MB
  Милых мам и бабушек в этот светлый день Поздравлять и радовать никому не лень. Все вокруг стараются им цветы дарить, Поздравленья разные чаще говорить. (2 раза) Все преображается в этот день кругом, Женскими улыбками полон каждый дом.
60166. Дніпропетровщина – мій рідний край 142.5 KB
  Центр області – місто Дніпропетровськ. Географія Протяжність області з півночі на південь 130 кілометрів із заходу на схід – 300 кілометрів. Водойми В області протікає 217 річок з них 55 довжиною понад 25 км.
60167. Моя творчість тобі, рідний краю! Позакласний захід 170.5 KB
  Хто вони творчі люди Які вони талановиті діти Чи маємо ми змогу всі бути талановитими Як можемо розвивати свої здібності щоб розкрити природні таланти Саме на ці питання і спробуємо знайти відповідь на цьому уроці.
60168. Година спілкування, Україна – моя Батьківщина 142.84 KB
  Мета: розширювати та поглиблювати знання учнів про рідну Батьківщину, учити їх висловлювати своє ставлення до держави; формувати громадянські уявлення та патріотичні почуття приналежності до української нації...
60169. Жінки в долі та творчості Т.Шевченка 104.5 KB
  Щось до лона пригортає і з туманом розмовляє: Виходить Ганна з дитиною на руках: Ой тумане тумане Мій латаний талане Чому мене не сховаєш Отут серед лану Чому мене не задавиш У землю не вдавиш...
60170. Пожежонебезпечні і вибухонебезпечні речовини та матеріали 141 KB
  Міні-вистава Небазпечні іграшки Дійові особи: Хлопчики : Миколка Василько Андрійко Бабуся Марина Дівчинка Настя Два лікарі Міліціонер Скверик.
60171. Круглий стіл: «Попередження насильства в сімї» 148.5 KB
  Мета: сформулювати уявлення про насильство та розвинути знання про методи захисту від насильства, вміти протистояти насильству; висловлювати своє відношення до можливих випадків насильства.