28525

Дані, інформація, її види та формалізація. Інформаційна технологія автоматизації процесу аналізу інформації

Лекция

Информатика, кибернетика и программирование

Технології виявлення знань в базах даних 1. Головною особливістю даних сьогодні є те що їх стає надзвичайно багато. При масовому застосуванні комп'ютерів виникла гігантська кількість джерел даних. Для прикладу можна взяти обсяг даних у всесвітній мережі Інтернет що збільшується щохвилини.

Украинкский

2013-08-20

170.5 KB

12 чел.

Лекція 2

Дані, інформація, її види та формалізація. Інформаційна технологія автоматизації процесу аналізу інформації.

Технології виявлення знань в базах даних

1. Дані, інформація, її види та формалізація

Метою моделювання бізнес-процесів є систематизація знань про компанію та її бізнес-процесах в наочній графічній або формальній формі для аналітичної обробки отриманої інформації.

Дані представляють собою спосіб представлення, збереження та елементарних операцій обробки інформації. Дані - це основа інформації, вони є вхідною інформацією при прийнятті рішень.

Дані можна збирати, обробляти, зберігати, змінювати форму їх представлення. Вони можуть створюватись, знищуватись, багаторазово використовуватись. Головною особливістю даних сьогодні є те, що їх стає надзвичайно багато. При масовому застосуванні комп'ютерів виникла гігантська кількість джерел даних. Для прикладу можна взяти обсяг даних у всесвітній мережі Інтернет, що збільшується щохвилини.

Можна виділити такі етапи обробки даних:

1) збір і реєстрація даних;

2) передача даних;

3) переробка та збереження даних;

4) підготовка даних для оцінки та інтерпретації;

5) пошук даних відповідно до запиту;

6) трансформація знань через інформацію в дані.

Ключовим поняттям маніпулювання даними є структура типу "файл", що представляє собою множину однотипних елементів (записів). Також файл займає певну ділянку на носії пам'яті і характеризується ім'ям, типом та іншими атрибутами. В свою чергу запис - це структура, яка складається з полів (мінімальної структури даних).

Використання даних включає три етапи:

  •  пошук;
  •  обробку;
  •  аналіз.

Результатом використання даних є інформація.

Зібрані дані перетворюються до єдиного формату, наприклад, таблиць Excel, текстових файлів, або компонентів довільної бази даних. Однією із важливих дій при цьому є визначення способу представлення даних. Як правило, вибирають один з наступних видів - число, рядок, дата, логічна змінна (так/ні). Визначити спосіб представлення (формалізувати) деякі дані буває легко - наприклад, об'єм продажів в гривнях - це певне число. Але, як правило, виникає ситуація, коли представлення чинника є невідомим. Найчастіше такі проблеми виникають з якісними характеристиками. Наприклад, відомо, що на обсяги продажів впливає якість товару (як для продажу побутової техніки чи одягу).

Якість - складне поняття, і якщо цей показник є важливим, то необхідно ввести спосіб його формалізації. Наприклад, визначати якість за кількістю браку на тисячу одиниць продукції, або експертно оцінювати, розбивши на декілька категорій - відмінно/ добре/ задовільно/ погано.

Також дані повинні бути уніфікованими - одні й ті ж самі дані скрізь повинні описуватись однаково. Часто при видобуванні знань основну увагу приділяють механізмам аналізу даних, не враховуючи важливість попередньої обробки та очищення даних. Очевидно, що некоректні початкові дані призводять до некоректних висновків. Зазначимо, що в більшості випадків джерелом інформації для аналітичних систем є сховище даних, в якому акумулюються відомості з різнорідних джерел, тому гострота проблеми суттєво зростає.

Для дослідження процесів різної природи дані повинні бути підготовлені спеціальним чином, наприклад впорядковані та невпорядковані. Впорядковані дані потрібні для вирішення задач прогнозування - коли визначають хід того чи іншого процесу в майбутньому на основі наявних хронологічних даних.

Як правило, одним з параметрів виступає дата або час, проте можуть використовуватись довільні відліки, наприклад, покази лічильників, зняті з певною періодичністю.

Невпорядковані дані потрібні для задач, де часовий чинник не має значення, наприклад, оцінка кредитоспроможності, діагностика, сегментація споживачів. В таких випадках ситуація вважається статичною і тому інформація про те, що одна подія відбулась раніше, буде неістотною.

Для невпорядкованих даних кожному стовпцю відповідає чинник, а в кожний рядок заноситься приклад (ситуація, прецедент). Впорядкованість рядків не є обов'язковою.

Найважливішими характеристиками інформації є точність, достовірність, повнота, актуальність, оперативність.

Точність інформації визначається припустимим рівнем її спотворення по відношенню до поставленого завдання. Достовірність інформації визначається її властивістю відображати реально існуючі об'єкти з необхідною точністю. Оперативність інформації характеризує її актуальність за умов зміни ситуації.

Обов'язкова вимога до інформації полягає в наявності її носія, джерела і приймача, а також встановленого каналу зв'язку між ними.

Особливе значення має здатність інформації перетворюватись на нові знання (процес розглянуто в попередньому розділі), які можуть бути використані для прийняття управлінських рішень і поповнень знань управлінського персоналу.

Інформація може бути внутрішньою або зовнішньою по відношенню до певного об'єкта, вхідною або вихідною: внутрішня інформація циркулює лише всередині організації чи установи; зовнішня надходить від інших об'єктів. Поділ інформації на вхідну і вихідну дозволяє визначити пропускну здатність системи, що здійснює обробку інформації.

Поняття "інформація" розглядається лише за наявності джерела інформації та її одержувача, а також каналу зв'язку між ними.

Інформація - довільні відомості про подію, сутність чи процес, що є об'єктом операцій сприйняття, перетворення, зберігання, використання та передачі.

Інформація використовується у всіх галузях людської життєдіяльності; будь-який взаємозв'язок і координація дій є можливими тільки завдяки інформації.

Інформація виникає або при інтерпретації даних користувачем, або при передачі знань між користувачами чи при перетворенні знань у дані.

Як правило, етап збереження інформації не є обов’язковим, оскільки при  прийнятті рішення інформація втрачає свою значимість і інформація трансформується у нові знання.

Рис.1. Цикл перетворення даних в знання

В інформаційній системі поняття "інформація" пов'язано із сутністю процесів, а поняття "знання" - з їх якістю. Точніше зв'язок понять "інформація" та "знання" можна охарактеризувати на прикладі категорій "частина - ціле".

Нові знання можуть породжуватись лише наступними методами:

  •  цілеспрямоване навчання (передача інформації безпосередньо за схемою "вчитель-учень");
  •  вивчення даних (самоосвіта, опрацювання відповідних джерел);
  •  безпосереднє спостереження явищ, процесів, подій, об'єктів;
  •  осмислення наявних знань.

В залежності від предметної області і специфіки експлуатації інформаційних систем реалізація інформаційних процесів може вимагати як подальшої декомпозиції фаз, так і об'єднання кількох процесів в один.

2. Інформаційна технологія автоматизації процесу аналізу інформації

Для автоматичного одержання нових знань з даних використовують інформаційні технології. Процес переробки інформації можна сприймати як технологію.

Інформаційна технологія - це процес або сукупність процесів, що використовує засоби та методи накопичення, обробки і передачі первинної інформації для отримання інформації нової якості про стан об'єкту, процесу або явища.

ІТ можна представити у вигляді схеми (рис.1)

Рис.1. Інформаційна технологія

Основними характеристиками ІТ є:

  •  об'єктом обробки є дані;
  •  метою обробки є отримання інформації;
  •  засобами реалізації процесу в ІТ є програмні, апаратні, програмно-апаратні обчислювальні комплекси;
  •  процеси обробки даних розділяються на операції у відповідності з даною предметною областю;
  •  вибір керуючих дій процесами обробки здійснюється особами, що приймають рішення;
  •  критерієм оптимізації процесу обробки є своєчасність подання інформації користувачу, її достовірність, надійність, зрозумілість та повнота.

Інформаційна технологія повинна давати можливість оцінити вплив рішень, які приймаються при створенні інформаційної технології на підвищення ефективності тих процесів, що вона обслуговує, оскільки інформаційні процеси є вторинними відносно основних процесів даної предметної області.

Практика використання інформаційних технологій для моделювання та автоматизації підтримки прийняття рішень в управлінні соціально-економічними процесами тісно пов'язана із постійним розв'язанням задач аналізу значних обсягів інформації. Особливої актуальності аналіз інформації набуває при потребі прийняття рішень для управління різними процесами. Прикладом може служити аналіз значних обсягів економічної інформації.

Для його проведення можуть використовуватись методи, що ґрунтуються на основі інструментальних засобів та успішно застосовуються для складного аналізу статистичних даних шляхом прямого програмування інструментальними мовами. При цьому спочатку будуються економіко-математичні моделі, а потім - здійснюється їх комп'ютерна реалізація з використанням інструментальних засобів - мов програмування, серед яких необхідно відзначити мову програмування.

Інша група методів аналізу значних обсягів економічних даних ґрунтується на використанні пакетів прикладного програмного забезпечення. Так, наприклад, для систематизованої обробки значних обсягів табличних даних на ПК під управлінням операційних систем сімейства Microsoft Windows використовуються процесори електронних таблиць Microsoft Excel, спеціалізовані програмні пакети StatSoft Statistica, StatGraphics Plus, SPSS SigmaPlot та інші. Зазначені програмні засоби мають потужні можливості обробки та аналізу даних, проте їх спільними недоліками є орієнтованість виключно на роботу під управлінням операційних систем сімейства MS Windows та порівняно висока вартість ліцензій на офіційне використання.

На практичних заняттях ми розглянемо пакет «Аналіз даних» MS Excel. Він містить такі функції:

  •  дисперсійний аналіз;
  •  кореляційний аналіз;
  •  коваріаційний аналіз;
  •  описова статистика;
  •  експоненційне згладжування;
  •  регресія;
  •  ковзне середнє;
  •  генератор випадкових чисел;
  •  гістограма;
  •  аналіз Фур’є.

3. Технологія виявлення знань в базах даних (Knowledge Discovery in Databases)

Системи підтримки прийняття рішень, які містять базу знань і розробляються з використанням методів штучного інтелекту, називаються системами підтримки прийняття рішень на базі знань (Knowledge-based Decision Support Systems). Знання в цьому сенсі є інформацією, яка зберігається в пам'яті систем штучного інтелекту, містить в собі відомості про об'єкти і зв'язки предметної області, процеси взаємодії об'єктів в часі і просторі, яка містить правила, на основі яких виконується логічне доведення.

Виявлення знань в базах даних (Knowledge Discovery in Databases, KDD) - це послідовність дій, яку необхідно виконати для побудови моделі (видобування знань). Ця послідовність не описує певний алгоритм або математичний апарат, не залежить від наочної області. Це - набір операцій, комбінуючи які, можна отримати потрібне рішення.

KDD включає етапи підготовки даних, вибору інформативних ознак, очищення даних, застосування методів видобування знань, кінцевої обробки даних, інтерпретації отриманих результатів. Основою цього процесу є методи, що дозволяють знаходити закономірності і знання. Стисло розглянемо кроки, що виконуються на кожному етапі KDD (рис.3).

Підготовка початкового набору даних, у тому числі з різних джерел, вибору значущих параметрів, тощо. Для цього повинні існувати розвинуті інструменти доступу до різних джерел даних.

Попередня обробка даних. Дані можуть бути неповними, містити шуми, аномальні значення і т.д. Крім того, вони можуть бути в надмірний чи недостатній кількості.

Деякі задачі потребують доповнення даних певною апріорною інформацією. Якщо подати дані на вхід системи в існуючому (початковому) вигляді, то на виході не будуть отримані корисні знання. Вхідні дані повинні бути якісними та коректними.

Рис.3. Етапи КDD

Трансформація, нормалізація даних. Цей крок необхідний для тих методів, які вимагають представлення початкових даних в певному вигляді. Різні алгоритми аналізу вимагають спеціальним чином підготовлені дані, наприклад, для прогнозування необхідно перетворити часовий ряд за допомогою плаваючого вікна. До задач трансформації даних відносяться: плаваюче вікно, зведення типів, виділення часових інтервалів, перетворення безперервних значень в дискретні і навпаки, сортування, групування та інше.

Видобування знань. На цьому кроці застосовуються різні алгоритми для видобування знань. Це нейронні мережі, дерева рішень, алгоритми кластеризації, виявлення асоціацій, тощо.

Кінцева обробка даних - інтерпретація результатів і застосування отриманих знань в бізнес-додатках. Наприклад, необхідно отримати прогноз обсягів продажів на наступний місяць. Є мережа магазинів роздрібної торгівлі. Першим кроком буде збір хронології продажів в кожному магазині і об'єднання її в загальну вибірку даних. Наступний крок - попередня обробка зібраних даних: їх групування по місяцях, згладжування кривої продажів, усунення чинників, що мало впливають на обсяги продажів.

Далі будується модель залежності обсягів продажів від вибраних чинників. Це можна зробити за допомогою лінійної регресії або нейронних мереж. Так одержується прогноз - на вхід подається модель хронології продажів. Знаючи прогнозне значення, його можна використовувати, наприклад, в додатках оптимізації для кращого розміщення товару на складі.

Головна перевага КDD в тому, що отримані у такий спосіб знання можна розповсюджувати. Побудовану однією людиною модель можуть використовувати інші, без необхідності розуміння методик, за допомогою якої ці моделі побудовані.

Резюме

Обов'язкова вимога до інформації полягає в наявності її носія, джерела і приймача, а також встановленого каналу зв'язку між ними. Інформація є одним з видів ресурсів, які використовуються людиною в трудовій діяльності. Одним з найпоширеніших видів інформації є економічна інформація, яка характеризує процеси виробництва, розподілу, обміну і споживання матеріальних благ та послуг.

Для забезпечення повноцінного і ефективного обміну інформацією як всередині інформаційної системи, так і між різними інформаційними системами, автоматизації роботи з даними різних типів, необхідно уніфікувати та стандартизувати форму представлення інформації без зміни її змісту, для чого служить система класифікації і кодування, причому кодування є засобом вираження елементів класифікації.

В основі будь-якого процесу лежить визначена технологія - набір способів, засобів вибору та здійснення керуючого процесу з множини можливих його реалізацій. Інформаційна технологія оперує такими об'єктами, як інформація (довільні відомості про подію, сутність чи процес, знання (сукупність відомостей з певної предметної області) та дані (відомості, які є необхідними для формулювання висновків і прийняття рішень).

Ключові слова

Технологія, об'єкт, технологічний процес, інформаційний процес, життєвий цикл, дані, інформація, знання.

Запитання і завдання для обговорення та самоперевірки:

► Дані, етапи їх обробки, використання.

► Характеристика даних: якість, уніфікованість, впорядкованість.

► Назвіть найважливіші характеристики інформації.

► Що таке вхідна і вихідна інформація і яка її роль в характеристиці системи?

► Отримання нових знань, методи їх отримання.

► Визначення інформаційних технологій. Її представлення

► Основні характеристики інформаційних технологій

► Використання інформаційних технологій

► Можливості пакету «Аналіз даних»

 Що називають системами підтримки прийняття рішень на базі знань

► Що розуміють під виявленням знань в базах даних (KDD), його етапи

► Попередня обробка даних

► Трансформація, нормалізація даних

► Видобування знань

PAGE  7


 

А также другие работы, которые могут Вас заинтересовать

1021. Устройство кузова грузового вагона открытого типа 519 KB
  Грузовой вагон предназначен для помещения груза и перевозки грузов на которые не влияют атмосферные осадки.
1022. Выбор офисного оборудования для фирмы 363.5 KB
  Общие сведения о сканерах, их разновидности, технологии сканирования, характеристики и определяющие факторы выбора. Технико-экономический анализ технических и стоимостных характеристик принтеров. Описание выбранного принтера HP OfficeJet Pro K5400dn и расчет эквивалентного процента прибыли
1023. Расчет зоны ТО-1 в автотранспортном предприятии 558.5 KB
  Корректирование периодичности ТО и пробега автомобилей до КР. Расчет годового объема работ по ТО, ТР и самообслуживанию. Техника безопасности и пожарная безопасность, охрана труда, окружающая среда. Распределение рабочих по специальностям, квалификации, рабочим местам. Назначение и область применения приспособления. Подбор технологического оборудования.
1024. Особенности государственного и правового развития Древней Греции 151.5 KB
  Государственный механизм в Древней Греции. Полномочия органов государственной власти. Политически-правовой режим, административно-территориальное устройство, форма правления. Основные реформы в области государственного управления и законодательства.
1025. Построение защищенной информационной системы для учреждения 225.5 KB
  Технико-экономическое обоснование разработки вычислительной сети. Выбор конфигурации вычислительной сети. Проектирование структурной схемы вычислительной сети. Калькуляция затрат на построение сети.
1026. Общие вопросы практической философии 524.5 KB
  Проблема рождения философии. Космоцентризм и основные понятия античной философии. Бог, человек и мир в средневековой христианской философии. Антропоцентризм и гуманизм в философской мысли Возрождения. Система и метод философии Гегеля. П.Я. Чаадаев о российской истории и историософии.
1027. Исследование системы биометрической аутентификации пользователя ПК по клавиатурному почерку 422 KB
  Теоретические принципы построения биометрических систем динамической аутентификации личности по рукописному и клавиатурному почеркам. Получение вектора биометрических параметров при анализе рукописного почерка. Аутентификация пользователя на основе измерения близости образа к биометрическому эталону мерой Хэмминга. Биометрическая аутентификация на основе аддитивной модели сравнения биометрических характеристик пользователей.
1028. Создание и обработка изображений для печатной рекламы средствами программы Corel Draw 573.5 KB
  Краткое описание продукта Corel Draw. Особенности разработки элементов наружной рекламы в пакетах Corel Draw. Состав изображений. Графические объекты. Использование пиксельных изображений в Corel Draw и функция импорт. Перспектива, тени и экструзия. Цветовые палитры и модели цвета.
1029. Методика викладання математики та її зв'язок з іншими науками 453.5 KB
  Огляд програмного забезпечення навчального процесу у вищій школі. Математичні методи наукових досліджень і сучасне природознавство. Сучасні тенденції розвитку математичної освіти у середній і вищій школі. Філософські проблеми математики в історичному контексті. Формування наукового світогляду при вивченні математики. Методика формування математичних понять. Організація, зміст і перспективи дистанційної освіти.