28525

Дані, інформація, її види та формалізація. Інформаційна технологія автоматизації процесу аналізу інформації

Лекция

Информатика, кибернетика и программирование

Технології виявлення знань в базах даних 1. Головною особливістю даних сьогодні є те що їх стає надзвичайно багато. При масовому застосуванні комп'ютерів виникла гігантська кількість джерел даних. Для прикладу можна взяти обсяг даних у всесвітній мережі Інтернет що збільшується щохвилини.

Украинкский

2013-08-20

170.5 KB

12 чел.

Лекція 2

Дані, інформація, її види та формалізація. Інформаційна технологія автоматизації процесу аналізу інформації.

Технології виявлення знань в базах даних

1. Дані, інформація, її види та формалізація

Метою моделювання бізнес-процесів є систематизація знань про компанію та її бізнес-процесах в наочній графічній або формальній формі для аналітичної обробки отриманої інформації.

Дані представляють собою спосіб представлення, збереження та елементарних операцій обробки інформації. Дані - це основа інформації, вони є вхідною інформацією при прийнятті рішень.

Дані можна збирати, обробляти, зберігати, змінювати форму їх представлення. Вони можуть створюватись, знищуватись, багаторазово використовуватись. Головною особливістю даних сьогодні є те, що їх стає надзвичайно багато. При масовому застосуванні комп'ютерів виникла гігантська кількість джерел даних. Для прикладу можна взяти обсяг даних у всесвітній мережі Інтернет, що збільшується щохвилини.

Можна виділити такі етапи обробки даних:

1) збір і реєстрація даних;

2) передача даних;

3) переробка та збереження даних;

4) підготовка даних для оцінки та інтерпретації;

5) пошук даних відповідно до запиту;

6) трансформація знань через інформацію в дані.

Ключовим поняттям маніпулювання даними є структура типу "файл", що представляє собою множину однотипних елементів (записів). Також файл займає певну ділянку на носії пам'яті і характеризується ім'ям, типом та іншими атрибутами. В свою чергу запис - це структура, яка складається з полів (мінімальної структури даних).

Використання даних включає три етапи:

  •  пошук;
  •  обробку;
  •  аналіз.

Результатом використання даних є інформація.

Зібрані дані перетворюються до єдиного формату, наприклад, таблиць Excel, текстових файлів, або компонентів довільної бази даних. Однією із важливих дій при цьому є визначення способу представлення даних. Як правило, вибирають один з наступних видів - число, рядок, дата, логічна змінна (так/ні). Визначити спосіб представлення (формалізувати) деякі дані буває легко - наприклад, об'єм продажів в гривнях - це певне число. Але, як правило, виникає ситуація, коли представлення чинника є невідомим. Найчастіше такі проблеми виникають з якісними характеристиками. Наприклад, відомо, що на обсяги продажів впливає якість товару (як для продажу побутової техніки чи одягу).

Якість - складне поняття, і якщо цей показник є важливим, то необхідно ввести спосіб його формалізації. Наприклад, визначати якість за кількістю браку на тисячу одиниць продукції, або експертно оцінювати, розбивши на декілька категорій - відмінно/ добре/ задовільно/ погано.

Також дані повинні бути уніфікованими - одні й ті ж самі дані скрізь повинні описуватись однаково. Часто при видобуванні знань основну увагу приділяють механізмам аналізу даних, не враховуючи важливість попередньої обробки та очищення даних. Очевидно, що некоректні початкові дані призводять до некоректних висновків. Зазначимо, що в більшості випадків джерелом інформації для аналітичних систем є сховище даних, в якому акумулюються відомості з різнорідних джерел, тому гострота проблеми суттєво зростає.

Для дослідження процесів різної природи дані повинні бути підготовлені спеціальним чином, наприклад впорядковані та невпорядковані. Впорядковані дані потрібні для вирішення задач прогнозування - коли визначають хід того чи іншого процесу в майбутньому на основі наявних хронологічних даних.

Як правило, одним з параметрів виступає дата або час, проте можуть використовуватись довільні відліки, наприклад, покази лічильників, зняті з певною періодичністю.

Невпорядковані дані потрібні для задач, де часовий чинник не має значення, наприклад, оцінка кредитоспроможності, діагностика, сегментація споживачів. В таких випадках ситуація вважається статичною і тому інформація про те, що одна подія відбулась раніше, буде неістотною.

Для невпорядкованих даних кожному стовпцю відповідає чинник, а в кожний рядок заноситься приклад (ситуація, прецедент). Впорядкованість рядків не є обов'язковою.

Найважливішими характеристиками інформації є точність, достовірність, повнота, актуальність, оперативність.

Точність інформації визначається припустимим рівнем її спотворення по відношенню до поставленого завдання. Достовірність інформації визначається її властивістю відображати реально існуючі об'єкти з необхідною точністю. Оперативність інформації характеризує її актуальність за умов зміни ситуації.

Обов'язкова вимога до інформації полягає в наявності її носія, джерела і приймача, а також встановленого каналу зв'язку між ними.

Особливе значення має здатність інформації перетворюватись на нові знання (процес розглянуто в попередньому розділі), які можуть бути використані для прийняття управлінських рішень і поповнень знань управлінського персоналу.

Інформація може бути внутрішньою або зовнішньою по відношенню до певного об'єкта, вхідною або вихідною: внутрішня інформація циркулює лише всередині організації чи установи; зовнішня надходить від інших об'єктів. Поділ інформації на вхідну і вихідну дозволяє визначити пропускну здатність системи, що здійснює обробку інформації.

Поняття "інформація" розглядається лише за наявності джерела інформації та її одержувача, а також каналу зв'язку між ними.

Інформація - довільні відомості про подію, сутність чи процес, що є об'єктом операцій сприйняття, перетворення, зберігання, використання та передачі.

Інформація використовується у всіх галузях людської життєдіяльності; будь-який взаємозв'язок і координація дій є можливими тільки завдяки інформації.

Інформація виникає або при інтерпретації даних користувачем, або при передачі знань між користувачами чи при перетворенні знань у дані.

Як правило, етап збереження інформації не є обов’язковим, оскільки при  прийнятті рішення інформація втрачає свою значимість і інформація трансформується у нові знання.

Рис.1. Цикл перетворення даних в знання

В інформаційній системі поняття "інформація" пов'язано із сутністю процесів, а поняття "знання" - з їх якістю. Точніше зв'язок понять "інформація" та "знання" можна охарактеризувати на прикладі категорій "частина - ціле".

Нові знання можуть породжуватись лише наступними методами:

  •  цілеспрямоване навчання (передача інформації безпосередньо за схемою "вчитель-учень");
  •  вивчення даних (самоосвіта, опрацювання відповідних джерел);
  •  безпосереднє спостереження явищ, процесів, подій, об'єктів;
  •  осмислення наявних знань.

В залежності від предметної області і специфіки експлуатації інформаційних систем реалізація інформаційних процесів може вимагати як подальшої декомпозиції фаз, так і об'єднання кількох процесів в один.

2. Інформаційна технологія автоматизації процесу аналізу інформації

Для автоматичного одержання нових знань з даних використовують інформаційні технології. Процес переробки інформації можна сприймати як технологію.

Інформаційна технологія - це процес або сукупність процесів, що використовує засоби та методи накопичення, обробки і передачі первинної інформації для отримання інформації нової якості про стан об'єкту, процесу або явища.

ІТ можна представити у вигляді схеми (рис.1)

Рис.1. Інформаційна технологія

Основними характеристиками ІТ є:

  •  об'єктом обробки є дані;
  •  метою обробки є отримання інформації;
  •  засобами реалізації процесу в ІТ є програмні, апаратні, програмно-апаратні обчислювальні комплекси;
  •  процеси обробки даних розділяються на операції у відповідності з даною предметною областю;
  •  вибір керуючих дій процесами обробки здійснюється особами, що приймають рішення;
  •  критерієм оптимізації процесу обробки є своєчасність подання інформації користувачу, її достовірність, надійність, зрозумілість та повнота.

Інформаційна технологія повинна давати можливість оцінити вплив рішень, які приймаються при створенні інформаційної технології на підвищення ефективності тих процесів, що вона обслуговує, оскільки інформаційні процеси є вторинними відносно основних процесів даної предметної області.

Практика використання інформаційних технологій для моделювання та автоматизації підтримки прийняття рішень в управлінні соціально-економічними процесами тісно пов'язана із постійним розв'язанням задач аналізу значних обсягів інформації. Особливої актуальності аналіз інформації набуває при потребі прийняття рішень для управління різними процесами. Прикладом може служити аналіз значних обсягів економічної інформації.

Для його проведення можуть використовуватись методи, що ґрунтуються на основі інструментальних засобів та успішно застосовуються для складного аналізу статистичних даних шляхом прямого програмування інструментальними мовами. При цьому спочатку будуються економіко-математичні моделі, а потім - здійснюється їх комп'ютерна реалізація з використанням інструментальних засобів - мов програмування, серед яких необхідно відзначити мову програмування.

Інша група методів аналізу значних обсягів економічних даних ґрунтується на використанні пакетів прикладного програмного забезпечення. Так, наприклад, для систематизованої обробки значних обсягів табличних даних на ПК під управлінням операційних систем сімейства Microsoft Windows використовуються процесори електронних таблиць Microsoft Excel, спеціалізовані програмні пакети StatSoft Statistica, StatGraphics Plus, SPSS SigmaPlot та інші. Зазначені програмні засоби мають потужні можливості обробки та аналізу даних, проте їх спільними недоліками є орієнтованість виключно на роботу під управлінням операційних систем сімейства MS Windows та порівняно висока вартість ліцензій на офіційне використання.

На практичних заняттях ми розглянемо пакет «Аналіз даних» MS Excel. Він містить такі функції:

  •  дисперсійний аналіз;
  •  кореляційний аналіз;
  •  коваріаційний аналіз;
  •  описова статистика;
  •  експоненційне згладжування;
  •  регресія;
  •  ковзне середнє;
  •  генератор випадкових чисел;
  •  гістограма;
  •  аналіз Фур’є.

3. Технологія виявлення знань в базах даних (Knowledge Discovery in Databases)

Системи підтримки прийняття рішень, які містять базу знань і розробляються з використанням методів штучного інтелекту, називаються системами підтримки прийняття рішень на базі знань (Knowledge-based Decision Support Systems). Знання в цьому сенсі є інформацією, яка зберігається в пам'яті систем штучного інтелекту, містить в собі відомості про об'єкти і зв'язки предметної області, процеси взаємодії об'єктів в часі і просторі, яка містить правила, на основі яких виконується логічне доведення.

Виявлення знань в базах даних (Knowledge Discovery in Databases, KDD) - це послідовність дій, яку необхідно виконати для побудови моделі (видобування знань). Ця послідовність не описує певний алгоритм або математичний апарат, не залежить від наочної області. Це - набір операцій, комбінуючи які, можна отримати потрібне рішення.

KDD включає етапи підготовки даних, вибору інформативних ознак, очищення даних, застосування методів видобування знань, кінцевої обробки даних, інтерпретації отриманих результатів. Основою цього процесу є методи, що дозволяють знаходити закономірності і знання. Стисло розглянемо кроки, що виконуються на кожному етапі KDD (рис.3).

Підготовка початкового набору даних, у тому числі з різних джерел, вибору значущих параметрів, тощо. Для цього повинні існувати розвинуті інструменти доступу до різних джерел даних.

Попередня обробка даних. Дані можуть бути неповними, містити шуми, аномальні значення і т.д. Крім того, вони можуть бути в надмірний чи недостатній кількості.

Деякі задачі потребують доповнення даних певною апріорною інформацією. Якщо подати дані на вхід системи в існуючому (початковому) вигляді, то на виході не будуть отримані корисні знання. Вхідні дані повинні бути якісними та коректними.

Рис.3. Етапи КDD

Трансформація, нормалізація даних. Цей крок необхідний для тих методів, які вимагають представлення початкових даних в певному вигляді. Різні алгоритми аналізу вимагають спеціальним чином підготовлені дані, наприклад, для прогнозування необхідно перетворити часовий ряд за допомогою плаваючого вікна. До задач трансформації даних відносяться: плаваюче вікно, зведення типів, виділення часових інтервалів, перетворення безперервних значень в дискретні і навпаки, сортування, групування та інше.

Видобування знань. На цьому кроці застосовуються різні алгоритми для видобування знань. Це нейронні мережі, дерева рішень, алгоритми кластеризації, виявлення асоціацій, тощо.

Кінцева обробка даних - інтерпретація результатів і застосування отриманих знань в бізнес-додатках. Наприклад, необхідно отримати прогноз обсягів продажів на наступний місяць. Є мережа магазинів роздрібної торгівлі. Першим кроком буде збір хронології продажів в кожному магазині і об'єднання її в загальну вибірку даних. Наступний крок - попередня обробка зібраних даних: їх групування по місяцях, згладжування кривої продажів, усунення чинників, що мало впливають на обсяги продажів.

Далі будується модель залежності обсягів продажів від вибраних чинників. Це можна зробити за допомогою лінійної регресії або нейронних мереж. Так одержується прогноз - на вхід подається модель хронології продажів. Знаючи прогнозне значення, його можна використовувати, наприклад, в додатках оптимізації для кращого розміщення товару на складі.

Головна перевага КDD в тому, що отримані у такий спосіб знання можна розповсюджувати. Побудовану однією людиною модель можуть використовувати інші, без необхідності розуміння методик, за допомогою якої ці моделі побудовані.

Резюме

Обов'язкова вимога до інформації полягає в наявності її носія, джерела і приймача, а також встановленого каналу зв'язку між ними. Інформація є одним з видів ресурсів, які використовуються людиною в трудовій діяльності. Одним з найпоширеніших видів інформації є економічна інформація, яка характеризує процеси виробництва, розподілу, обміну і споживання матеріальних благ та послуг.

Для забезпечення повноцінного і ефективного обміну інформацією як всередині інформаційної системи, так і між різними інформаційними системами, автоматизації роботи з даними різних типів, необхідно уніфікувати та стандартизувати форму представлення інформації без зміни її змісту, для чого служить система класифікації і кодування, причому кодування є засобом вираження елементів класифікації.

В основі будь-якого процесу лежить визначена технологія - набір способів, засобів вибору та здійснення керуючого процесу з множини можливих його реалізацій. Інформаційна технологія оперує такими об'єктами, як інформація (довільні відомості про подію, сутність чи процес, знання (сукупність відомостей з певної предметної області) та дані (відомості, які є необхідними для формулювання висновків і прийняття рішень).

Ключові слова

Технологія, об'єкт, технологічний процес, інформаційний процес, життєвий цикл, дані, інформація, знання.

Запитання і завдання для обговорення та самоперевірки:

► Дані, етапи їх обробки, використання.

► Характеристика даних: якість, уніфікованість, впорядкованість.

► Назвіть найважливіші характеристики інформації.

► Що таке вхідна і вихідна інформація і яка її роль в характеристиці системи?

► Отримання нових знань, методи їх отримання.

► Визначення інформаційних технологій. Її представлення

► Основні характеристики інформаційних технологій

► Використання інформаційних технологій

► Можливості пакету «Аналіз даних»

 Що називають системами підтримки прийняття рішень на базі знань

► Що розуміють під виявленням знань в базах даних (KDD), його етапи

► Попередня обробка даних

► Трансформація, нормалізація даних

► Видобування знань

PAGE  7


 

А также другие работы, которые могут Вас заинтересовать

71814. НАЛОГ КАК КАТЕГОРИЯ НАЛОГОВОГО ПРАВА 92 KB
  Одной из актуальных проблем налогового права выступает необходимость скорейшего совершенствования и унификации понятийного аппарата в сфере правового регулирования налогообложения. Обращаясь в связи с этим к рассмотрению налогово-правовой категории налога необходимо...
71815. ЭВОЛЮЦИЯ НАЛОГОВО-ПРАВОВЫХ МЕТОДОВ РЕГУЛИРОВАНИЯ ЭКОНОМИКИ СУБЪЕКТА РОССИЙСКОЙ ФЕДЕРАЦИИ С НАЧАЛА 90-Х ГОДОВ XX ВЕКА 145 KB
  В начале 90-х годов произошло существенное изменение роли налогов в экономике России. наделение субъектов Федерации самостоятельными источниками доходов и самостоятельными направлениями их расходования.
71816. ОРГАНИЗАЦИОННО-ТАКТИЧЕСКИЕ ОСНОВЫ РАБОЧЕГО И ЗАКЛЮЧИТЕЛЬНОГО ЭТАПОВ НАЛОЖЕНИЯ АРЕСТА НА ИМУЩЕСТВО 103.5 KB
  Рабочий этап наложения ареста на имущество складывается из трех последовательно сменяющих друг друга стадий предварительной обзорной и детальной. Предварительная стадия включает в себя ряд последовательно выполняемых действий в число которых входят: прибытие на место производства...
71817. Банковская система и её роль в национальной экономике. Особенности её развития в РБ 483.22 KB
  Объект исследования банковская система в Республике Беларусь. Предмет исследования деятельность банков в рамках национальной банковской системы. Цель работы: изучить состояние а также выявить перспективы банковской системы в Республике Беларусь.
71818. Проектирование системы отопления в доме отдыха поездных бригад на узловой станции 361 KB
  Исходные данные для проектирования Теплотехническая часть Наружная стена (НС) Наружные и входные двери (НДВ) Бесчердачное перекрытие-потолок (ПТ) Перекрытие над неотапливаемым подвалом (ПЛ) Окна и балконные двери (ОК) Результаты теплотехнических расчетов Определение потерь теплоты помещениями...
71819. Тяговый электродвигатель НБ-514 70.46 KB
  Двигатель тяговый НБ-514 предназначен для индивидуального привода колесных пар электровозов переменного тока через двухстороннюю жесткую косозубую передачу. Подвеска тягового электродвигателя опорно-осевая.
71820. Разработка САУ процессом копчения продуктов 156.5 KB
  В данном курсовом проекте описывается анализ и синтез САУ процессом копчения продуктов с регулятором в контуре управления. Составляются математическое описание объекта управления исполнительных и измерительных устройств.
71821. Понятия информационной технологии, эволюция их роль в развитии экономики и обществе 93.8 KB
  Целью исследования является определение роли информационных технологий в формировании социальное пространства. Достижение цели работы обусловило постановку и решение следующих взаимосвязанных задач: охарактеризовать этапы развития компьютерных технологий...
71822. Разработка алгоритма преобразования латинского прямоугольника в латинский квадрат 206 KB
  Латинские квадраты существуют для любого n достаточно взять таблицу Кэли аддитивной группы кольца : lij= ij1 mod n Число латинских квадратов Точная формула для числа Ln латинских квадратов nго порядка неизвестна. Пример нормализованного латинского квадрата: Число Rn...