14614

Моделювання репозиторію метаданих у сховищах даних

Лабораторная работа

Информатика, кибернетика и программирование

Лабораторна робота № 4 з дисципліни: Технології сховищ даних на тему: Моделювання репозиторію метаданих у сховищах даних Мета роботи: Вивчення порядку методів та засобів створення структури та складу метаданих для сховищ даних за схемою Захмана роз

Украинкский

2013-06-08

548.5 KB

7 чел.

Лабораторна робота № 4

з дисципліни:

«Технології сховищ даних»

на тему:

«Моделювання репозиторію метаданих у сховищах даних»


Мета роботи: Вивчення порядку, методів та засобів створення структури та складу метаданих для сховищ даних за схемою Захмана, розроблення засобів навігації метаданих.

 

Теоретичні відомості

Метадані (від  грецьк. Meta і лат. Data), буквально перекладається як «дані про  дані», інформація про  інший набір даних.

Одне з  корисних визначень наступне: «Метадані  - це структуровані, кодовані дані, які описують характеристики об'єктів-носіїв інформації, що сприяють ідентифікації, виявленню, оцінювання, керуванню цими об'єктами».

Майкл Брекет (Michael Brackett) визначає метадані (які він  називає «даними про  ресурси даних») як «будь-які дані про  інформаційні ресурси організації». Адрієн Танненбаум (Adrienne Tannenbaum) називає метадані «детальним описом сутності даних». Ці визначення розкривають формулювання «дані про  дані».

Тема ця підіймається відтоді, як існують дані: метадані були необхідні для опису значення і  властивостей інформації з  метою кращого її  розуміння, керування і  використання. Класичним прикладом є бібліотеки. Книги (дані) можна класифікувати, керувати ними і  знаходити тільки за допомогою відповідних метаданих (тобто заголовка, автора і  ключових слів змісту).

Зазвичай під метаданими розуміється будь-яка інформація, необхідна для аналізу, проектування, побудови, впровадження і  застосування в комп'ютерній системі. У разі інформаційних систем метадані особливо спрощують керування, створення запитів, повноцінне використання і  розуміння даних. Багато недавніх проектів, як наукові, так і  практичні, напрямлені на  вивчення метаданих. Ґенерування, зберігання і  керування метаданими допомагають в  підтримці використання величезних обсягів інформації, доступних в  наші дні в  будь-якій електронній формі. Оскільки все, з  чим працює комп'ютер, за суттю є даними, і  свого роду метадані супроводжують будь-які дані, то  це поняття дотичне до будь-якої сфери застосувань і набуває різних форм залежно від  застосування.

Метадані систем сховищ даних іноді розділяють на  два типи:

1) службові метадані, що використовуються для функцій витягання, перетворення і  завантаження, для перенесення інформації з  транзакційних систем у сховищі;

2) інтерфейсні метадані, що використовуються для опису екранів і  створення звітів.

Є наступні типи метаданих у  сховищі:

  •  метадані початкової системи:
  •  специфікації джерел даних, таких як репозиторії;
  •  описова інформація (наприклад, частота оновлення, юридичні обмеження і  методи доступу);
  •  інформація про  процеси, такі як графік завдань і  коди витягання;
    •  метадані перетворення даних:
  •  інформація про  отримання даних (наприклад, планування передавання даних і  результатів, а також відомості про  використання файлів);
  •  керування таблицями вимірів, наприклад, визначення вимірів і  присвоєння суроґатних ключів;
  •  перетворення і  аґреґація, наприклад, розширення і  відображення даних, програми (скрипти) завантаження СКБД, визначення аґреґатів даних;
  •  документування перевірок, робіт і  журналів, наприклад, журналів перетворення даних і  записів стеження за  походженням даних;
    •  метадані СКБД, такі як:
  •  зміст системних таблиць СКБД;
  •  рекомендації з опрацювання.

У загальному випадку, для користувача сховища даних потрібні метадані, принаймні, наступних типів.

  •  Описи структур даних, їх взаємозв'язків.
    •  Інформація про дані, що зберігаються у сховищі, і підтримувані ним аґреґати даних.
    •  Інформація про джерела даних і про міру їх достовірності. Одна і та ж інформація могла потрапити у сховище даних з різних джерел. Користувач повинен мати можливість взнати, яке джерело було вибране основним, і яким чином здійснюється узгодження і очищення даних.
    •  Інформація про періодичність оновлень даних. Бажано знати не тільки те, якому моменту часу відповідають необхідні для користувача дані, але і коли вони наступного разу будуть оновлені.
    •  Інформація про власників даних. Користувачу системи підтримки прийняття рішень може виявитися корисною інформація про наявність в системі даних, до яких він не має доступу, про власників цих даних і про дії, які він повинен зробити, щоб дістати доступ до даних.
    •  Статистичні оцінки часу виконання запитів. До виконання запиту корисно мати хоч би приблизну оцінку часу, який буде потрібний для отримання відповіді, і обсягу цієї відповіді.

Роль метаданих у сховищі

Найкраще можна пояснити сутність метаданих, описуючи їх роль і  призначення в реалізації процесів сховища даних. Метадані можна використовувати трьома способами:

  •  пасивно, забезпечуючи чітку документацію про структуру, процес розроблення і  використання системи СД; доступна документація необхідна всім учасникам (тобто кінцевим користувачам, системним адміністраторам, а також розробникам застосувань);
    •  активно, шляхом зберігання конкретних семантичних аспектів (наприклад, правил перетворення) у вигляді метаданих, які можна інтерпретувати і  використовувати під час виконання; у цьому випадку процеси сховища даних керуються метаданими. А отже, код (тобто активні метадані) і  додаткова документація погоджено і  уніфіковано керуються в  одному репозиторії, при цьому актуальність документації зростає;
    •  напівактивно, за рахунок зберігання статичної інформації (наприклад, визначень структур, специфікацій конфігурацій), яку прочитуватиме інший програмний компонент під час виконання; наприклад, опрацьовувачам запитів необхідні метадані для перевірки існування атрибутів; на відміну від  активного використання, тут метадані тільки читаються, але  не  викону-ються.

Створення і  керування метаданими служить двом цілям:

1) мінімізації робіт з розроблення і адміністрування СД;

2) ефективнішому витяганню інформації з  СД.

Перша мета, в основному, стосується:

  •  підтримки інтеґрації систем:
  •  схеми й  інтеґрація даних залежать від  метаданих, що описують структуру і  сенс окремих джерел даних і  цільових систем;
  •  правила перетворення можна застосувати до  початкових даних і  зберігати як мета дані;
  •  більше того, інтеґрація різних інструментів можлива тільки тоді, коли вони розділяють «дані», які в такому випадку є метаданими системи сховища даних;
    •  підтримки аналізу і  проектування нових застосувань:
  •  метадані підвищують контрольованість і  надійність процесу розроблення застосувань, забезпечуючи інформацію про  сенс даних, їх  структуру і джерела;
  •  метадані, що стосуються рішень з  проектування застосувань, можна використовувати повторно;
    •  підвищення гнучкості системи і  можливості повторного використання наявних програмних модулів:
  •  це можливо тільки для активного і  напівактивного використання метаданих; семантичні аспекти, що швидко змінюються, явним чином зберігаються у вигляді метаданих поза прикладними програмами;
  •  підтримка істотно простіша;
  •  систему можна розширити і  адаптувати без жодних труднощів;
  •  цей підхід також дає можливість повторного використання «фраґментів коду»;
    •  автоматизації адміністративних процесів.
  •  метадані керуються запуском різних процесів СД (наприклад, завантаження і  оновлення);
  •  інформація про  їх  виконання (журнали доступу, кількість доданих у сховищі записів і  т.ін.) також міститься в  репозиторії, легко доступному адміністратору;
    •  посилення механізмів безпеки:
  •  метадані повинні забезпечити правила доступу і  призначені для користувача права для всієї системи СД;
  •  керування доступом в  сховищі даних іноді вимагає застосування складних методів; наприклад, оперативне джерело може містити нешкідливу інформацію про  окремі показники роботи компанії, проте сумарні значення у сховищі іноді виявляються найважливішим секретом; з другого боку, персональні доходи кожного співробітника є таємницею, але  при цьому підсумкова сума зарплат в  СД  може зовсім не  бути критичною інформацією.

Друга мета відноситься до ефективного витягання інформації, а точні
ше до:

  •  підвищення якості даних. Якість даних визначається наступними характеристиками:

1) узгодженістю (чи є  подання даних однорідним, чи немає  дублікатів, даних з  пересічними або конфліктними визначеннями);

2)  повнотою (чи всі  дані присутні);

3) точністю (збігом значень, що зберігаються, і  фактичних);

4) своєчасністю (чи актуальне  значення, що зберігається у сховищі);

  •  правила перевірки якості даних;
    •  поліпшення взаємодії усередині системи сховища даних;
    •  поліпшення аналізу даних;
    •  застосування загальної термінології і  мови взаємодії усередині корпорації.

Правила перевірки якості даних необхідно задати, зберегти у вигляді метаданих і  перевіряти при кожному оновленні сховища даних. Крім того, висока якість вимагає підтримки контролю даних. Метадані забезпечують інформацію про  час створення і  про  автора даних, про  джерело, значення даних у момент отримання (про  спадковість даних), і  про  подальший шлях від  джерела до  поточного місцеперебування (data lineage — про  походження даних). Отже, користувачі можуть відновити ланцюжок, яким рухаються дані за час перетворення, і  перевірити точність поверненої інформації;

Поліпшення взаємодії усередині системи сховища даних. Взаємодія відбувається як за допомогою виконання простих запитів і  звітних застосувань, так і  з використанням складних аналітичних інструментів. Метадані забезпечують відомості про  значення даних, термінологію і  бізнес-концепції підприємства, а також їх  зв'язок з  даними. Тому метадані підвищують якість запитів за рахунок точнішого і  строгого формулювання, а також скорочують витрати на  користувачів, яким необхідний доступ, оцінка і  застосування відповідної інформації;

Поліпшення аналізу даних. Методи аналізу даних подані широко — починаючи від  простих застосувань звітності та систем підтримки прийняття рішень і  закінчуючи складними застосуваннями видобування даних. У  цьому напрямі метадані необхідні для розуміння предметної області і  її  подання у сховищі з  тим, щоб адекватно застосувати і  інтерпретувати результати;

Застосування загальної термінології і  мови взаємодії усередині корпорації. Доступність метаданих як унікального джерела документації для користувачів має і  інші переваги. Вона ґарантує узгоджені засоби взаємодії й інтерпретації інформації зі сховища, а також усуває двозначність і  забезпечує узгодженість відомостей усередині компанії, дозволяє розділяти знання і  досвід.

Метадані системи сховища даних містяться в  репозиторії — структурованій системі зберігання і  витягання, реалізованій на основі СКБД. Для інтерпретації метаданих необхідно зберігати структуру репозиторію (тобто схему метаданих) і  їх  семантику.

Для інформації про дані сховища доцільно застосовувати шестивимірну класифікаційну схему Захмана (Zachman) (відповідно до відповідей на запитання що? хто? де? коли? чому? як?):

  •  об'єкти ( що?);
    •  суб'єкти (хто?);
    •  місцезнаходження (де?);
    •      час (коли?);
    •  фактори впливу, чинники (чому?);
    •  способи (як?).

При цьому використовується наступна формалізація:

  •  сутність або вміст сховища даних;
    •  люди, які використовують сховище даних;
    •  місцерозташування даних, важливе з погляду керування сховищем даних;
    •  моменти завантаження даних і обчислення підсумкових таблиць;
    •  рушійні сили створення і розвитку сховища даних;
    •  дії, які виконуються з даними;
    •  повчальні метадані (як новий чинник, що використовуватиметься для підтримки розвитку моделі сховища даних).

Метадані зберігаються в окремій базі даних метаданих або репозиторії. Системне програмне забезпечення для створення репозиторію пропонується рядом компаній, в першу чергу, розробниками СКБД.

Рис. 1. Модель Захмана в контексті побудови метаданих сховища даних.

Важливість цього ключового аспекту сховища даних можна продемонструвати у різних аспектах:

  •  єдині правила найменування об’єктів,
    •  єдині одиниці вимірювання для однотипних об’єктів,
    •  єдине фізичне подання однотипних об’єктів,
    •  єдині атрибути подання однотипних об’єктів, тощо.


Хід роботи

Для створення двох тестових таблиць, дані в яких перетинаються відберемо користувачів за датою реєстрації. Результат вибору з двох новостворених таблиць представлено на рисунку 1:

select *

into Users1

from Users

where RegistrationDate<'2012-02-01'

select *

into Users2

from Users

where RegistrationDate>='2011-12-01'

Рис. 1. Результат вибірки з двох таблиць з даними, що перетинаються

  1.  Виконаємо запит на об’єднання. Результат на приведено рисунку 2:

select * from Users1

union

select * from Users2

Рис. 2. Вибірка з об’єднанням

  1.  Виконаємо запит на перетин. Результат на приведено рисунку 3:

select * from Users1

where UserId in (select UserId from Users2)

Рис. 3. Вибірка з перетином

  1.  Виконаємо запит на різницю. Результат на приведено рисунку 4:

select * from Users1

where UserId not in (select UserId from Users2)

Рис. 4. Вибірка з різницею

  1.  Виконаємо запит на виконання декартового добутку. Результат на приведено рисунку 5:

select * from Users1, Users2

Рис. 5. Вибірка з декортовим добутком

Висновок: Під час виконання даної лабораторної роботи, я вивчив порядок, методи та засоби проектування структури та складу метаданих для сховищ даних за схемою Захмана, розроблення засобів навігації метаданих.


 

А также другие работы, которые могут Вас заинтересовать

70928. Оперативно-календарне планування і контроль 100 KB
  Основними завданнями оперативно-календарного планування на підприємстві є: забезпечення ритмічного виробництва відповідно до встановлених обсягів та номенклатури виготовлення і збуту продукції; забезпечення рівномірності та комплектності завантаження устаткування...
70929. Матеріально-технічне забезпечення виробництва. Постачання матеріально-технічних ресурсів на робочі місця 247 KB
  Вивчення ринку сировини й матеріалів. Запаси матеріалів та регулювання їхніх обсягів. Однак служба матеріальнотехнічного забезпечення повинна перевіряти замовлення виробничих підрозділів з огляду на відповідність замовлених матеріалів технічним умовам та даним обліку наявних...
70930. Забезпечення операційної діяльності виробничою потужністю 176 KB
  Виробнича потужність підприємства -– це потенційно максимально можливий випуск продукції необхідної номенклатури і якості протягом планового періоду при повному завантаженні обладнання та виробничих площ у прийнятому режимі роботи з урахуванням застосування передової технології організації...
70931. Виробнича інфраструктура 248 KB
  Прикладом є виробництво різних видів енергії та тепла деталей для ремонту обладнання технологічного оснащення та інструменту. Виробнича програма енергетичного цеху в натуральних показниках охоплює такі види робіт: виробництво та розподіл електричної енергії в умовах...
70932. Витрати виробництва 112.5 KB
  Залежність витрат від зміни обсягів господарської діяльності Обсяг господарської діяльності Змінні витрати Постійні витрати Витрати по підприємству разом по підприємству на одиницю продукції разом по підприємству на одиницю продукції разом по підприємству на одиницю...
70933. Фінансове планування і контроль на підприємстві 162.5 KB
  Перелік основних бюджетів підприємства за їхнім цільовим призначенням Операційні Фінансові бюджет доходу; бюджет виробництва продукції виробнича програма; бюджет прямих матеріальних витрат; бюджет обсягів придбання матеріалів; бюджет витрат на оплату праці; бюджет загальновиробничих витрат...
70934. Планування і контроль оновлення продукції 134 KB
  В умовах ринкової економіки планування виробничої діяльності підприємства орієнтується на максимальне задоволення попиту потенційних споживачів продукції (робіт, послуг). Протягом свого життєвого циклу продукція на ринку переживає декілька етапів.
70935. Організаційно-технічний розвиток підприємства 91 KB
  Виробничий процес на промисловому підприємстві здійснюється постійно в усіх його підрозділах. Технічний же прогрес залежно від обсягу наявних ресурсів та технічної політики відбувається періодично. Однак, загалом для підприємства він повинен носити безперервний характер.
70936. Бізнес-планування 81.5 KB
  В умовах ринкової економіки будь-яку підприємницьку ідею – від формулювання власне задуму до втілення, – реалізують за планом, який прийнято називати бізнес-план. За цільовою орієнтацією розрізняють такі види бізнес-планів: на залучення грошових коштів для створення нового підприємства...