14614

Моделювання репозиторію метаданих у сховищах даних

Лабораторная работа

Информатика, кибернетика и программирование

Лабораторна робота № 4 з дисципліни: Технології сховищ даних на тему: Моделювання репозиторію метаданих у сховищах даних Мета роботи: Вивчення порядку методів та засобів створення структури та складу метаданих для сховищ даних за схемою Захмана роз

Украинкский

2013-06-08

548.5 KB

7 чел.

Лабораторна робота № 4

з дисципліни:

«Технології сховищ даних»

на тему:

«Моделювання репозиторію метаданих у сховищах даних»


Мета роботи: Вивчення порядку, методів та засобів створення структури та складу метаданих для сховищ даних за схемою Захмана, розроблення засобів навігації метаданих.

 

Теоретичні відомості

Метадані (від  грецьк. Meta і лат. Data), буквально перекладається як «дані про  дані», інформація про  інший набір даних.

Одне з  корисних визначень наступне: «Метадані  - це структуровані, кодовані дані, які описують характеристики об'єктів-носіїв інформації, що сприяють ідентифікації, виявленню, оцінювання, керуванню цими об'єктами».

Майкл Брекет (Michael Brackett) визначає метадані (які він  називає «даними про  ресурси даних») як «будь-які дані про  інформаційні ресурси організації». Адрієн Танненбаум (Adrienne Tannenbaum) називає метадані «детальним описом сутності даних». Ці визначення розкривають формулювання «дані про  дані».

Тема ця підіймається відтоді, як існують дані: метадані були необхідні для опису значення і  властивостей інформації з  метою кращого її  розуміння, керування і  використання. Класичним прикладом є бібліотеки. Книги (дані) можна класифікувати, керувати ними і  знаходити тільки за допомогою відповідних метаданих (тобто заголовка, автора і  ключових слів змісту).

Зазвичай під метаданими розуміється будь-яка інформація, необхідна для аналізу, проектування, побудови, впровадження і  застосування в комп'ютерній системі. У разі інформаційних систем метадані особливо спрощують керування, створення запитів, повноцінне використання і  розуміння даних. Багато недавніх проектів, як наукові, так і  практичні, напрямлені на  вивчення метаданих. Ґенерування, зберігання і  керування метаданими допомагають в  підтримці використання величезних обсягів інформації, доступних в  наші дні в  будь-якій електронній формі. Оскільки все, з  чим працює комп'ютер, за суттю є даними, і  свого роду метадані супроводжують будь-які дані, то  це поняття дотичне до будь-якої сфери застосувань і набуває різних форм залежно від  застосування.

Метадані систем сховищ даних іноді розділяють на  два типи:

1) службові метадані, що використовуються для функцій витягання, перетворення і  завантаження, для перенесення інформації з  транзакційних систем у сховищі;

2) інтерфейсні метадані, що використовуються для опису екранів і  створення звітів.

Є наступні типи метаданих у  сховищі:

  •  метадані початкової системи:
  •  специфікації джерел даних, таких як репозиторії;
  •  описова інформація (наприклад, частота оновлення, юридичні обмеження і  методи доступу);
  •  інформація про  процеси, такі як графік завдань і  коди витягання;
    •  метадані перетворення даних:
  •  інформація про  отримання даних (наприклад, планування передавання даних і  результатів, а також відомості про  використання файлів);
  •  керування таблицями вимірів, наприклад, визначення вимірів і  присвоєння суроґатних ключів;
  •  перетворення і  аґреґація, наприклад, розширення і  відображення даних, програми (скрипти) завантаження СКБД, визначення аґреґатів даних;
  •  документування перевірок, робіт і  журналів, наприклад, журналів перетворення даних і  записів стеження за  походженням даних;
    •  метадані СКБД, такі як:
  •  зміст системних таблиць СКБД;
  •  рекомендації з опрацювання.

У загальному випадку, для користувача сховища даних потрібні метадані, принаймні, наступних типів.

  •  Описи структур даних, їх взаємозв'язків.
    •  Інформація про дані, що зберігаються у сховищі, і підтримувані ним аґреґати даних.
    •  Інформація про джерела даних і про міру їх достовірності. Одна і та ж інформація могла потрапити у сховище даних з різних джерел. Користувач повинен мати можливість взнати, яке джерело було вибране основним, і яким чином здійснюється узгодження і очищення даних.
    •  Інформація про періодичність оновлень даних. Бажано знати не тільки те, якому моменту часу відповідають необхідні для користувача дані, але і коли вони наступного разу будуть оновлені.
    •  Інформація про власників даних. Користувачу системи підтримки прийняття рішень може виявитися корисною інформація про наявність в системі даних, до яких він не має доступу, про власників цих даних і про дії, які він повинен зробити, щоб дістати доступ до даних.
    •  Статистичні оцінки часу виконання запитів. До виконання запиту корисно мати хоч би приблизну оцінку часу, який буде потрібний для отримання відповіді, і обсягу цієї відповіді.

Роль метаданих у сховищі

Найкраще можна пояснити сутність метаданих, описуючи їх роль і  призначення в реалізації процесів сховища даних. Метадані можна використовувати трьома способами:

  •  пасивно, забезпечуючи чітку документацію про структуру, процес розроблення і  використання системи СД; доступна документація необхідна всім учасникам (тобто кінцевим користувачам, системним адміністраторам, а також розробникам застосувань);
    •  активно, шляхом зберігання конкретних семантичних аспектів (наприклад, правил перетворення) у вигляді метаданих, які можна інтерпретувати і  використовувати під час виконання; у цьому випадку процеси сховища даних керуються метаданими. А отже, код (тобто активні метадані) і  додаткова документація погоджено і  уніфіковано керуються в  одному репозиторії, при цьому актуальність документації зростає;
    •  напівактивно, за рахунок зберігання статичної інформації (наприклад, визначень структур, специфікацій конфігурацій), яку прочитуватиме інший програмний компонент під час виконання; наприклад, опрацьовувачам запитів необхідні метадані для перевірки існування атрибутів; на відміну від  активного використання, тут метадані тільки читаються, але  не  викону-ються.

Створення і  керування метаданими служить двом цілям:

1) мінімізації робіт з розроблення і адміністрування СД;

2) ефективнішому витяганню інформації з  СД.

Перша мета, в основному, стосується:

  •  підтримки інтеґрації систем:
  •  схеми й  інтеґрація даних залежать від  метаданих, що описують структуру і  сенс окремих джерел даних і  цільових систем;
  •  правила перетворення можна застосувати до  початкових даних і  зберігати як мета дані;
  •  більше того, інтеґрація різних інструментів можлива тільки тоді, коли вони розділяють «дані», які в такому випадку є метаданими системи сховища даних;
    •  підтримки аналізу і  проектування нових застосувань:
  •  метадані підвищують контрольованість і  надійність процесу розроблення застосувань, забезпечуючи інформацію про  сенс даних, їх  структуру і джерела;
  •  метадані, що стосуються рішень з  проектування застосувань, можна використовувати повторно;
    •  підвищення гнучкості системи і  можливості повторного використання наявних програмних модулів:
  •  це можливо тільки для активного і  напівактивного використання метаданих; семантичні аспекти, що швидко змінюються, явним чином зберігаються у вигляді метаданих поза прикладними програмами;
  •  підтримка істотно простіша;
  •  систему можна розширити і  адаптувати без жодних труднощів;
  •  цей підхід також дає можливість повторного використання «фраґментів коду»;
    •  автоматизації адміністративних процесів.
  •  метадані керуються запуском різних процесів СД (наприклад, завантаження і  оновлення);
  •  інформація про  їх  виконання (журнали доступу, кількість доданих у сховищі записів і  т.ін.) також міститься в  репозиторії, легко доступному адміністратору;
    •  посилення механізмів безпеки:
  •  метадані повинні забезпечити правила доступу і  призначені для користувача права для всієї системи СД;
  •  керування доступом в  сховищі даних іноді вимагає застосування складних методів; наприклад, оперативне джерело може містити нешкідливу інформацію про  окремі показники роботи компанії, проте сумарні значення у сховищі іноді виявляються найважливішим секретом; з другого боку, персональні доходи кожного співробітника є таємницею, але  при цьому підсумкова сума зарплат в  СД  може зовсім не  бути критичною інформацією.

Друга мета відноситься до ефективного витягання інформації, а точні
ше до:

  •  підвищення якості даних. Якість даних визначається наступними характеристиками:

1) узгодженістю (чи є  подання даних однорідним, чи немає  дублікатів, даних з  пересічними або конфліктними визначеннями);

2)  повнотою (чи всі  дані присутні);

3) точністю (збігом значень, що зберігаються, і  фактичних);

4) своєчасністю (чи актуальне  значення, що зберігається у сховищі);

  •  правила перевірки якості даних;
    •  поліпшення взаємодії усередині системи сховища даних;
    •  поліпшення аналізу даних;
    •  застосування загальної термінології і  мови взаємодії усередині корпорації.

Правила перевірки якості даних необхідно задати, зберегти у вигляді метаданих і  перевіряти при кожному оновленні сховища даних. Крім того, висока якість вимагає підтримки контролю даних. Метадані забезпечують інформацію про  час створення і  про  автора даних, про  джерело, значення даних у момент отримання (про  спадковість даних), і  про  подальший шлях від  джерела до  поточного місцеперебування (data lineage — про  походження даних). Отже, користувачі можуть відновити ланцюжок, яким рухаються дані за час перетворення, і  перевірити точність поверненої інформації;

Поліпшення взаємодії усередині системи сховища даних. Взаємодія відбувається як за допомогою виконання простих запитів і  звітних застосувань, так і  з використанням складних аналітичних інструментів. Метадані забезпечують відомості про  значення даних, термінологію і  бізнес-концепції підприємства, а також їх  зв'язок з  даними. Тому метадані підвищують якість запитів за рахунок точнішого і  строгого формулювання, а також скорочують витрати на  користувачів, яким необхідний доступ, оцінка і  застосування відповідної інформації;

Поліпшення аналізу даних. Методи аналізу даних подані широко — починаючи від  простих застосувань звітності та систем підтримки прийняття рішень і  закінчуючи складними застосуваннями видобування даних. У  цьому напрямі метадані необхідні для розуміння предметної області і  її  подання у сховищі з  тим, щоб адекватно застосувати і  інтерпретувати результати;

Застосування загальної термінології і  мови взаємодії усередині корпорації. Доступність метаданих як унікального джерела документації для користувачів має і  інші переваги. Вона ґарантує узгоджені засоби взаємодії й інтерпретації інформації зі сховища, а також усуває двозначність і  забезпечує узгодженість відомостей усередині компанії, дозволяє розділяти знання і  досвід.

Метадані системи сховища даних містяться в  репозиторії — структурованій системі зберігання і  витягання, реалізованій на основі СКБД. Для інтерпретації метаданих необхідно зберігати структуру репозиторію (тобто схему метаданих) і  їх  семантику.

Для інформації про дані сховища доцільно застосовувати шестивимірну класифікаційну схему Захмана (Zachman) (відповідно до відповідей на запитання що? хто? де? коли? чому? як?):

  •  об'єкти ( що?);
    •  суб'єкти (хто?);
    •  місцезнаходження (де?);
    •      час (коли?);
    •  фактори впливу, чинники (чому?);
    •  способи (як?).

При цьому використовується наступна формалізація:

  •  сутність або вміст сховища даних;
    •  люди, які використовують сховище даних;
    •  місцерозташування даних, важливе з погляду керування сховищем даних;
    •  моменти завантаження даних і обчислення підсумкових таблиць;
    •  рушійні сили створення і розвитку сховища даних;
    •  дії, які виконуються з даними;
    •  повчальні метадані (як новий чинник, що використовуватиметься для підтримки розвитку моделі сховища даних).

Метадані зберігаються в окремій базі даних метаданих або репозиторії. Системне програмне забезпечення для створення репозиторію пропонується рядом компаній, в першу чергу, розробниками СКБД.

Рис. 1. Модель Захмана в контексті побудови метаданих сховища даних.

Важливість цього ключового аспекту сховища даних можна продемонструвати у різних аспектах:

  •  єдині правила найменування об’єктів,
    •  єдині одиниці вимірювання для однотипних об’єктів,
    •  єдине фізичне подання однотипних об’єктів,
    •  єдині атрибути подання однотипних об’єктів, тощо.


Хід роботи

Для створення двох тестових таблиць, дані в яких перетинаються відберемо користувачів за датою реєстрації. Результат вибору з двох новостворених таблиць представлено на рисунку 1:

select *

into Users1

from Users

where RegistrationDate<'2012-02-01'

select *

into Users2

from Users

where RegistrationDate>='2011-12-01'

Рис. 1. Результат вибірки з двох таблиць з даними, що перетинаються

  1.  Виконаємо запит на об’єднання. Результат на приведено рисунку 2:

select * from Users1

union

select * from Users2

Рис. 2. Вибірка з об’єднанням

  1.  Виконаємо запит на перетин. Результат на приведено рисунку 3:

select * from Users1

where UserId in (select UserId from Users2)

Рис. 3. Вибірка з перетином

  1.  Виконаємо запит на різницю. Результат на приведено рисунку 4:

select * from Users1

where UserId not in (select UserId from Users2)

Рис. 4. Вибірка з різницею

  1.  Виконаємо запит на виконання декартового добутку. Результат на приведено рисунку 5:

select * from Users1, Users2

Рис. 5. Вибірка з декортовим добутком

Висновок: Під час виконання даної лабораторної роботи, я вивчив порядок, методи та засоби проектування структури та складу метаданих для сховищ даних за схемою Захмана, розроблення засобів навігації метаданих.


 

А также другие работы, которые могут Вас заинтересовать

52533. THE MAGIC WALT DISNEY WORLD 2.04 MB
  It’s the Main Street. But we can’t go. We don’t know the names of cartoons in English. You can get 1 ball. Let’s underline the letter combinations and read them correctly. (дети подчеркивают и читают хором за учителем)
52534. W.Disney and His Amusement Park - Disneyland 61 KB
  The topic of our today’s lesson is “Walt Disney and His Amusement Park – Disneyland” and “The Past Indefinite Tense”. By the end of the lesson you should be able: 1. To talk about Walt Disney and his amusement park Disneyland, using active vocabulary.
52535. Складання розповіді за художньою картиною В. Хабарова „Портрет дівчинки” 529 KB
  Діти пропоную вам розглянути ось цу картину. Діти ви розглянули картину російського художника В. Де розмістив художник героїню Якою вона зображена Діти пригадайте свої відчуття коли ви захоплено читаєте або щось майструєте або малюєте. Діти у парах відновлюють розповідь за картиною.
52536. Проект «Я дитина всесвіту» 947.5 KB
  Вірно діти це вода. В казках мертва вода заживляла рани. Глибока вона там а вода знай в ній холодна джерельна студена. Журавель напоїв хлопчика джерельною водою а потім на своїх широких крилах відніс хлопчика додому і сказав: Запамятай вода жива її треба берегти Хлопчик подякував і повторив: вода жива.
52537. Всі ми родом із дитинства. Подорож в українську минувшину. Живопис на склі «Ікона святого Миколая» 87.5 KB
  Миколай народився в Патарі тепер Туреччина біля 280 р. Миколай і потайки вечором кинув у відкрите вікно кімнати мішечок з золотом. І знову Святий Миколай підкинув торбинку грошей так щоб ніхто того не бачив. Коли прийшов час наймолодшій дочці виходити заміж а грошей не булоі її чекала неволя батько дівчат заховався біля хати; і коли Святий Миколай кинув знову мішечок з золотом батько схопив його за руку.
52538. Дитинство Ісуса Христа 116 KB
  Мета: ознайомити учнів з дитинством Спасителя, вказуючи на Його чесноти; розвивати бажання брати собі за взірець Христа; виховувати послух, покірність та повагу до батьків.
52539. Всі ми родом із дитинства 97 KB
  Евеліна Хромченко Дитинство Дитинствоказка мов чарівна мить Там завжди сонячно і світло. Надія Красоткіна Дитинство це коли день починається з першим променем сонця звуком тихих маминих кроків запахом теплого хліба співом птахів і триває довгодовго це коли дерева великі а ти внизу і помічаєш так багато: і мурашки і бджолу на квітці і пухнасту гусеницю і чуєш як росте трава і можеш залізти на найвище дерево і переплести саму широку річку і все можеш зробити сам. Варто подумати про дитинство і пам’ять підкине дивні...
52540. Свято здоровя 43 KB
  Підвищувати відповідальність за особисте здоровя, здоровя родини; пропагувати і заохочувати до співпраці дітей та батьків; розвивати і зміцнювати в учнів почуття прекрасного в побуті, працьовитість, повагу до звичаїв і традицій рідного народу; виховувати повагу в особистих стосунках, почуття колективізму та взаємодопомоги.
52541. Сценарій свята для учнів 2-х класів «Різдвяне диво» 81 KB
  Заходять колядники звіздар ангел зірка коза дохтур Звіздар. Де коза ходить там жито родить Де коза ногою там жито копою Де коза рогом там жито стогом. Коза скаче а потім падає Пуць Коза впала нежива стала Ой Ой Яка добра тваринка була Що ж то робити Усі. Де тут хто тут пацієнт Виліковую в момент Робить козі укол коза оживає встає танцює танець всі плескають у долоні Усі.