14614

Моделювання репозиторію метаданих у сховищах даних

Лабораторная работа

Информатика, кибернетика и программирование

Лабораторна робота № 4 з дисципліни: Технології сховищ даних на тему: Моделювання репозиторію метаданих у сховищах даних Мета роботи: Вивчення порядку методів та засобів створення структури та складу метаданих для сховищ даних за схемою Захмана роз

Украинкский

2013-06-08

548.5 KB

7 чел.

Лабораторна робота № 4

з дисципліни:

«Технології сховищ даних»

на тему:

«Моделювання репозиторію метаданих у сховищах даних»


Мета роботи: Вивчення порядку, методів та засобів створення структури та складу метаданих для сховищ даних за схемою Захмана, розроблення засобів навігації метаданих.

 

Теоретичні відомості

Метадані (від  грецьк. Meta і лат. Data), буквально перекладається як «дані про  дані», інформація про  інший набір даних.

Одне з  корисних визначень наступне: «Метадані  - це структуровані, кодовані дані, які описують характеристики об'єктів-носіїв інформації, що сприяють ідентифікації, виявленню, оцінювання, керуванню цими об'єктами».

Майкл Брекет (Michael Brackett) визначає метадані (які він  називає «даними про  ресурси даних») як «будь-які дані про  інформаційні ресурси організації». Адрієн Танненбаум (Adrienne Tannenbaum) називає метадані «детальним описом сутності даних». Ці визначення розкривають формулювання «дані про  дані».

Тема ця підіймається відтоді, як існують дані: метадані були необхідні для опису значення і  властивостей інформації з  метою кращого її  розуміння, керування і  використання. Класичним прикладом є бібліотеки. Книги (дані) можна класифікувати, керувати ними і  знаходити тільки за допомогою відповідних метаданих (тобто заголовка, автора і  ключових слів змісту).

Зазвичай під метаданими розуміється будь-яка інформація, необхідна для аналізу, проектування, побудови, впровадження і  застосування в комп'ютерній системі. У разі інформаційних систем метадані особливо спрощують керування, створення запитів, повноцінне використання і  розуміння даних. Багато недавніх проектів, як наукові, так і  практичні, напрямлені на  вивчення метаданих. Ґенерування, зберігання і  керування метаданими допомагають в  підтримці використання величезних обсягів інформації, доступних в  наші дні в  будь-якій електронній формі. Оскільки все, з  чим працює комп'ютер, за суттю є даними, і  свого роду метадані супроводжують будь-які дані, то  це поняття дотичне до будь-якої сфери застосувань і набуває різних форм залежно від  застосування.

Метадані систем сховищ даних іноді розділяють на  два типи:

1) службові метадані, що використовуються для функцій витягання, перетворення і  завантаження, для перенесення інформації з  транзакційних систем у сховищі;

2) інтерфейсні метадані, що використовуються для опису екранів і  створення звітів.

Є наступні типи метаданих у  сховищі:

  •  метадані початкової системи:
  •  специфікації джерел даних, таких як репозиторії;
  •  описова інформація (наприклад, частота оновлення, юридичні обмеження і  методи доступу);
  •  інформація про  процеси, такі як графік завдань і  коди витягання;
    •  метадані перетворення даних:
  •  інформація про  отримання даних (наприклад, планування передавання даних і  результатів, а також відомості про  використання файлів);
  •  керування таблицями вимірів, наприклад, визначення вимірів і  присвоєння суроґатних ключів;
  •  перетворення і  аґреґація, наприклад, розширення і  відображення даних, програми (скрипти) завантаження СКБД, визначення аґреґатів даних;
  •  документування перевірок, робіт і  журналів, наприклад, журналів перетворення даних і  записів стеження за  походженням даних;
    •  метадані СКБД, такі як:
  •  зміст системних таблиць СКБД;
  •  рекомендації з опрацювання.

У загальному випадку, для користувача сховища даних потрібні метадані, принаймні, наступних типів.

  •  Описи структур даних, їх взаємозв'язків.
    •  Інформація про дані, що зберігаються у сховищі, і підтримувані ним аґреґати даних.
    •  Інформація про джерела даних і про міру їх достовірності. Одна і та ж інформація могла потрапити у сховище даних з різних джерел. Користувач повинен мати можливість взнати, яке джерело було вибране основним, і яким чином здійснюється узгодження і очищення даних.
    •  Інформація про періодичність оновлень даних. Бажано знати не тільки те, якому моменту часу відповідають необхідні для користувача дані, але і коли вони наступного разу будуть оновлені.
    •  Інформація про власників даних. Користувачу системи підтримки прийняття рішень може виявитися корисною інформація про наявність в системі даних, до яких він не має доступу, про власників цих даних і про дії, які він повинен зробити, щоб дістати доступ до даних.
    •  Статистичні оцінки часу виконання запитів. До виконання запиту корисно мати хоч би приблизну оцінку часу, який буде потрібний для отримання відповіді, і обсягу цієї відповіді.

Роль метаданих у сховищі

Найкраще можна пояснити сутність метаданих, описуючи їх роль і  призначення в реалізації процесів сховища даних. Метадані можна використовувати трьома способами:

  •  пасивно, забезпечуючи чітку документацію про структуру, процес розроблення і  використання системи СД; доступна документація необхідна всім учасникам (тобто кінцевим користувачам, системним адміністраторам, а також розробникам застосувань);
    •  активно, шляхом зберігання конкретних семантичних аспектів (наприклад, правил перетворення) у вигляді метаданих, які можна інтерпретувати і  використовувати під час виконання; у цьому випадку процеси сховища даних керуються метаданими. А отже, код (тобто активні метадані) і  додаткова документація погоджено і  уніфіковано керуються в  одному репозиторії, при цьому актуальність документації зростає;
    •  напівактивно, за рахунок зберігання статичної інформації (наприклад, визначень структур, специфікацій конфігурацій), яку прочитуватиме інший програмний компонент під час виконання; наприклад, опрацьовувачам запитів необхідні метадані для перевірки існування атрибутів; на відміну від  активного використання, тут метадані тільки читаються, але  не  викону-ються.

Створення і  керування метаданими служить двом цілям:

1) мінімізації робіт з розроблення і адміністрування СД;

2) ефективнішому витяганню інформації з  СД.

Перша мета, в основному, стосується:

  •  підтримки інтеґрації систем:
  •  схеми й  інтеґрація даних залежать від  метаданих, що описують структуру і  сенс окремих джерел даних і  цільових систем;
  •  правила перетворення можна застосувати до  початкових даних і  зберігати як мета дані;
  •  більше того, інтеґрація різних інструментів можлива тільки тоді, коли вони розділяють «дані», які в такому випадку є метаданими системи сховища даних;
    •  підтримки аналізу і  проектування нових застосувань:
  •  метадані підвищують контрольованість і  надійність процесу розроблення застосувань, забезпечуючи інформацію про  сенс даних, їх  структуру і джерела;
  •  метадані, що стосуються рішень з  проектування застосувань, можна використовувати повторно;
    •  підвищення гнучкості системи і  можливості повторного використання наявних програмних модулів:
  •  це можливо тільки для активного і  напівактивного використання метаданих; семантичні аспекти, що швидко змінюються, явним чином зберігаються у вигляді метаданих поза прикладними програмами;
  •  підтримка істотно простіша;
  •  систему можна розширити і  адаптувати без жодних труднощів;
  •  цей підхід також дає можливість повторного використання «фраґментів коду»;
    •  автоматизації адміністративних процесів.
  •  метадані керуються запуском різних процесів СД (наприклад, завантаження і  оновлення);
  •  інформація про  їх  виконання (журнали доступу, кількість доданих у сховищі записів і  т.ін.) також міститься в  репозиторії, легко доступному адміністратору;
    •  посилення механізмів безпеки:
  •  метадані повинні забезпечити правила доступу і  призначені для користувача права для всієї системи СД;
  •  керування доступом в  сховищі даних іноді вимагає застосування складних методів; наприклад, оперативне джерело може містити нешкідливу інформацію про  окремі показники роботи компанії, проте сумарні значення у сховищі іноді виявляються найважливішим секретом; з другого боку, персональні доходи кожного співробітника є таємницею, але  при цьому підсумкова сума зарплат в  СД  може зовсім не  бути критичною інформацією.

Друга мета відноситься до ефективного витягання інформації, а точні
ше до:

  •  підвищення якості даних. Якість даних визначається наступними характеристиками:

1) узгодженістю (чи є  подання даних однорідним, чи немає  дублікатів, даних з  пересічними або конфліктними визначеннями);

2)  повнотою (чи всі  дані присутні);

3) точністю (збігом значень, що зберігаються, і  фактичних);

4) своєчасністю (чи актуальне  значення, що зберігається у сховищі);

  •  правила перевірки якості даних;
    •  поліпшення взаємодії усередині системи сховища даних;
    •  поліпшення аналізу даних;
    •  застосування загальної термінології і  мови взаємодії усередині корпорації.

Правила перевірки якості даних необхідно задати, зберегти у вигляді метаданих і  перевіряти при кожному оновленні сховища даних. Крім того, висока якість вимагає підтримки контролю даних. Метадані забезпечують інформацію про  час створення і  про  автора даних, про  джерело, значення даних у момент отримання (про  спадковість даних), і  про  подальший шлях від  джерела до  поточного місцеперебування (data lineage — про  походження даних). Отже, користувачі можуть відновити ланцюжок, яким рухаються дані за час перетворення, і  перевірити точність поверненої інформації;

Поліпшення взаємодії усередині системи сховища даних. Взаємодія відбувається як за допомогою виконання простих запитів і  звітних застосувань, так і  з використанням складних аналітичних інструментів. Метадані забезпечують відомості про  значення даних, термінологію і  бізнес-концепції підприємства, а також їх  зв'язок з  даними. Тому метадані підвищують якість запитів за рахунок точнішого і  строгого формулювання, а також скорочують витрати на  користувачів, яким необхідний доступ, оцінка і  застосування відповідної інформації;

Поліпшення аналізу даних. Методи аналізу даних подані широко — починаючи від  простих застосувань звітності та систем підтримки прийняття рішень і  закінчуючи складними застосуваннями видобування даних. У  цьому напрямі метадані необхідні для розуміння предметної області і  її  подання у сховищі з  тим, щоб адекватно застосувати і  інтерпретувати результати;

Застосування загальної термінології і  мови взаємодії усередині корпорації. Доступність метаданих як унікального джерела документації для користувачів має і  інші переваги. Вона ґарантує узгоджені засоби взаємодії й інтерпретації інформації зі сховища, а також усуває двозначність і  забезпечує узгодженість відомостей усередині компанії, дозволяє розділяти знання і  досвід.

Метадані системи сховища даних містяться в  репозиторії — структурованій системі зберігання і  витягання, реалізованій на основі СКБД. Для інтерпретації метаданих необхідно зберігати структуру репозиторію (тобто схему метаданих) і  їх  семантику.

Для інформації про дані сховища доцільно застосовувати шестивимірну класифікаційну схему Захмана (Zachman) (відповідно до відповідей на запитання що? хто? де? коли? чому? як?):

  •  об'єкти ( що?);
    •  суб'єкти (хто?);
    •  місцезнаходження (де?);
    •      час (коли?);
    •  фактори впливу, чинники (чому?);
    •  способи (як?).

При цьому використовується наступна формалізація:

  •  сутність або вміст сховища даних;
    •  люди, які використовують сховище даних;
    •  місцерозташування даних, важливе з погляду керування сховищем даних;
    •  моменти завантаження даних і обчислення підсумкових таблиць;
    •  рушійні сили створення і розвитку сховища даних;
    •  дії, які виконуються з даними;
    •  повчальні метадані (як новий чинник, що використовуватиметься для підтримки розвитку моделі сховища даних).

Метадані зберігаються в окремій базі даних метаданих або репозиторії. Системне програмне забезпечення для створення репозиторію пропонується рядом компаній, в першу чергу, розробниками СКБД.

Рис. 1. Модель Захмана в контексті побудови метаданих сховища даних.

Важливість цього ключового аспекту сховища даних можна продемонструвати у різних аспектах:

  •  єдині правила найменування об’єктів,
    •  єдині одиниці вимірювання для однотипних об’єктів,
    •  єдине фізичне подання однотипних об’єктів,
    •  єдині атрибути подання однотипних об’єктів, тощо.


Хід роботи

Для створення двох тестових таблиць, дані в яких перетинаються відберемо користувачів за датою реєстрації. Результат вибору з двох новостворених таблиць представлено на рисунку 1:

select *

into Users1

from Users

where RegistrationDate<'2012-02-01'

select *

into Users2

from Users

where RegistrationDate>='2011-12-01'

Рис. 1. Результат вибірки з двох таблиць з даними, що перетинаються

  1.  Виконаємо запит на об’єднання. Результат на приведено рисунку 2:

select * from Users1

union

select * from Users2

Рис. 2. Вибірка з об’єднанням

  1.  Виконаємо запит на перетин. Результат на приведено рисунку 3:

select * from Users1

where UserId in (select UserId from Users2)

Рис. 3. Вибірка з перетином

  1.  Виконаємо запит на різницю. Результат на приведено рисунку 4:

select * from Users1

where UserId not in (select UserId from Users2)

Рис. 4. Вибірка з різницею

  1.  Виконаємо запит на виконання декартового добутку. Результат на приведено рисунку 5:

select * from Users1, Users2

Рис. 5. Вибірка з декортовим добутком

Висновок: Під час виконання даної лабораторної роботи, я вивчив порядок, методи та засоби проектування структури та складу метаданих для сховищ даних за схемою Захмана, розроблення засобів навігації метаданих.


 

А также другие работы, которые могут Вас заинтересовать

71202. Приготовление украшения из крема 15.88 KB
  Обеими руками соединяют края мешка и зажимая его правой рукой отсаживают крем придерживая узкий конец кондитерского мешка левой. Узор равномерно отсаживают волнообразно двигая трубочку вдоль изделия. Получается ножка гриба на которую отсаживают шляпку из крема или из выпеченного тестового полуфабриката.
71204. Определение дефектов и болезней хлебных изделий 19.4 KB
  Теоретическая часть: Наиболее распространенными внешними дефектами хлеба являются: пониженный объем трещины пузыри и пятна на поверхности хлеба отсутствие глянца на корке излишне бледная или слишком темная окраска корки выпуклая или вогнутая верхняя корка боковые притиски расплывчатость.
71205. Изучение строения зелёных водорослей 38.5 KB
  Цель: изучить внешнее и клеточное строение водорослей найти черты низшего растения. Выявите признаки низшего растения в строении водорослей. Какова окраска водорослей Как вы думаете чем она обусловлена Определите разделено ли тело водоросли на органы Какие Как называется тело водорослей...
71206. Гармонический анализ сигналов 68.5 KB
  Цель: Приобрести навыки проведения преобразования Фурье расчета характеристик спектра очистки сигнала от шумов в частотной области. Задачи: Прямое и обратное преобразование Фурье быстрое преобразование Фурье. Краткие теоретические сведения Дискретное преобразование Фурье...
71210. Обработка результатов измерений с многократными наблюдениями 145.5 KB
  Цель работы: ознакомление с методикой обработки результатов измерений с многократными наблюдениями. Аппаратура: персональный компьютер. Лабораторное задание Ознакомиться с методикой выполнения работы на ЭВМ и ввести выборку наблюдений.