14614

Моделювання репозиторію метаданих у сховищах даних

Лабораторная работа

Информатика, кибернетика и программирование

Лабораторна робота № 4 з дисципліни: Технології сховищ даних на тему: Моделювання репозиторію метаданих у сховищах даних Мета роботи: Вивчення порядку методів та засобів створення структури та складу метаданих для сховищ даних за схемою Захмана роз

Украинкский

2013-06-08

548.5 KB

7 чел.

Лабораторна робота № 4

з дисципліни:

«Технології сховищ даних»

на тему:

«Моделювання репозиторію метаданих у сховищах даних»


Мета роботи: Вивчення порядку, методів та засобів створення структури та складу метаданих для сховищ даних за схемою Захмана, розроблення засобів навігації метаданих.

 

Теоретичні відомості

Метадані (від  грецьк. Meta і лат. Data), буквально перекладається як «дані про  дані», інформація про  інший набір даних.

Одне з  корисних визначень наступне: «Метадані  - це структуровані, кодовані дані, які описують характеристики об'єктів-носіїв інформації, що сприяють ідентифікації, виявленню, оцінювання, керуванню цими об'єктами».

Майкл Брекет (Michael Brackett) визначає метадані (які він  називає «даними про  ресурси даних») як «будь-які дані про  інформаційні ресурси організації». Адрієн Танненбаум (Adrienne Tannenbaum) називає метадані «детальним описом сутності даних». Ці визначення розкривають формулювання «дані про  дані».

Тема ця підіймається відтоді, як існують дані: метадані були необхідні для опису значення і  властивостей інформації з  метою кращого її  розуміння, керування і  використання. Класичним прикладом є бібліотеки. Книги (дані) можна класифікувати, керувати ними і  знаходити тільки за допомогою відповідних метаданих (тобто заголовка, автора і  ключових слів змісту).

Зазвичай під метаданими розуміється будь-яка інформація, необхідна для аналізу, проектування, побудови, впровадження і  застосування в комп'ютерній системі. У разі інформаційних систем метадані особливо спрощують керування, створення запитів, повноцінне використання і  розуміння даних. Багато недавніх проектів, як наукові, так і  практичні, напрямлені на  вивчення метаданих. Ґенерування, зберігання і  керування метаданими допомагають в  підтримці використання величезних обсягів інформації, доступних в  наші дні в  будь-якій електронній формі. Оскільки все, з  чим працює комп'ютер, за суттю є даними, і  свого роду метадані супроводжують будь-які дані, то  це поняття дотичне до будь-якої сфери застосувань і набуває різних форм залежно від  застосування.

Метадані систем сховищ даних іноді розділяють на  два типи:

1) службові метадані, що використовуються для функцій витягання, перетворення і  завантаження, для перенесення інформації з  транзакційних систем у сховищі;

2) інтерфейсні метадані, що використовуються для опису екранів і  створення звітів.

Є наступні типи метаданих у  сховищі:

  •  метадані початкової системи:
  •  специфікації джерел даних, таких як репозиторії;
  •  описова інформація (наприклад, частота оновлення, юридичні обмеження і  методи доступу);
  •  інформація про  процеси, такі як графік завдань і  коди витягання;
    •  метадані перетворення даних:
  •  інформація про  отримання даних (наприклад, планування передавання даних і  результатів, а також відомості про  використання файлів);
  •  керування таблицями вимірів, наприклад, визначення вимірів і  присвоєння суроґатних ключів;
  •  перетворення і  аґреґація, наприклад, розширення і  відображення даних, програми (скрипти) завантаження СКБД, визначення аґреґатів даних;
  •  документування перевірок, робіт і  журналів, наприклад, журналів перетворення даних і  записів стеження за  походженням даних;
    •  метадані СКБД, такі як:
  •  зміст системних таблиць СКБД;
  •  рекомендації з опрацювання.

У загальному випадку, для користувача сховища даних потрібні метадані, принаймні, наступних типів.

  •  Описи структур даних, їх взаємозв'язків.
    •  Інформація про дані, що зберігаються у сховищі, і підтримувані ним аґреґати даних.
    •  Інформація про джерела даних і про міру їх достовірності. Одна і та ж інформація могла потрапити у сховище даних з різних джерел. Користувач повинен мати можливість взнати, яке джерело було вибране основним, і яким чином здійснюється узгодження і очищення даних.
    •  Інформація про періодичність оновлень даних. Бажано знати не тільки те, якому моменту часу відповідають необхідні для користувача дані, але і коли вони наступного разу будуть оновлені.
    •  Інформація про власників даних. Користувачу системи підтримки прийняття рішень може виявитися корисною інформація про наявність в системі даних, до яких він не має доступу, про власників цих даних і про дії, які він повинен зробити, щоб дістати доступ до даних.
    •  Статистичні оцінки часу виконання запитів. До виконання запиту корисно мати хоч би приблизну оцінку часу, який буде потрібний для отримання відповіді, і обсягу цієї відповіді.

Роль метаданих у сховищі

Найкраще можна пояснити сутність метаданих, описуючи їх роль і  призначення в реалізації процесів сховища даних. Метадані можна використовувати трьома способами:

  •  пасивно, забезпечуючи чітку документацію про структуру, процес розроблення і  використання системи СД; доступна документація необхідна всім учасникам (тобто кінцевим користувачам, системним адміністраторам, а також розробникам застосувань);
    •  активно, шляхом зберігання конкретних семантичних аспектів (наприклад, правил перетворення) у вигляді метаданих, які можна інтерпретувати і  використовувати під час виконання; у цьому випадку процеси сховища даних керуються метаданими. А отже, код (тобто активні метадані) і  додаткова документація погоджено і  уніфіковано керуються в  одному репозиторії, при цьому актуальність документації зростає;
    •  напівактивно, за рахунок зберігання статичної інформації (наприклад, визначень структур, специфікацій конфігурацій), яку прочитуватиме інший програмний компонент під час виконання; наприклад, опрацьовувачам запитів необхідні метадані для перевірки існування атрибутів; на відміну від  активного використання, тут метадані тільки читаються, але  не  викону-ються.

Створення і  керування метаданими служить двом цілям:

1) мінімізації робіт з розроблення і адміністрування СД;

2) ефективнішому витяганню інформації з  СД.

Перша мета, в основному, стосується:

  •  підтримки інтеґрації систем:
  •  схеми й  інтеґрація даних залежать від  метаданих, що описують структуру і  сенс окремих джерел даних і  цільових систем;
  •  правила перетворення можна застосувати до  початкових даних і  зберігати як мета дані;
  •  більше того, інтеґрація різних інструментів можлива тільки тоді, коли вони розділяють «дані», які в такому випадку є метаданими системи сховища даних;
    •  підтримки аналізу і  проектування нових застосувань:
  •  метадані підвищують контрольованість і  надійність процесу розроблення застосувань, забезпечуючи інформацію про  сенс даних, їх  структуру і джерела;
  •  метадані, що стосуються рішень з  проектування застосувань, можна використовувати повторно;
    •  підвищення гнучкості системи і  можливості повторного використання наявних програмних модулів:
  •  це можливо тільки для активного і  напівактивного використання метаданих; семантичні аспекти, що швидко змінюються, явним чином зберігаються у вигляді метаданих поза прикладними програмами;
  •  підтримка істотно простіша;
  •  систему можна розширити і  адаптувати без жодних труднощів;
  •  цей підхід також дає можливість повторного використання «фраґментів коду»;
    •  автоматизації адміністративних процесів.
  •  метадані керуються запуском різних процесів СД (наприклад, завантаження і  оновлення);
  •  інформація про  їх  виконання (журнали доступу, кількість доданих у сховищі записів і  т.ін.) також міститься в  репозиторії, легко доступному адміністратору;
    •  посилення механізмів безпеки:
  •  метадані повинні забезпечити правила доступу і  призначені для користувача права для всієї системи СД;
  •  керування доступом в  сховищі даних іноді вимагає застосування складних методів; наприклад, оперативне джерело може містити нешкідливу інформацію про  окремі показники роботи компанії, проте сумарні значення у сховищі іноді виявляються найважливішим секретом; з другого боку, персональні доходи кожного співробітника є таємницею, але  при цьому підсумкова сума зарплат в  СД  може зовсім не  бути критичною інформацією.

Друга мета відноситься до ефективного витягання інформації, а точні
ше до:

  •  підвищення якості даних. Якість даних визначається наступними характеристиками:

1) узгодженістю (чи є  подання даних однорідним, чи немає  дублікатів, даних з  пересічними або конфліктними визначеннями);

2)  повнотою (чи всі  дані присутні);

3) точністю (збігом значень, що зберігаються, і  фактичних);

4) своєчасністю (чи актуальне  значення, що зберігається у сховищі);

  •  правила перевірки якості даних;
    •  поліпшення взаємодії усередині системи сховища даних;
    •  поліпшення аналізу даних;
    •  застосування загальної термінології і  мови взаємодії усередині корпорації.

Правила перевірки якості даних необхідно задати, зберегти у вигляді метаданих і  перевіряти при кожному оновленні сховища даних. Крім того, висока якість вимагає підтримки контролю даних. Метадані забезпечують інформацію про  час створення і  про  автора даних, про  джерело, значення даних у момент отримання (про  спадковість даних), і  про  подальший шлях від  джерела до  поточного місцеперебування (data lineage — про  походження даних). Отже, користувачі можуть відновити ланцюжок, яким рухаються дані за час перетворення, і  перевірити точність поверненої інформації;

Поліпшення взаємодії усередині системи сховища даних. Взаємодія відбувається як за допомогою виконання простих запитів і  звітних застосувань, так і  з використанням складних аналітичних інструментів. Метадані забезпечують відомості про  значення даних, термінологію і  бізнес-концепції підприємства, а також їх  зв'язок з  даними. Тому метадані підвищують якість запитів за рахунок точнішого і  строгого формулювання, а також скорочують витрати на  користувачів, яким необхідний доступ, оцінка і  застосування відповідної інформації;

Поліпшення аналізу даних. Методи аналізу даних подані широко — починаючи від  простих застосувань звітності та систем підтримки прийняття рішень і  закінчуючи складними застосуваннями видобування даних. У  цьому напрямі метадані необхідні для розуміння предметної області і  її  подання у сховищі з  тим, щоб адекватно застосувати і  інтерпретувати результати;

Застосування загальної термінології і  мови взаємодії усередині корпорації. Доступність метаданих як унікального джерела документації для користувачів має і  інші переваги. Вона ґарантує узгоджені засоби взаємодії й інтерпретації інформації зі сховища, а також усуває двозначність і  забезпечує узгодженість відомостей усередині компанії, дозволяє розділяти знання і  досвід.

Метадані системи сховища даних містяться в  репозиторії — структурованій системі зберігання і  витягання, реалізованій на основі СКБД. Для інтерпретації метаданих необхідно зберігати структуру репозиторію (тобто схему метаданих) і  їх  семантику.

Для інформації про дані сховища доцільно застосовувати шестивимірну класифікаційну схему Захмана (Zachman) (відповідно до відповідей на запитання що? хто? де? коли? чому? як?):

  •  об'єкти ( що?);
    •  суб'єкти (хто?);
    •  місцезнаходження (де?);
    •      час (коли?);
    •  фактори впливу, чинники (чому?);
    •  способи (як?).

При цьому використовується наступна формалізація:

  •  сутність або вміст сховища даних;
    •  люди, які використовують сховище даних;
    •  місцерозташування даних, важливе з погляду керування сховищем даних;
    •  моменти завантаження даних і обчислення підсумкових таблиць;
    •  рушійні сили створення і розвитку сховища даних;
    •  дії, які виконуються з даними;
    •  повчальні метадані (як новий чинник, що використовуватиметься для підтримки розвитку моделі сховища даних).

Метадані зберігаються в окремій базі даних метаданих або репозиторії. Системне програмне забезпечення для створення репозиторію пропонується рядом компаній, в першу чергу, розробниками СКБД.

Рис. 1. Модель Захмана в контексті побудови метаданих сховища даних.

Важливість цього ключового аспекту сховища даних можна продемонструвати у різних аспектах:

  •  єдині правила найменування об’єктів,
    •  єдині одиниці вимірювання для однотипних об’єктів,
    •  єдине фізичне подання однотипних об’єктів,
    •  єдині атрибути подання однотипних об’єктів, тощо.


Хід роботи

Для створення двох тестових таблиць, дані в яких перетинаються відберемо користувачів за датою реєстрації. Результат вибору з двох новостворених таблиць представлено на рисунку 1:

select *

into Users1

from Users

where RegistrationDate<'2012-02-01'

select *

into Users2

from Users

where RegistrationDate>='2011-12-01'

Рис. 1. Результат вибірки з двох таблиць з даними, що перетинаються

  1.  Виконаємо запит на об’єднання. Результат на приведено рисунку 2:

select * from Users1

union

select * from Users2

Рис. 2. Вибірка з об’єднанням

  1.  Виконаємо запит на перетин. Результат на приведено рисунку 3:

select * from Users1

where UserId in (select UserId from Users2)

Рис. 3. Вибірка з перетином

  1.  Виконаємо запит на різницю. Результат на приведено рисунку 4:

select * from Users1

where UserId not in (select UserId from Users2)

Рис. 4. Вибірка з різницею

  1.  Виконаємо запит на виконання декартового добутку. Результат на приведено рисунку 5:

select * from Users1, Users2

Рис. 5. Вибірка з декортовим добутком

Висновок: Під час виконання даної лабораторної роботи, я вивчив порядок, методи та засоби проектування структури та складу метаданих для сховищ даних за схемою Захмана, розроблення засобів навігації метаданих.


 

А также другие работы, которые могут Вас заинтересовать

37029. Что нами движет при выборе профессии. Классный час 18.3 KB
  Как вы думаете о чем сегодня пойдет речь Сегодня разговор наш будет о профессиональном самоопределении процессе и результате самостоятельного и сознательного выбора профессии. Означает ли это что к выбору профессии можно идти путем проб и ошибок А может надо сознательно готовить себя к будущей профессиональной деятельности Что мы имеем в виду когда произносим слово “профессия†Профессия понятие многозначное: общность всех людей занятых данным видом труда. Выбор профессии можно отнести к самым сложным от...
37031. В гостях у светофора 26.16 KB
  Игра Разрешается запрещается. Ребята давайте вспомним правила дорожного движения и поиграем в игру Разрешается запрещается. Если вы считаете что моё высказывание верное то говорите разрешается а если не верное то запрещается. Играть на мостовойзапрещается.
37034. В ГОСТЯХ У СКАЗОК БРАТЬЕВ ГРИММ 84.86 KB
  Und ds ist mein Zuberstock. lle zuschuen Wer ist ds Heinz ist ful Ist Heinz ful Wie ist Heinz Он любит много спать и много есть совсем не любит работать. Nennt lle Lebensmittel die Heinz mg Дети: Ds ist У. Rtet ws er will Дети задают вопросы типа: Ist ds Kse Вот так мечтая о благополучии и вкусной пище но не работая Гейнц лишился козы которая у него была улья с пчелами и даже последнего горшка с медом.
37035. Дети войны. Последние свидетели 73.5 KB
  Оборудование: плакаты компьютер мультимедийный проектор фотографии военных лет Презентация 1 отрывок из документального фильма Дети войны. Презентация 1. Слайд 1 Презентация 1. Презентация 1.
37036. Дружба в нашем классе 36.5 KB
  Вводная часть Здравствуйте ребята Вы же помните первый классный час который мы у вас проводили На какую тему он был Ответы детей Да ребятаон был про дружбу. Не имей 100 рублей а Старый друг лучше Нет друга ищи а Друг познаётся А знаете ли вы ещё какиенибудь пословицы о дружбе Ответы детей Молодцы ребята Считаете ли вы свой класс дружным Ответы детей Что нужно сделать для того чтобы все в классе жили дружно Ответы детей Ребята для этого нужно уважать и помогать друг другу. одноклассники...