14614

Моделювання репозиторію метаданих у сховищах даних

Лабораторная работа

Информатика, кибернетика и программирование

Лабораторна робота № 4 з дисципліни: Технології сховищ даних на тему: Моделювання репозиторію метаданих у сховищах даних Мета роботи: Вивчення порядку методів та засобів створення структури та складу метаданих для сховищ даних за схемою Захмана роз

Украинкский

2013-06-08

548.5 KB

7 чел.

Лабораторна робота № 4

з дисципліни:

«Технології сховищ даних»

на тему:

«Моделювання репозиторію метаданих у сховищах даних»


Мета роботи: Вивчення порядку, методів та засобів створення структури та складу метаданих для сховищ даних за схемою Захмана, розроблення засобів навігації метаданих.

 

Теоретичні відомості

Метадані (від  грецьк. Meta і лат. Data), буквально перекладається як «дані про  дані», інформація про  інший набір даних.

Одне з  корисних визначень наступне: «Метадані  - це структуровані, кодовані дані, які описують характеристики об'єктів-носіїв інформації, що сприяють ідентифікації, виявленню, оцінювання, керуванню цими об'єктами».

Майкл Брекет (Michael Brackett) визначає метадані (які він  називає «даними про  ресурси даних») як «будь-які дані про  інформаційні ресурси організації». Адрієн Танненбаум (Adrienne Tannenbaum) називає метадані «детальним описом сутності даних». Ці визначення розкривають формулювання «дані про  дані».

Тема ця підіймається відтоді, як існують дані: метадані були необхідні для опису значення і  властивостей інформації з  метою кращого її  розуміння, керування і  використання. Класичним прикладом є бібліотеки. Книги (дані) можна класифікувати, керувати ними і  знаходити тільки за допомогою відповідних метаданих (тобто заголовка, автора і  ключових слів змісту).

Зазвичай під метаданими розуміється будь-яка інформація, необхідна для аналізу, проектування, побудови, впровадження і  застосування в комп'ютерній системі. У разі інформаційних систем метадані особливо спрощують керування, створення запитів, повноцінне використання і  розуміння даних. Багато недавніх проектів, як наукові, так і  практичні, напрямлені на  вивчення метаданих. Ґенерування, зберігання і  керування метаданими допомагають в  підтримці використання величезних обсягів інформації, доступних в  наші дні в  будь-якій електронній формі. Оскільки все, з  чим працює комп'ютер, за суттю є даними, і  свого роду метадані супроводжують будь-які дані, то  це поняття дотичне до будь-якої сфери застосувань і набуває різних форм залежно від  застосування.

Метадані систем сховищ даних іноді розділяють на  два типи:

1) службові метадані, що використовуються для функцій витягання, перетворення і  завантаження, для перенесення інформації з  транзакційних систем у сховищі;

2) інтерфейсні метадані, що використовуються для опису екранів і  створення звітів.

Є наступні типи метаданих у  сховищі:

  •  метадані початкової системи:
  •  специфікації джерел даних, таких як репозиторії;
  •  описова інформація (наприклад, частота оновлення, юридичні обмеження і  методи доступу);
  •  інформація про  процеси, такі як графік завдань і  коди витягання;
    •  метадані перетворення даних:
  •  інформація про  отримання даних (наприклад, планування передавання даних і  результатів, а також відомості про  використання файлів);
  •  керування таблицями вимірів, наприклад, визначення вимірів і  присвоєння суроґатних ключів;
  •  перетворення і  аґреґація, наприклад, розширення і  відображення даних, програми (скрипти) завантаження СКБД, визначення аґреґатів даних;
  •  документування перевірок, робіт і  журналів, наприклад, журналів перетворення даних і  записів стеження за  походженням даних;
    •  метадані СКБД, такі як:
  •  зміст системних таблиць СКБД;
  •  рекомендації з опрацювання.

У загальному випадку, для користувача сховища даних потрібні метадані, принаймні, наступних типів.

  •  Описи структур даних, їх взаємозв'язків.
    •  Інформація про дані, що зберігаються у сховищі, і підтримувані ним аґреґати даних.
    •  Інформація про джерела даних і про міру їх достовірності. Одна і та ж інформація могла потрапити у сховище даних з різних джерел. Користувач повинен мати можливість взнати, яке джерело було вибране основним, і яким чином здійснюється узгодження і очищення даних.
    •  Інформація про періодичність оновлень даних. Бажано знати не тільки те, якому моменту часу відповідають необхідні для користувача дані, але і коли вони наступного разу будуть оновлені.
    •  Інформація про власників даних. Користувачу системи підтримки прийняття рішень може виявитися корисною інформація про наявність в системі даних, до яких він не має доступу, про власників цих даних і про дії, які він повинен зробити, щоб дістати доступ до даних.
    •  Статистичні оцінки часу виконання запитів. До виконання запиту корисно мати хоч би приблизну оцінку часу, який буде потрібний для отримання відповіді, і обсягу цієї відповіді.

Роль метаданих у сховищі

Найкраще можна пояснити сутність метаданих, описуючи їх роль і  призначення в реалізації процесів сховища даних. Метадані можна використовувати трьома способами:

  •  пасивно, забезпечуючи чітку документацію про структуру, процес розроблення і  використання системи СД; доступна документація необхідна всім учасникам (тобто кінцевим користувачам, системним адміністраторам, а також розробникам застосувань);
    •  активно, шляхом зберігання конкретних семантичних аспектів (наприклад, правил перетворення) у вигляді метаданих, які можна інтерпретувати і  використовувати під час виконання; у цьому випадку процеси сховища даних керуються метаданими. А отже, код (тобто активні метадані) і  додаткова документація погоджено і  уніфіковано керуються в  одному репозиторії, при цьому актуальність документації зростає;
    •  напівактивно, за рахунок зберігання статичної інформації (наприклад, визначень структур, специфікацій конфігурацій), яку прочитуватиме інший програмний компонент під час виконання; наприклад, опрацьовувачам запитів необхідні метадані для перевірки існування атрибутів; на відміну від  активного використання, тут метадані тільки читаються, але  не  викону-ються.

Створення і  керування метаданими служить двом цілям:

1) мінімізації робіт з розроблення і адміністрування СД;

2) ефективнішому витяганню інформації з  СД.

Перша мета, в основному, стосується:

  •  підтримки інтеґрації систем:
  •  схеми й  інтеґрація даних залежать від  метаданих, що описують структуру і  сенс окремих джерел даних і  цільових систем;
  •  правила перетворення можна застосувати до  початкових даних і  зберігати як мета дані;
  •  більше того, інтеґрація різних інструментів можлива тільки тоді, коли вони розділяють «дані», які в такому випадку є метаданими системи сховища даних;
    •  підтримки аналізу і  проектування нових застосувань:
  •  метадані підвищують контрольованість і  надійність процесу розроблення застосувань, забезпечуючи інформацію про  сенс даних, їх  структуру і джерела;
  •  метадані, що стосуються рішень з  проектування застосувань, можна використовувати повторно;
    •  підвищення гнучкості системи і  можливості повторного використання наявних програмних модулів:
  •  це можливо тільки для активного і  напівактивного використання метаданих; семантичні аспекти, що швидко змінюються, явним чином зберігаються у вигляді метаданих поза прикладними програмами;
  •  підтримка істотно простіша;
  •  систему можна розширити і  адаптувати без жодних труднощів;
  •  цей підхід також дає можливість повторного використання «фраґментів коду»;
    •  автоматизації адміністративних процесів.
  •  метадані керуються запуском різних процесів СД (наприклад, завантаження і  оновлення);
  •  інформація про  їх  виконання (журнали доступу, кількість доданих у сховищі записів і  т.ін.) також міститься в  репозиторії, легко доступному адміністратору;
    •  посилення механізмів безпеки:
  •  метадані повинні забезпечити правила доступу і  призначені для користувача права для всієї системи СД;
  •  керування доступом в  сховищі даних іноді вимагає застосування складних методів; наприклад, оперативне джерело може містити нешкідливу інформацію про  окремі показники роботи компанії, проте сумарні значення у сховищі іноді виявляються найважливішим секретом; з другого боку, персональні доходи кожного співробітника є таємницею, але  при цьому підсумкова сума зарплат в  СД  може зовсім не  бути критичною інформацією.

Друга мета відноситься до ефективного витягання інформації, а точні
ше до:

  •  підвищення якості даних. Якість даних визначається наступними характеристиками:

1) узгодженістю (чи є  подання даних однорідним, чи немає  дублікатів, даних з  пересічними або конфліктними визначеннями);

2)  повнотою (чи всі  дані присутні);

3) точністю (збігом значень, що зберігаються, і  фактичних);

4) своєчасністю (чи актуальне  значення, що зберігається у сховищі);

  •  правила перевірки якості даних;
    •  поліпшення взаємодії усередині системи сховища даних;
    •  поліпшення аналізу даних;
    •  застосування загальної термінології і  мови взаємодії усередині корпорації.

Правила перевірки якості даних необхідно задати, зберегти у вигляді метаданих і  перевіряти при кожному оновленні сховища даних. Крім того, висока якість вимагає підтримки контролю даних. Метадані забезпечують інформацію про  час створення і  про  автора даних, про  джерело, значення даних у момент отримання (про  спадковість даних), і  про  подальший шлях від  джерела до  поточного місцеперебування (data lineage — про  походження даних). Отже, користувачі можуть відновити ланцюжок, яким рухаються дані за час перетворення, і  перевірити точність поверненої інформації;

Поліпшення взаємодії усередині системи сховища даних. Взаємодія відбувається як за допомогою виконання простих запитів і  звітних застосувань, так і  з використанням складних аналітичних інструментів. Метадані забезпечують відомості про  значення даних, термінологію і  бізнес-концепції підприємства, а також їх  зв'язок з  даними. Тому метадані підвищують якість запитів за рахунок точнішого і  строгого формулювання, а також скорочують витрати на  користувачів, яким необхідний доступ, оцінка і  застосування відповідної інформації;

Поліпшення аналізу даних. Методи аналізу даних подані широко — починаючи від  простих застосувань звітності та систем підтримки прийняття рішень і  закінчуючи складними застосуваннями видобування даних. У  цьому напрямі метадані необхідні для розуміння предметної області і  її  подання у сховищі з  тим, щоб адекватно застосувати і  інтерпретувати результати;

Застосування загальної термінології і  мови взаємодії усередині корпорації. Доступність метаданих як унікального джерела документації для користувачів має і  інші переваги. Вона ґарантує узгоджені засоби взаємодії й інтерпретації інформації зі сховища, а також усуває двозначність і  забезпечує узгодженість відомостей усередині компанії, дозволяє розділяти знання і  досвід.

Метадані системи сховища даних містяться в  репозиторії — структурованій системі зберігання і  витягання, реалізованій на основі СКБД. Для інтерпретації метаданих необхідно зберігати структуру репозиторію (тобто схему метаданих) і  їх  семантику.

Для інформації про дані сховища доцільно застосовувати шестивимірну класифікаційну схему Захмана (Zachman) (відповідно до відповідей на запитання що? хто? де? коли? чому? як?):

  •  об'єкти ( що?);
    •  суб'єкти (хто?);
    •  місцезнаходження (де?);
    •      час (коли?);
    •  фактори впливу, чинники (чому?);
    •  способи (як?).

При цьому використовується наступна формалізація:

  •  сутність або вміст сховища даних;
    •  люди, які використовують сховище даних;
    •  місцерозташування даних, важливе з погляду керування сховищем даних;
    •  моменти завантаження даних і обчислення підсумкових таблиць;
    •  рушійні сили створення і розвитку сховища даних;
    •  дії, які виконуються з даними;
    •  повчальні метадані (як новий чинник, що використовуватиметься для підтримки розвитку моделі сховища даних).

Метадані зберігаються в окремій базі даних метаданих або репозиторії. Системне програмне забезпечення для створення репозиторію пропонується рядом компаній, в першу чергу, розробниками СКБД.

Рис. 1. Модель Захмана в контексті побудови метаданих сховища даних.

Важливість цього ключового аспекту сховища даних можна продемонструвати у різних аспектах:

  •  єдині правила найменування об’єктів,
    •  єдині одиниці вимірювання для однотипних об’єктів,
    •  єдине фізичне подання однотипних об’єктів,
    •  єдині атрибути подання однотипних об’єктів, тощо.


Хід роботи

Для створення двох тестових таблиць, дані в яких перетинаються відберемо користувачів за датою реєстрації. Результат вибору з двох новостворених таблиць представлено на рисунку 1:

select *

into Users1

from Users

where RegistrationDate<'2012-02-01'

select *

into Users2

from Users

where RegistrationDate>='2011-12-01'

Рис. 1. Результат вибірки з двох таблиць з даними, що перетинаються

  1.  Виконаємо запит на об’єднання. Результат на приведено рисунку 2:

select * from Users1

union

select * from Users2

Рис. 2. Вибірка з об’єднанням

  1.  Виконаємо запит на перетин. Результат на приведено рисунку 3:

select * from Users1

where UserId in (select UserId from Users2)

Рис. 3. Вибірка з перетином

  1.  Виконаємо запит на різницю. Результат на приведено рисунку 4:

select * from Users1

where UserId not in (select UserId from Users2)

Рис. 4. Вибірка з різницею

  1.  Виконаємо запит на виконання декартового добутку. Результат на приведено рисунку 5:

select * from Users1, Users2

Рис. 5. Вибірка з декортовим добутком

Висновок: Під час виконання даної лабораторної роботи, я вивчив порядок, методи та засоби проектування структури та складу метаданих для сховищ даних за схемою Захмана, розроблення засобів навігації метаданих.


 

А также другие работы, которые могут Вас заинтересовать

13646. Революции – варварский способ прогресса 14.02 KB
  Революции варварский способ прогресса. Ж.Жорес Революция это коренной перелом в жизни общества ведущий к смене старых порядков на новые.Революции никогда не вписывались в канву истории. Они разрывали и перекраивали ход истории. Основанные на насилии все известные рев
13647. Революция – это переход от неправды к правде, от лжи к истине, от угнетения к справедливости, от обмана и страданий к прямолинейной честности и счастью 14.41 KB
  Революция это переход от неправды к правде от лжи к истине от угнетения к справедливости от обмана и страданий к прямолинейной честности и счастью Роберт ОуэнРеволюцию часто называют общественным взрывом именно поэтому на мой взгляд революция не решает полностью ...
13648. Свобода есть право на неравенство. Эссе 15.51 KB
  Тема: Свобода есть право на неравенство.Свобода это основная характеристика человеческого бытия его суть. Как писал немецкий философ Гегель: Свобода есть познанная необходимость. Свобода личности в различных ее проявлениях выступает сегодня важнейшей ценностью цив...
13649. Человек с множеством достоинств добавит к ним еще два, если окажется способным заработать и разумно потратить большие деньги 15.62 KB
  Эссе на тему: €œЧеловек с множеством достоинств добавит к ним еще два если окажется способным заработать и разумно потратить большие деньги€ Э. Севрус русский литераторЭкономика является важнейшей сферой жизни общества так как именно она обеспечивает людей материал
13650. Деньги - это свобода, выкованная из золота 14.46 KB
  Деньги это свобода выкованная из золота. Э.М. Ремарк Э.М. Ремарк называет деньги свободой. Деньги согласно Ремарку дают возможность их владельцу поступать так как он захочет. Например купить какие-либо товары дать их под залог обменять на ценные бумаги. Все это может ...
13651. Конкуренция - единственный метод взаимной координации наших индивидуальных действий без принуждения или произвольного вмешательства со стороны властей 14.06 KB
  Конкуренция единственный метод взаимной координации наших индивидуальных действий без принуждения или произвольного вмешательства со стороны властей. Ф. Хайек Поскольку данное высказывание дано в разделе экономика то под конкуренцией следует понимать эконо
13652. Конкуренция обеспечивает наилучшие качества продуктов и развивает наихудшие качества людей 15.19 KB
  Конкуренция обеспечивает наилучшие качества продуктов и развивает наихудшие качества людей Д. Сарнофф. Необходимым условием рыночной экономики является конкуренция т.е. соперничество борьба между предприятиями производящими сходную продукцию.Каково же значение
13653. ЦЕНООБРАЗОВАНИЕ В ГОСУДАРСТВЕННОМ СЕКТОРЕ И ГОСУДАРСТВЕННАЯ ПОЛИТИКА ЦЕН 7.79 MB
  Рынок - это сфера, пространство, где осуществляется купля-продажа товаров (продуктов, услуг). В самом общем виде цена выражается в сумме денег, за которую продавец готов продать свой товар, а покупатель готов его купить. Таким образом, цена - это компромисс между противоречивыми желаниями контрагентов.
13654. Бизнес-это искусство извлекать деньги из кармана другого человека, не прибегая к насилию 15.29 KB
  Бизнесэто искусство извлекать деньги из кармана другого человека не прибегая к насилию.Удивительно как точно М.Амстердам охарактеризовал суть бизнеса с точки зрения предпринимателя. Я с ним полностью согласна. Когда человек открывает свое дело он задается тремя вопр...