27152

Принципы построения систем, ориентированных на анализ данных

Доклад

Информатика, кибернетика и программирование

Принципы построения систем ориентированных на анализ данных Модели данных используемые при построении Хранилищ Данных В настоящее время наибольшее распространение получили три вида моделей хранилищ данных: многомерная реляционная и комбинированная. Измерения играют роль индексов используемых для идентификации конкретных значений данных. Вращение изменение порядка измерений; обычно для двухмерных сечений остальные фиксированные для приведения данных к форме удобной для восприятия; Свертка замена одного из значений измерения другим ...

Русский

2013-08-19

52.16 KB

5 чел.

7. Принципы построения систем, ориентированных на анализ данных

Модели данных, используемые при построении Хранилищ Данных

В настоящее время наибольшее распространение получили три вида моделей хранилищ данных: многомерная, реляционная и комбинированная. Рассмотрим их подробнее.

Многомерная модель. В многомерной модели данные хранятся в виде гиперкубов - упорядоченных многомерных массивов. При описании многомерной модели используют понятия Измерение и Значения :

Измерение - множество, образующее одну из граней куба. Измерения играют роль индексов, используемых для идентификации конкретных значений данных.

Значения - подвергаемые анализу количественные или качественные данные, которые находятся в ячейках гиперкуба.

Основные операции манипулирования изменениями:

Сечение - подмножество, в котором фиксировано значение одного или более измерений.

Вращение - изменение порядка измерений; обычно для двухмерных сечений (остальные фиксированные) для приведения данных к форме, удобной для восприятия;

Свертка - замена одного из значений измерения другим - укрупненным, например, “месяц” заменяется “годом”. Свертка может быть выполнена только над измерениями, в которых имеется иерархия значений (житель дома  все жители дома, квартала, улицы, города и т.д.).

Детализация - операция, обратная свертке. Например, ВУЗ может быть детализирован до факультета, факультет до потока, поток до группы, и т.д.

Главным достоинством многомерной модели является быстрота поиска данных. Данные находятся на пересечении измерений гиперкуба. Для их поиска не нужно организовывать связи между таблицами, как это делается в реляционных СУБД. Благодаря этому, среднее время ответа на сложный (нерегламентированный) запрос в многомерной модели на 1 - 2 порядка ниже, чем в реляционной.

Однако:

гиперкуб требует больших объемов дисковой памяти, т.к. в нем заранее резервируется место для каждого возможного данного;

этот объем резко увеличивается при высокой степени детализации данных ;

возникают сложности с модификацией данных, поскольку добавление еще одного измерения требует полной перестройки гиперкуба.

Таким образом, многомерную модель ХД целесообразно использовать, когда ее объем невелик (не более 10 - 20 гигабайт), а гиперкуб имеет стабильный во времени набор измерений.

Пример куба: факультеты, семестры, показатели (средняя детализация: отл - кол-во1, хор - кол-во2, общее количество студентов, обеспечения учебниками, ....).

Свертка: сведения о наборе одного факультета за все годы обучения.

Сечение - фиксируем: факультет и семестр.

Реляционная модель хранилища. Хранилища данных, построенные на основе реляционной модели, способны хранить огромные объемы информации, но проигрывают многомерным моделям в скорости выполнения запросов. В реляционной модели гиперкуб эмулируется СУБД на логическом уровне. Каждое измерение гиперкуба описывается отдельной - справочной таблицей, которая заполняется возможными значениями конкретного описываемого измерения. Фактические данные, наиболее часто используемые для анализа, группируются в таблице, называемой “фактологической”.

Строка фактологической таблицы кроме фактических данных, эквивалентных значениям, хранящимся в ячейках гиперкуба, содержит ссылки на соответствующие значения данных из справочных таблиц (измерений). Фактологическая таблица индексируется по сложному ключу, составленному из индивидуальных ключей справочных таблиц, что обеспечивает их связь с фактологической.

При малом числе измерений - не более 20, реляционные СУБД организуются по радиальной схеме. Другое название этой схемы - звезда (star). При числе измерений более 20, используется схема снежинка (snowflake).

Схема звезда использует только фактологическую таблицу - дочернее отношение, и набор справочных таблиц измерений - родительские отношения. Пример реализации хранилища данных по схеме звезда приведен на рис.6.2.1. В схеме снежинка появляются дополнительные справочные таблицы более высокого уровня иерархии, которые детализируют информацию, хранящуюся в справочных таблицах звезды.

Рис.6.2.1. Эмуляция гиперкуба в РСУБД (схема звезда)

На рис.6.2.2  показана детализация некоторых атрибутов справочных таблиц Группа обучаемых и Дисциплина. После этой детализации схема звезда превращается в схему снежинка.

Рис.6.2.2. Эмуляция гиперкуба в РСУБД (схема снежинка)

Комбинация многомерного и реляционного подхода. В последние несколько лет стали применять комбинированные хранилища данных, в которых реляционная СУБД объединена с целым набором многомерных. Реляционная база данных в этом случае является центральным хранилищем и позволяет накапливать огромные объемы информации. Данные, необходимые конкретным аналитическим приложениям, выделяются из центрального хранилища в многомерные базы данных. Каждая многомерная база хранит информацию по одному из направлений деятельности организации.

Выделенная информация называется киоском данных (Data Marts) или тематическим хранилищем. Использование киосков позволяет производить быструю обработку данных при выполнении аналитических запросов. Создание киосков основывается на том, что ситуации, когда для анализа необходима вся информация хранилища, возникают редко.

Каждый аналитик (аналитический отдел) обслуживает одно направление деятельности организации, а реальный объем данных, необходимых для решения конкретных задач такого отдела, удовлетворяет требованиям, предъявляемым к многомерным СУБД. Логическая схема комбинированного хранилища данных приведена на рис.6.2.3.

Рис.6.2.3. Логическая схема комбинированного хранилища данных

Данные поступают в хранилище из разных источников. Процесс загрузки начинается с приведения данных к единому формату и включает в себя:

исключение управляющих кодов (TAB, CR, LF, …),

унификацию типов данных,

унификацию представления данных - их приведение к одинаковым единицам измерения.

Затем производится анализ данных на предмет устранения дублирующихся и некорректных значений - выбросов, а также восстановления пропущенных значений.

Последний этап обработки - агрегирование данных, т.е. вычисление обобщенных статистических показателей для тематических хранилищ.

Обработанные данные загружаются в центральное хранилище, а из центрального хранилища подкачиваются в киоски данных - тематические хранилища.

Дополнительно:

В области информационных технологий существуют два класса информационными систем (и соответственно, два класса задач):

OLTP-системы и

DSS-системы.

OLTP-системы - системы оперативной обработки транзакций. Основная функция подобных систем заключается в одновременном выполнении большого количества коротких транзакций от большого числа пользователей. Сами транзакции выглядят относительно просто, например, "снять сумму денег со счета А, добавить эту сумму на счет В".

Системы OLTP характеризуются:

поддержкой большого числа пользователей;

малым временем отклика на запрос;

относительно короткими запросами;

участие в запросах небольшого числа таблиц.

OLAP-технология представляет для анализа данные в виде многомерных (и, следовательно, нереляционных) наборов данных, называемых многомерными кубами (гиперкуб, метакуб, кубом фактов), оси которого содержат параметры, а ячейки - зависящие от них агрегатные данные. Пример. Трехмерный куб, где в качестве фактов использованы суммы продаж, а в качестве измерений - время, товар и магазин, определенных на разных уровнях группировки: товары группируются по категориям, магазины - по странам, а данные о времени совершения операций - по месяцам.

Подробнее: http://ami.nstu.ru/~vms/lecture/lecture9/lecture9.htm


 

А также другие работы, которые могут Вас заинтересовать

37158. Особенности генезиса капитализма в России в конце XIX века 57.55 KB
  Особенности генезиса капитализма в России в конце XIX века. Развитие капитализма и формирование промышленного пролетариата в России в 60х середине 90х годов XIX в. Капиталистические отношения охватывали все сферы экономики способствовали ускорению темпов развития народного хозяйства России. Сельское хозяйство России в пореформенный период И после реформы 1861 г .
37159. Социально-политический строй России начала XX века. Основные классы и сословия 24.63 KB
  Социальнополитический строй России начала XX века. Социальная структура России в конце XIX начале XX в. на тысячу населения приходилось 44 родившихся и снижения смертности которая впрочем в России в 1913 г . Социальная структура России в конце XIX начале XX в.
37160. Древняя Русь при первых Рюриковичах. Внутренняя и внешняя политика. «Повесть временных лет». Норманнская теория 21.81 KB
  Походами на вятичей литовцев радимичей болгар Владимир укрепил владения Киевской Руси. Принятие христианства не только уравняло Киевскую Русь с соседними государствами но и оказало огромное влияние на культуру быт и нравы древней Руси.При Ярославе Владимировиче прозванном Мудрым начал оформляться единый для всей Руси судебный кодекс Русская Правда. В Киеве Новгороде Полоцке были построены величественные соборы святой Софии что должно было показать церковную самостоятельность Руси.
37161. Принятие христианства. Владимир Первый. Развитие Руси при Ярославе Мудром. «Русская правда» 18.69 KB
  Развитие Руси при Ярославе Мудром. Древние русичи были язычниками поклонялись множеству богов бог неба Сварог бог Солнца Дажбог бог грома и молний Перун и т. Христианство было уже известно на Руси и до крещения Владимира. Однако будущий креститель Руси начинал свой путь убежденным язычником и прошло немало времени пока изменились его взгляды.
37162. Феодальная раздробленность, ее причины и последствия 12.55 KB
  После смерти Ярослава Мудрого в развитии государства усиливаются центробежные тенденции начинается один из сложнейших периодов истории древней Руси период феодальной раздробленности растянувшийся на несколько веков. Процесс феодальной раздробленности на Руси был обусловлен укреплением власти крупнейших феодалов на местах и зарождением местных административных центров. Период феодальной раздробленности охватывает в целом XIIXV вв. когда уже начался процесс феодальной консолидации число их приближалось к 250.
37163. Три основных центра Руси. Владимирское и Галицко-Волынское княжетсва. Новгородская феодальная республика 29.58 KB
  Под влияние ростовосуздальского князя попали Рязань и Муром. Хотя власть великого князя безвозврат но ушла в прошлое но княжение в Киеве подчеркивало старшинство князя. Последующие поколения русских князей назы вавшие свои княжества великими а себя великими князьями та кого пиетета к титулу великого киевского князя уже не испытывали. Он претендуя на титул велико го князя всех земель Руси в 1169 году захватил Киев и учинил там полный разгром превзойдя в этом половцев.
37164. Установление монголо-татарского ига и его последствия для народов Руси 21.29 KB
  Организация монгольского войска была основана на десятичном принципе 10 100 1000 и т. войска Чингисхана вторглись в Среднюю Азию. Вслед за Средней Азией был захвачен Северный Иран после чего войска Чингисхана совершили грабительский поход в Закавказье. Битва между русскополовецкими и монгольскими войсками произошла 31 мая 1223 г.
37165. Предпосылки объединения русских земель в XIV в. Начало возвышения Московского княжества 20.47 KB
  Предпосылки объединения русских земель в XIV в. В то же время стержнем политической жизни этого периода становится объединительный процесс русских земель. Территориальным ядром формирования русской народности и Русского государства становится ВладимироСуздальская земля в которой постепенно возвышается Москва превращаясь в центр политического объединения русских земель. В условиях феодальной раздробленности и агрессии немецких рыцарских орденов южные и югозападные земли в том числе и Киев вошли в состав Княжества Литовского поэтому...
37166. Образование централизованного Российского государства. Иван Третий. Свержение ордынского ига 13.64 KB
  Завершение процесса объединения русских земель вокруг Москвы в централизованное государство приходится на годы правления Ивана III 1462 1505 гг. и Василия III 1505 1533 гг. На протяжении 150 лет до Ивана III шло собирание русских земель и сосредоточение власти в руках Московских князей. При Иване III великий князь возвышается над остальными князьями не только количеством силы и владений но и объемом власти.