27152

Принципы построения систем, ориентированных на анализ данных

Доклад

Информатика, кибернетика и программирование

Принципы построения систем ориентированных на анализ данных Модели данных используемые при построении Хранилищ Данных В настоящее время наибольшее распространение получили три вида моделей хранилищ данных: многомерная реляционная и комбинированная. Измерения играют роль индексов используемых для идентификации конкретных значений данных. Вращение изменение порядка измерений; обычно для двухмерных сечений остальные фиксированные для приведения данных к форме удобной для восприятия; Свертка замена одного из значений измерения другим ...

Русский

2013-08-19

52.16 KB

2 чел.

7. Принципы построения систем, ориентированных на анализ данных

Модели данных, используемые при построении Хранилищ Данных

В настоящее время наибольшее распространение получили три вида моделей хранилищ данных: многомерная, реляционная и комбинированная. Рассмотрим их подробнее.

Многомерная модель. В многомерной модели данные хранятся в виде гиперкубов - упорядоченных многомерных массивов. При описании многомерной модели используют понятия Измерение и Значения :

Измерение - множество, образующее одну из граней куба. Измерения играют роль индексов, используемых для идентификации конкретных значений данных.

Значения - подвергаемые анализу количественные или качественные данные, которые находятся в ячейках гиперкуба.

Основные операции манипулирования изменениями:

Сечение - подмножество, в котором фиксировано значение одного или более измерений.

Вращение - изменение порядка измерений; обычно для двухмерных сечений (остальные фиксированные) для приведения данных к форме, удобной для восприятия;

Свертка - замена одного из значений измерения другим - укрупненным, например, “месяц” заменяется “годом”. Свертка может быть выполнена только над измерениями, в которых имеется иерархия значений (житель дома  все жители дома, квартала, улицы, города и т.д.).

Детализация - операция, обратная свертке. Например, ВУЗ может быть детализирован до факультета, факультет до потока, поток до группы, и т.д.

Главным достоинством многомерной модели является быстрота поиска данных. Данные находятся на пересечении измерений гиперкуба. Для их поиска не нужно организовывать связи между таблицами, как это делается в реляционных СУБД. Благодаря этому, среднее время ответа на сложный (нерегламентированный) запрос в многомерной модели на 1 - 2 порядка ниже, чем в реляционной.

Однако:

гиперкуб требует больших объемов дисковой памяти, т.к. в нем заранее резервируется место для каждого возможного данного;

этот объем резко увеличивается при высокой степени детализации данных ;

возникают сложности с модификацией данных, поскольку добавление еще одного измерения требует полной перестройки гиперкуба.

Таким образом, многомерную модель ХД целесообразно использовать, когда ее объем невелик (не более 10 - 20 гигабайт), а гиперкуб имеет стабильный во времени набор измерений.

Пример куба: факультеты, семестры, показатели (средняя детализация: отл - кол-во1, хор - кол-во2, общее количество студентов, обеспечения учебниками, ....).

Свертка: сведения о наборе одного факультета за все годы обучения.

Сечение - фиксируем: факультет и семестр.

Реляционная модель хранилища. Хранилища данных, построенные на основе реляционной модели, способны хранить огромные объемы информации, но проигрывают многомерным моделям в скорости выполнения запросов. В реляционной модели гиперкуб эмулируется СУБД на логическом уровне. Каждое измерение гиперкуба описывается отдельной - справочной таблицей, которая заполняется возможными значениями конкретного описываемого измерения. Фактические данные, наиболее часто используемые для анализа, группируются в таблице, называемой “фактологической”.

Строка фактологической таблицы кроме фактических данных, эквивалентных значениям, хранящимся в ячейках гиперкуба, содержит ссылки на соответствующие значения данных из справочных таблиц (измерений). Фактологическая таблица индексируется по сложному ключу, составленному из индивидуальных ключей справочных таблиц, что обеспечивает их связь с фактологической.

При малом числе измерений - не более 20, реляционные СУБД организуются по радиальной схеме. Другое название этой схемы - звезда (star). При числе измерений более 20, используется схема снежинка (snowflake).

Схема звезда использует только фактологическую таблицу - дочернее отношение, и набор справочных таблиц измерений - родительские отношения. Пример реализации хранилища данных по схеме звезда приведен на рис.6.2.1. В схеме снежинка появляются дополнительные справочные таблицы более высокого уровня иерархии, которые детализируют информацию, хранящуюся в справочных таблицах звезды.

Рис.6.2.1. Эмуляция гиперкуба в РСУБД (схема звезда)

На рис.6.2.2  показана детализация некоторых атрибутов справочных таблиц Группа обучаемых и Дисциплина. После этой детализации схема звезда превращается в схему снежинка.

Рис.6.2.2. Эмуляция гиперкуба в РСУБД (схема снежинка)

Комбинация многомерного и реляционного подхода. В последние несколько лет стали применять комбинированные хранилища данных, в которых реляционная СУБД объединена с целым набором многомерных. Реляционная база данных в этом случае является центральным хранилищем и позволяет накапливать огромные объемы информации. Данные, необходимые конкретным аналитическим приложениям, выделяются из центрального хранилища в многомерные базы данных. Каждая многомерная база хранит информацию по одному из направлений деятельности организации.

Выделенная информация называется киоском данных (Data Marts) или тематическим хранилищем. Использование киосков позволяет производить быструю обработку данных при выполнении аналитических запросов. Создание киосков основывается на том, что ситуации, когда для анализа необходима вся информация хранилища, возникают редко.

Каждый аналитик (аналитический отдел) обслуживает одно направление деятельности организации, а реальный объем данных, необходимых для решения конкретных задач такого отдела, удовлетворяет требованиям, предъявляемым к многомерным СУБД. Логическая схема комбинированного хранилища данных приведена на рис.6.2.3.

Рис.6.2.3. Логическая схема комбинированного хранилища данных

Данные поступают в хранилище из разных источников. Процесс загрузки начинается с приведения данных к единому формату и включает в себя:

исключение управляющих кодов (TAB, CR, LF, …),

унификацию типов данных,

унификацию представления данных - их приведение к одинаковым единицам измерения.

Затем производится анализ данных на предмет устранения дублирующихся и некорректных значений - выбросов, а также восстановления пропущенных значений.

Последний этап обработки - агрегирование данных, т.е. вычисление обобщенных статистических показателей для тематических хранилищ.

Обработанные данные загружаются в центральное хранилище, а из центрального хранилища подкачиваются в киоски данных - тематические хранилища.

Дополнительно:

В области информационных технологий существуют два класса информационными систем (и соответственно, два класса задач):

OLTP-системы и

DSS-системы.

OLTP-системы - системы оперативной обработки транзакций. Основная функция подобных систем заключается в одновременном выполнении большого количества коротких транзакций от большого числа пользователей. Сами транзакции выглядят относительно просто, например, "снять сумму денег со счета А, добавить эту сумму на счет В".

Системы OLTP характеризуются:

поддержкой большого числа пользователей;

малым временем отклика на запрос;

относительно короткими запросами;

участие в запросах небольшого числа таблиц.

OLAP-технология представляет для анализа данные в виде многомерных (и, следовательно, нереляционных) наборов данных, называемых многомерными кубами (гиперкуб, метакуб, кубом фактов), оси которого содержат параметры, а ячейки - зависящие от них агрегатные данные. Пример. Трехмерный куб, где в качестве фактов использованы суммы продаж, а в качестве измерений - время, товар и магазин, определенных на разных уровнях группировки: товары группируются по категориям, магазины - по странам, а данные о времени совершения операций - по месяцам.

Подробнее: http://ami.nstu.ru/~vms/lecture/lecture9/lecture9.htm


 

А также другие работы, которые могут Вас заинтересовать

81454. Нарушения энергетического обмена: гипоэнергетические состояния как результат гипоксии, гипо-, авитаминозов и других причин. Возрастная характеристика энергетического обеспечения организма питательными веществами 102.97 KB
  Все живые клетки постоянно нуждаются в АТФ для осуществления различных видов жизнедеятельности. Клетки мозга потребляют большое количество АТФ для синтеза нейромедиаторов регенерации нервных клеток поддержания необходимого градиента N и К для проведения нервного импульса; почки используют АТФ в процессе реабсорбции различных веществ при образовании мочи; в печени происходит синтез гликогена жиров белков и многих других соединений; в миокарде постоянно совершается механическая работа необходимая для циркуляции крови; скелетные мышцы в...
81455. Образование токсических форм кислорода, механизм их повреждающего действия на клетки. Механизмы устранения токсичных форм кислорода 135.17 KB
  Механизмы устранения токсичных форм кислорода. В большинстве реакций с участием молекулярного кислорода его восстановление происходит поэтапно с переносом одного электрона на каждом этапе. При одноэлектронном переносе происходит образование промежуточных высокореактивных форм кислорода.
81456. Окислительное декарбоксилирование пировиноградной кислоты. Последовательность реакций. Строение пируватдекарбоксилазного комплекса 123.64 KB
  Превращение пирувата в ацетилКоА описывают следующим суммарным уравнением: СН3СОСООН ND HSKo → CH3CO ∼SKo NDH H CO2 В ходе этой реакции происходит окислительное декарбоксилирование пирувата в результате которого карбоксильная группа удаляется в виде СО2 а ацетильная группа включается в состав ацетил КоА. FD ND и КоА. Окислительное декарбоксилирование пирувата Превращение пирувата в ацетилКоА включает 5 стадий Стадия I. На стадии III КоА взаимодействует с ацетильным производным Е2 в результате чего образуются ацетилКоА...
81457. Цикл лимонной кислоты: последовательность реакций и характеристика ферментов. Связь между общими путями катаболизма и цепью переноса электронов и протонов 319.89 KB
  Цикл лимонной кислоты цитратный цикл цикл Кребса цикл трикарбоновых кислот ЦТК заключительный этап катаболизма в котором углерод ацетильного остатка ацетилКоА окисляется до 2 молекул СО2. Связь между атомами углерода в ацетилКоА устойчива к окислению. В условиях организма окисление ацетильного остатка происходит в несколько этапов образующих циклический процесс из 8 реакций: Последовательность реакций цитратного цикла Образование цитрата В реакции образования цитрата углеродный атом метильной труппы ацетилКоА связывается с...
81458. Механизмы регуляции цитратного цикла. Анаболические функции цикла лимонной кислоты. Реакции, пополняющие цитратный цикл 153.56 KB
  Регуляция цитратного цикла. В большинстве случаев скорость реакций в метаболических циклах определяется их начальными реакциями. В ЦТК важнейшая регуляторная реакция - образование цитрата из оксалоацетата и ацетил-КоА, катализируемая цитратсинтазой.
81459. Основные углеводы животных, их содержание в тканях, биологическая роль. Основные углеводы пищи. Переваривание углеводов 160.55 KB
  Переваривание углеводов Гликоген – главный резервный полисахарид высших животных и человека построенный из остатков Dглюкозы. Его молекула построена из ветвящихся полиглюкозидных цепей в которых остатки глюкозы соединены α1– 4гликозидными связями. При гидролизе гликоген подобно крахмалу расщепляется с образованием сначала декстринов затем мальтозы и наконец глюкозы. Крахмал разветвлённый полисахарид состоящий из остатков глюкозы гомогликан.
81460. Глюкоза как важнейший метаболит углеводного обмена. Общая схема источников и путей расходования глюкозы в организме 139.63 KB
  Общая схема источников и путей расходования глюкозы в организме Глюкоза является альдогексозой. Циклическая форма глюкозы предпочтительная в термодинамическом отношении обусловливает химические свойства глюкозы. Расположение Н и ОНгрупп относительно пятого углеродного атома определяет принадлежность глюкозы к D или Lряду. В организме млекопитающих моносахариды находятся в Dконфигурации так как к этой форме глюкозы специфичны ферменты катализирующие её превращения.
81461. Аэробный распад — основной путь катаболизма глюкозы у человека и других аэробных организмов. Последовательность реакций до образования пирувата (аэробный гликолиз) 220.81 KB
  Все ферменты катализирующие реакции этого процесса локализованы в цитозоле клетки. Реакции аэробного гликолиза Превращение глюкозо6фосфата в 2 молекулы глицеральдегид3фосфата Глюкозо6фосфат образованный в результате фосфорилирования глюкозы с участием АТФ в ходе следующей реакции превращается в фруктозо6фосфат. В ходе этой реакции катализируемой фосфофруктокиназой фруктозо6фосфат превращается в фруктозо16бисфосфат. Продукты реакции альдольного расщепления изомеры.
81462. Распространение и физиологическое значение аэробного распада глюкозы. Использование глюкозы для синтеза жиров в печени и в жировой ткани 103.86 KB
  Использование глюкозы для синтеза жиров в печени и в жировой ткани. Основное физиологическое назначение катаболизма глюкозы заключается в использовании энергии освобождающейся в этом процессе для синтеза АТФ. Энергия выделяющаяся в процессе полного распада глюкозы до СО2 и Н2О составляет 2880 кДж моль.