27150

ВВЕДЕНИЕ В OLAP

Доклад

Информатика, кибернетика и программирование

И если количество аналитиков в десятки раз меньше числа кассиров то объемы данных необходимых для анализа превышают размер средней транзакции на несколько порядков величины. Технология OLAP Online Analytical Processing представляет собой методику оперативного извлечения нужной информации из больших массивов данных и формирования соответствующих отчетов. Однако вскоре выяснилось что OLAPсистемы очень плохо справляются с ролью посредника между различными транзакционными системами источниками данных и клиентскими приложениями.

Русский

2013-08-19

336.95 KB

11 чел.

Анализ данных

ВВЕДЕНИЕ В OLAP

Любая транзакционная система, как правило, содержит два типа таблиц. Один из них отвечает за быстрые транзакции. Например, при продаже билетов необходимо обеспечить работу большого числа кассиров, которые обмениваются с системой короткими сообщениями. Вводимая и распечатываемая информация, касающаяся фамилии пассажира, даты вылета, рейса, места, пункта назначения, может быть оценена в 1000 байт. Таким образом, для обслуживания пассажиров необходима быстрая обработка коротких записей.

Другой тип таблиц содержит итоговые данные о продажах за указанный срок, по направлениям, по категориям пассажиров. Эти таблицы используются аналитиками и финансовыми специалистами раз в месяц, или в конце года, когда необходимо подвести итоги деятельности компании. И если количество аналитиков в десятки раз меньше числа кассиров, то объемы данных, необходимых для анализа, превышают размер средней транзакции на несколько порядков величины. Естественно, что во время выполнения аналитических работ время отклика системы на запрос о наличии билета увеличивается.

Вторым фактором, приведшим к разделению аналитических и транзакционных систем, являются разные требования, которые предъявляют аналитические и транзакционные системы к вычислительным комплексам.

Технология OLAP (Online Analytical Processing) представляет собой методику оперативного извлечения нужной информации из больших массивов данных и формирования соответствующих отчетов.

История OLAP начинается в 1993. Первоначально казалось, что разделения транзакционных и аналитических систем (OLTP – OLAP) вполне достаточно. Однако вскоре выяснилось, что OLAP–системы очень плохо справляются с ролью посредника между различными транзакционными системами - источниками данных и клиентскими приложениями.

Стало ясно, что необходима среда хранения аналитических данных. И поначалу на эту роль претендовали единые базы данных, в которые предлагалось копировать исходную информацию из источников данных. Эта идея оказалась не вполне жизнеспособной, поскольку транзакционные системы разрабатывались, как правило, без единого плана, и содержали противоречивую и несогласованную информацию.

 

Эволюция понимания места OLAP в архитектуре

Так появились ХД, предназначенные для надежного хранения информации, и системы извлечения, очистки и загрузки данных (ETL). OLAP-системы работали поверх хранилищ данных.

Вскоре выяснилось, что ХД накапливают настолько важную для организации информацию, что всякий несанкционированный доступ в хранилище чреват серьезными финансовыми потерями. Кроме того, ориентированные на надежное хранение форматы данных плохо сочетаются с требованиями быстрого информационного обслуживания. Территориальная распределенность и организационная структура предприятия также требуют специфического подхода к информационному обслуживанию каждого подразделения. Решением является витрины данных, которые содержат необходимое подмножество информации из хранилища. Наполнение витрин из хранилища может происходить в часы спада активности пользователей. В случае сбоя информация может быть легко восстановлена из хранилища с минимальными потерями.

Витрины данных могут обслуживать задачи отчетности, статистического анализа, планирования, сценарных расчетов, и, в том числе, многомерного анализа. Таким образом, системы OLAP, первоначально претендовавшие на роль чуть ли не половины вычислительного мира (отдавая вторую половину OLTP системам), в настоящее время занимают место аналитических средств уровня рабочих групп.

Зачем строить хранилища данных - ведь они содержат заведомо избыточную информацию, которая и так "живет" в базах или файлах оперативных систем? Ответить можно кратко: анализировать данные оперативных систем напрямую невозможно или очень затруднительно. Это объясняется разрозненностью данных, хранением их в форматах различных СУБД и в разных "уголках" корпоративной сети.

Таким образом, задача хранилища - предоставить "сырье" для анализа в одном месте и в простой, понятной структуре. Есть и еще одна причина – сложные аналитические запросы к оперативной информации тормозят текущую работу компании, надолго блокируя таблицы и захватывая ресурсы сервера.

Централизация и удобное структурирование - это далеко не все, что нужно аналитику. Ему ведь еще требуется инструмент для просмотра, визуализации информации. Традиционные отчеты, даже построенные на основе единого хранилища, лишены одного - гибкости. Их нельзя "покрутить", "развернуть" или "свернуть", чтобы получить желаемое представление данных. В качестве такого инструмента и выступает OLAP.

OLAP предоставляет удобные быстродействующие средства доступа, просмотра и анализа деловой информации. Пользователь получает естественную, интуитивно понятную модель данных, организуя их в виде многомерных кубов.

Принцип организации многомерного куба

В ячейке 1 будут располагаться факты, относящиеся к продаже цемента ООО «Спецстрой» 3 ноября, в ячейке 2 — к продаже плит ЗАО «Пирамида» 6 ноября, а в ячейке 3 — к продаже плит ООО «Спецстрой» 4 ноября.

Фактами в данном случае могут быть Цена, Количество, Сумма. Тогда выделенный сегмент будет содержать информацию о том, сколько плит, на какую сумму и по какой цене приобрела фирма ЗАО «Строитель» 3 ноября.


Измерения и факты в многомерном кубе

Работа с измерениями

В процессе поиска и извлечения из гиперкуба нужной информации над его измерениями производится ряд действий, наиболее типичными из которых являются:

  1. сечение (срез);
  2. транспонирование (вращение);
  3. свертка (консолидация);
  4. детализация.

А) Сечение

Даже трехмерный куб сложно отобразить на экране компьютера так, чтобы были видны значения интересующих мер. Что уж говорить о кубах с количеством измерений, большим трех? Для визуализации данных, хранящихся в кубе, применяются, как правило, привычные двумерные, т. е. табличные, представления, имеющие сложные иерархические заголовки строк и столбцов.

Сечение заключается в выделении подмножества ячеек гиперкуба при фиксировании значения одного или нескольких измерений. В результате сечения получается срез или несколько срезов, каждый из которых содержит информацию, связанную со значением измерения, по которому он был построен.

Двумерное представление куба можно получить, "разрезав" его поперек одной или нескольких осей (измерений): мы фиксируем значения всех измерений, кроме двух, - и получаем обычную двумерную таблицу. В горизонтальной оси таблицы (заголовки столбцов) представлено одно измерение, в вертикальной (заголовки строк) - другое, а в ячейках таблицы - значения фактов. При этом набор фактов фактически рассматривается как одно из измерений - мы либо выбираем для показа один из фактов (и тогда можем разместить в заголовках строк и столбцов два измерения), либо показываем несколько фактов (и тогда одну из осей таблицы займут названия мер, а другую - значения единственного "неразрезанного" измерения). 

Манипулируя, таким образом, сечениями гиперкуба, пользователь всегда может получить информацию в нужном разрезе. Затем на основе построенных срезов может быть сформирована кросс-таблица и с ее помощью очень быстро получен необходимый отчет. Данная методика лежит в основе технологии OLAP-анализа.

На рисунке схематично представлены сечения гиперкуба. Слева сечение выполнено при некотором фиксированном значении измерения Дата. Полученный срез (светло-серая область) содержит информацию обо всех товарах и всех покупателях на определенную дату. На правом фрагменте рисунка получено два среза, пересечение которых будет содержать информацию обо всех покупателях, но на определенный товар и на определенную дату.


Сечения гиперкуба

Здесь изображен двумерный срез куба для одного факта - Unit Sales (продано штук) и двух "неразрезанных" измерений - Store (Магазин) и Время (Time).


Двумерный срез куба для одного факта

Здесь представлено лишь одно "неразрезанное" измерение - Store, но зато здесь отображаются значения нескольких мер - Unit Sales (продано штук), Store Sales (сумма продажи) и Store Cost (расходы магазина).


Двумерный срез куба для нескольких фактов

Двумерное представление куба возможно и тогда, когда "неразрезанными" остаются и более двух измерений. При этом на осях среза (строках и столбцах) будут размещены два или более измерений "разрезаемого" куба.


Двумерный срез куба с несколькими измерениями на одной оси

Метки

Значения, "откладываемые" вдоль измерений, называются членами или метками (members). Метки используются как для "разрезания" куба, так и для ограничения (фильтрации) выбираемых данных - когда в измерении, остающемся "неразрезанным", нас интересуют не все значения, а их подмножество, например три города из нескольких десятков. Значения меток отображаются в двумерном представлении куба как заголовки строк и столбцов.

Иерархии и уровни

Метки могут объединяться в иерархии, состоящие из одного или нескольких уровней (levels). Например, метки измерения "Магазин" (Store) естественно объединяются в иерархию с уровнями:

   All (Мир)

      Country (Страна)

         State (Штат)

            City (Город)

               Store (Магазин).

В соответствии с уровнями иерархии вычисляются агрегатные значения, например объем продаж для USA (уровень "Country") или для штата California (уровень "State"). В одном измерении можно реализовать более одной иерархии - скажем, для времени: {Год, Квартал, Месяц, День} и {Год, Неделя, День}.

Б) Транспонирование

Транспонирование (вращение) обычно применяется к плоским таблицам, полученным, например, в результате среза, и позволяет изменить порядок представления измерений таким образом, что измерения, отображавшиеся в столбцах, будут отображаться в строках, и наоборот. В ряде случаев транспонирование позволяет сделать таблицу более наглядной.

В) Свертка

Операции свертки (группировки) и детализации (декомпозиции) возможны только тогда, когда имеет место иерархическая подчиненность значений измерений. При свертке одно или несколько подчиненных значений измерений заменяются теми значениями, которым они подчинены. При этом уровень обобщения данных уменьшается. Так, если отдельные товары образуют группы, например Стройматериалы, то в результате свертки вместо отдельных наименований товаров будет указано наименование группы, а соответствующие им факты будут агрегированы.

 

Проиллюстрируем результаты свертки: в табл. 2 представлена исходная таблица, а в табл. 3 — результат ее свертки по измерению Товар.

Таблица 2. Исходная таблица 

Группа 

Товар 

Сумма 

Стройматериалы

Кирпич

22 000

Цемент

12 000

Керамзит

4500

Доска

7400

Инструмент

Отвертка

1200

Электропила

7600

Дрель

2450

Шпатель

780

Таблица 3. Результат свертки исходной таблицы по измерению «Товар» 

Группа 

Сумма 

Стройматериалы

45 900

Инструмент

12 030

В) Детализация

Детализация — это процедура, обратная свертке; уровень обобщения данных уменьшается. При этом значения измерений более высокого иерархического уровня заменяются одним или несколькими значениями более низкого уровня, то есть вместо наименований групп товаров отображаются наименования отдельных товаров.

 

Например, если при анализе данных о продажах в Северной Америке выполнить операцию детализации для измерения "Регион", то будут отображены такие элементы, как "Канада", "Восточные штаты США" и "Западные штаты США". В результате дальнейшей детализации элемента "Канада" будут отображены элементы "Торонто", "Ванкувер" и т.д.


 

А также другие работы, которые могут Вас заинтересовать

26700. Строение фундамента ВЕП 119 KB
  Строение фундамента ВЕП Архейские и частично нижнепротерозойские отложения представляют собой толщи первичноосадочных вулканогенноосадочных и вулканогенных пород метаморфизованных в различной степени. Для расчленения пород фундамента важны данные определения абсолютного возраста. Выходы фундамента на поверхность. Рельеф фундамента и современная структура платформы В пределах ВЕП структуры первого порядка выделяются Балтийский и Украинский щиты и Русская плита.
26701. Сибирские траппы 1.13 MB
  Отложения нижнего рифея распространены на востоке платформы в КамскоБельском Пачелмском Ладожском Среднерусском и Московском авлакогенах. Местами в нижнем рифее известны вулканогенные породы: горизонты базальтовых пеплов туфов и покровы базальтов а в западных районах платформы в это время внедрялись габбродиабазовые интрузии. Возможно что первоначально эти отложения имели более широкое площадное распространение а позднее они были частично размыты и сохранились лишь в наиболее прогнутых участках платформы. На западе и в...
26702. Региональная геология» («Геология России») Часть 2. Подвижные пояса неогея 2.4 MB
  2009 г Казанский государственный университет 2009 г СОДЕРЖАНИЕ ВВЕДЕНИЕ 4 ГЕОДИНАМИЧЕСКИЕ ОБСТАНОВКИ В ИСТОРИИ РАЗВИТИЯ ПОДВИЖНЫХ ПОЯСОВ 5 УРАЛОАЗИАТСКИЙ ПОДВИЖНЫЙ ПОЯС 30 Уральская складчатая область 30 ТиманоПечороБаренцевоморская складчатая зона 41 ПайхойскоНовоземельская складчатая зона 46 АлтаеСаянская область 50 СаяноЕнисейская область 59 ТуруханоНорильская зона поднятий 59 Складчатое сооружение Енисейского кряжа 59 Cкладчатое сооружение Восточного Саяна 61...
26703. Региональная геология» (Геология России) Часть 1. Древние платформы 1.32 MB
  Слагающие его каледонские комплексы представленные позднепротерозойскими и раннепалеозойскими отложениями надвинуты в юговосточном направлении на Балтийский щит ВЕП. Об этом свидетельствует в частности наличие в каледонских структурах ряда тектонических окон в которых обнажаются автохтонные раннедокембрийские отложения фундамента ВЕП. На большей части ВЕП он перекрыт платформенным чехлом сложенным горизонтально или пологозалегающими отложениями верхнего протерозоя и фанерозоя общей мощностью от нескольких сотен метров до 510 и...
26704. Материки и океаны являются наиболее крупными элементами в строении Земной коры. Говоря об океанах, следует иметь в виду строение коры в пределах участков, занимаемых океанами 182.5 KB
  Материки и океаны являются наиболее крупными элементами в строении Земной коры. Говоря об океанах следует иметь в виду строение коры в пределах участков занимаемых океанами. Срединноокеанические хребты рассматриваются как участки растяжения земной коры или зоны спрединга. Океани́ческая кора́ тип земной коры распространенный в океанах.
26705. Сибирские траппы 314.5 KB
  Одним из таких фрагментов начиная с рифейского времени и являлась ВЕП в современных ограничениях. Осадочный платформенный чехол мегакомплекс ВЕП подразделяется на два мегаэтажа: авлакогенный нижний и плитный верхний. Формирование названных этажей происходило во временных рамках одноименных авлакогенного и плитного мегаэтапов развития ВЕП В течение рифея и раннего венда большая часть ВЕП сохраняла приподнятое положение подвергалась воздействию процессов денудации и служила источником обломочного материала сносившегося в пределы...
26706. Древние платформы являются устойчивыми глыбами земной коры, сформировавшимися в позднем архее или раннем протерозое 47 KB
  Древние платформы являются устойчивыми глыбами земной коры сформировавшимися в позднем архее или раннем протерозое. Фундамент платформ формировался в течение длительного времени в архее и раннем протерозое и впоследствии подвергся очень сильному размыву и денудации в результате которых вскрылись породы залегавшие раньше на большой глубине. Площадь древних платформ на материках приближается к 40 и для них характерны угловатые очертания с протяженными прямолинейными границами следствием краевых швов глубинных разломов. Складчатые...
26707. Строение земной коры 52.5 KB
  В составе континентальной коры содержащей под осадочным слоем верхний гранитный и нижний базальтовый встречаются наиболее древние породы Земли возраст которых оценивается более чем в 3 млрд. Твердый слой верхней мантии распространяющийся до различных глубин под океанами и континентами совместно с земной корой называют литосферой самой жесткой оболочкой Земли. Это внешняя граница ядра Земли. Местами этот слой порождает огромные направленные к поверхности Земли тепломассопотоки плюмы.
26708. Роль и место Европы в современном мире 10.91 KB
  Европейский Союз включает три структурных компонента каждый со своим автономным правопорядком. В научной литературе и нередко в официальных документах эти компоненты именуются опоры Союза. и сохранившиеся после учреждения Союза. Следовательно Европейский Союз как целое имеет в качестве первой опоры две другие организации каждая из которых обладает собственным учредительным договором.