27143

Принципы построения систем, ориентированных на анализ данных

Доклад

Информатика, кибернетика и программирование

Принципы построения систем ориентированных на анализ данных В базах предназначенных для оперативной обработки запросов данные хранятся в нормализованных отношениях. Для обслуживания аналитических систем создаются специальные многомерные хранилища данных в которых накапливается информация из различных источников за большой период времени. Другое отличие аналитических систем иной способ хранения данных. Это объясняется следующими причинами: используются большие информационные массивы; данные практически не обновляются а лишь...

Русский

2013-08-19

115.29 KB

1 чел.

7. Принципы построения систем, ориентированных на анализ данных

В базах, предназначенных для оперативной обработки запросов, данные хранятся в нормализованных отношениях. Для обслуживания аналитических систем создаются специальные многомерные хранилища данных, в которых накапливается информация из различных источников за большой период времени(.

В связи с этим в них используются специализированные языки, ориентированные на аналитическую обработку, либо создаются специальные приложения для решения конкретных аналитических задач.

Другое отличие аналитических систем - иной способ хранения данных. Это объясняется следующими причинами:

  1.  используются большие информационные массивы;
  2.  данные практически не обновляются, а лишь добавляются (процессы накопления и считывания);
  3.  большинство задач требует хронологической упорядоченности данных;
  4.  как правило, при решении задач используются обобщенные данные.

Чтобы подчеркнуть эти отличия, базы данных для аналитических задач называются Хранилищами Данных (ХД). Данные поступают в хранилища из самых разных источников: считываются из электронных архивов, вычисляются системами операционной обработки, присылаются поставщиками информации. Пример представления данных в виде 3-мерного куба приведен на рис. 6.1.1.  

Рис. 6.1.1.  Пример 3-мерного куба

Как следствие, данные имеют различную структуру и форматы представления. Система управления ХД приводит данные к единому формату, устраняет дублирование и некорректные значения, после чего загружает в хранилище. Пользователи (аналитики) получают доступ к хранилищу через клиентские приложения.

Основные задачи, которые требуется решать при создании ХД:

  1.  выбор оптимальной структуры хранения с точки зрения требуемого объема памяти и приемлемого времени отклика на аналитические запросы;
  2.  способ первоначального заполнения и последующих пополнений хранилища;
  3.  обеспечение удобства доступа к данным.

Сравнительные характеристики использования данных в системах операционной и аналитической обработки приведены в таблице 6.1.1.

Таблица 6.1.1.

Свойства данных

Система

Операционной обработки

Аналитической обработки

Назначение

Оперативный поиск, несложные виды обработки

Аналитическая обработка, прогнозирование, моделирование

Уровень агрегации

Детализированные данные

Агрегированные данные

Время хранения

От нескольких месяцев до одного года

От нескольких десятков лет и более

Частота обновления

Высокая. Обновление малыми порциями

Низкая. Обновление большими порциями, до нескольких миллионов записей за 1 раз

Критерий эффективности

Количество транзакций в единицу времени

Скорость выполнения сложных запросов и прозрачность структуры хранения для пользователей