70610

Проектирование хранилищ данных

Лекция

Информатика, кибернетика и программирование

При проектировании хранилищ данных необходимо выполнять следующие требования: хранилище должно иметь понятную для пользователей структуру данных; должны быть выделены статические данные которые модифицируются по расписанию ежедневно еженедельно ежеквартально...

Русский

2014-10-23

40.57 KB

4 чел.

Лекция 39

Проектирование хранилищ данных

В хранилища данных помещают данные, которые редко меняются. Хранилища ориентированы на выполнение аналитических запросов, обеспечивающих поддержку принятия решений для руководителей и менеджеров. При проектировании хранилищ данных необходимо выполнять следующие требования:

  1.  хранилище должно иметь понятную для пользователей структуру данных;
  2.  должны быть выделены статические данные, которые модифицируются по расписанию (ежедневно, еженедельно, ежеквартально);
  3.  должны быть упрощены требования к запросам для исключения запросов, требующих множественных утверждений SQL в традиционных реляционных СУБД;
  4.  должна обеспечиваться поддержка сложных запросов SQL, требующих обработки миллионов записей.

Как видно из этих требований, по своей структуре реляционные СУБД существенно отличаются от хранилищ данных. Нормализация данных в реляционных СУБД приводит к созданию множества связанных между собой таблиц. Выполнение сложных запросов неизбежно приводит к объединению многих таблиц, что значительно увеличивает время отклика. Проектирование хранилища данных подразумевает создание денормализованной структуры данных, ориентированных в первую очередь на высокую производительность при выполнении аналитических запросов. Нормализация делает модель хранилища слишком сложной, затрудняет ее понимание и снижает скорость выполнения запроса. Для эффективного проектирования хранилищ данных ERwin использует размерную модель – методологию проектирования, предназначенную специально для разработки хранилищ данных. Размерное моделирование сходно с моделированием связей и сущностей для реляционной модели, но имеет другую цель. Реляционная модель акцентируется на целостности и эффективности ввода данных. Размерная модель ориентирована в первую очередь на выполнение сложных запросов

В размерном моделировании принят стандарт модели, называемый схемой "звезда", которая обеспечивает высокую скорость выполнения запроса посредством денормализации и разделения данных. Невозможно создать универсальную структуру данных, обеспечивающую высокую скорость обработки любого запроса, поэтому схема "звезда" строится для обеспечения наивысшей производительности при выполнении самого важного запроса (или группы запросов).

Схема "звезда" обычно содержит одну большую таблицу, называемую таблицей факта, помещенную в центре. Ее окружают меньшие таблицы, называемые таблицами размерности, которые связаны с таблицей факта радиальными связями.

Для создания БД со схемой "звезда" необходимо проанализировать бизнес-правила предметной области для выяснения центрального запроса. Данные, обеспечивающие выполнение этого запроса, должны быть помещены в центральную таблицу. При проектировании хранилища важно определить источник данных, метод, которым данные извлекаются, преобразуются и фильтруются, прежде чем они импортируются в хранилище. Знания об источнике данных позволяют поддерживать регулярное обновление и проверку качества данных.

Вычисление размера БД

ERwin позволяет рассчитать приблизительный размер БД в целом, а также таблиц, индексов и других объектов через определенный период времени после начала эксплуатации ИС. Расчет строится на основе следующих параметров: начальное количество строк; максимальное количество строк; прирост количества строк в месяц. Результаты расчетов сводятся в отчет.

Прямое и обратное проектирование

Прямым проектированием называется процесс генерации физической схемы БД из логической модели. При генерации физической схемы ERwin включает триггеры ссылочной целостности, хранимые процедуры, индексы, ограничения и другие возможности, доступные при определении таблиц в выбранной СУБД.

Обратным проектированием называется процесс генерации логической модели из физической БД. Обратное проектирование позволяет конвертировать БД из одной СУБД в другую. После создания логической модели БД путем обратного проектирования можно переключиться на другой сервер и произвести прямое проектирование.

Кроме режима прямого и обратного проектирования программа обеспечивает синхронизацию между логической моделью и системным каталогом СУБД на протяжении всего жизненного цикла создания ИС.

Генерация кода клиентской части с помощью ERwin

Расширенные атрибуты

ERwin поддерживает не только проектирование сервера БД, но и автоматическую генерацию клиентского приложения в средах разработки MS Visual Basic и Power Builder. Технология генерации состоит в том, что на этапе разработки физической модели данных каждой колонке присваиваются расширенные атрибуты, содержащие информацию о свойствах объектов клиентского приложения (в том числе и визуальных), которые будут отображать информацию, хранящуюся в соответствующей колонке. Эта информация записывается в файле модели. На основе информации, содержащейся в расширенных атрибутах, генерируются экранные формы. Полученный код может быть откомпилирован и выполнен без дополнительного ручного кодирования.

Каждой колонке в модели ERwin можно задать предварительно описанные и именованные свойства:

  1.  правила валидации (проверка значений);
  2.  начальные значения, устанавливаемые по умолчанию;
  3.  стиль визуального объекта (например, радиокнопка, поле ввода и др.);
  4.  формат изображения.

Для описания каждого свойства ERwin содержит соответствующие редакторы.

Генерация кода в Visual Basic

ERwin поддерживает генерацию кода в Visual Basic версий 4.0 и 5.0. В качестве источника информации при генерации форм служит модель ERwin. С помощью ERwin можно одновременно описывать как клиентскую часть (объекты, отображающие данные на экране), так и сервер БД (процедуры и триггеры ), тем самым оптимально распределяя функциональность ИС между клиентской и серверной частью. Компонент ERwin Form Wizard автоматически проектирует формы с дочерними объектами – кнопками, списками, полями, радиокнопками и т. д., используя расширенные атрибуты. Совместное использование ERwin и Visual Basic позволяет сократить жизненный цикл разработки ИС путем употребления для каждой задачи наиболее эффективного инструмента. Visual Basic может быть использован для проектирования визуального интерфейса, а ERwin – для разработки физической и логической модели данных с последующей генерацией системного каталога сервера. Если БД уже существует, то с помощью ERwin можно провести обратное проектирование, полученную модель дополнить расширенными атрибутами и сгенерировать клиентское приложение.

Создание отчетов

Для генерации отчетов в ERwin имеется простой и эффективный инструмент – Report Browser. По умолчанию Report Browser содержит предварительно определенные отчеты, позволяющие наглядно представить информацию об основных объектах модели данных – как логической, так и физической. С помощью специального редактора существующие отчеты можно изменить или создать собственный отчет. Каждый отчет может быть настроен индивидуально, данные в нем могут быть отсортированы и отфильтрованы. Browser Report позволяет сохранять результаты выполнения отчетов, печатать и экспортировать их в распространенные форматы.

Генерация словарей

Для управления большими проектами ERwin имеет специальный инструмент – ERwin Dictionary, который обеспечивает коллективную работу над диаграммами и позволяет сохранять и документировать различные версии моделей данных. ERwin Dictionary представляет собой специальную БД, которая позволяет решить проблемы документирования и хранения моделей, однако не полностью отвечает требованиям многопользовательской работы.


 

А также другие работы, которые могут Вас заинтересовать

36017. Оператор SELECT. Переименование атрибутов и отношений в операторе SELECT. Ключевое слово WHERE. Сортировка результатов запросы по значению атрибута 31 KB
  Раздел WHERE используется совместно с SQL DML операторами в следующей форме: SQLDMLвыражение FROM TBLE_NME WHERE predicte Все записи для которых значением предиката раздела WHERE является истина будут задействованы или возвращены в SQL DML выражении или запросе. Типы предикатов используемых в предложении WHERE: сравнение с использованием реляционных операторов = равно не равно = не равно больше меньше = больше или равно = меньше или равно BETWEEN IN LIKE CONTINING IS NULL EXIST NY LL SELECT first_nme lst_nme dept_no FROM...
36018. Происхождение кириллицы. Буквенный состав русского алфавита, значение букв и принцип функционирования русской графики 35.5 KB
  Кирилл взял славянские буквы и 8 греческих и написал кириллицу. Черноризец Хребр – черты и резы – своеобразные русские буквы. Глаголица – 43 буквы кириллица – 38. На тот момент в ней было по видимому 43 буквы.
36019. ТЕОРИЯ ЭКОНОМИКО-ГЕОГРАФИЧЕСКОГО ПОЛОЖЕНИЯ 35 KB
  Страны лидеры в мировой добыче и экспорте нефти природного газа железной руды и Т. Специализированная продукция вывозится в другие страны а ей навстречу идут потоки других товаров. Половина внешнеторгового оборота приходится на страны Западной Европы имеющие обширную взаимную торговлю в рамках единого Европейского союза. ТЕОРИЯ ЭКОНОМИКОГЕОГРАФИЧЕСКОГО ПОЛОЖЕНИЯ Районирование стран регионов территорий внутри страны важнейший метод исследования географии можно проводить по оценке их особенностей в природе экономике размещению...
36020. Экономический механизм природопользования 35 KB
  Данный тип экономического механизма направлен главным образом на ликвидацию негативных экологических последствий слабо влияя при этом на темпы и масштабы развития. Помимо экологических стандартов нормативов административное регулирование предполагает широкое применение правовых рычагов мер административного воздействия на виновников загрязнения запреты ограничения лицензии и пр. В мировой практике широкое распространение получил такой инструмент административного регулирования природопользования как лицензирование под которым...
36021. Сохранение биологического разнообразия 35 KB
  Цели Конвенции: сохранение биоразнообразия. В Конвенции имеется статья Сфера юрисдикции которая определяет что Конвенция распространяется на все компоненты биоразнообразия в пределах национальной юрисдикции каждого участника Конвенции а также на процессы и деятельность осуществляемые под юрисдикцией или контролем участника независимо от места проявления последствий. Согласно Конвенции каждая Договаривающаяся Сторона разрабатывает национальные стратегии планы или программы сохранения и устойчивого использования биоразнообразия а также...
36022. Первичный ключ. Внешний ключ. Ссылочная целостность. Базовые ссылочные действия, определенные в стандарте языка SQL 33.5 KB
  В таком случае в реляционной модели по традиции по крайней мере в случае базовой переменнойотношения один из потенциальных ключей должен быть выбран в качестве первичного ключа а все остальные потенциальные будут называться альтернативными. Поэтому в качестве первичного ключа как правило выбирают тот который имеет наименьший размер физического хранения и или включает наименьшее количество атрибутов. Если не придерживаться формальностей то внешний ключ можно определить как множество атрибутов одной переменнойотношения R2 значения...
36023. Концентраторы напряжений 34 KB
  Дефекты и конструктивные концентраторы напряжений в элементах способствуют повышению уровня напряженности металла и как следствие снижению ресурса оборудования. Для изделий имеющих конструктивные концентраторы напряжений при оценке влияния дефекта на их работоспособность следует сопоставить степень влияния конструктивного концентратора напряжений и дефекта. При расположении дефекта в зоне концентратора напряжений он может оказывать большее влияние на долговечность изделия чем даже более опасный по его ориентации форме но...
36024. Основные задачи системного администрирования. Процессы и их идентификаторы 34.51 KB
  Процессы и их идентификаторы Для понимания процедуры начальной загрузки необходимо иметь самое общее представление о том что такое процесс в системе поскольку это понятие будет постоянно использоваться в дальнейшем. Процесс это загруженная в оперативную память программа. В Linux вначале запускается процесс который загружает в оперативную память программу из указанного ему файла и начинает ее выполнять. Это означает что каждый процесс должен быть запущен как говорят порожден какимто другим процессом.