91643

Критерии выбора уровня агрегации

Доклад

Информатика, кибернетика и программирование

Например вы не только сможете оценить какие Модели автомобилей пользуются наибольшим спросом в конкретном регионе сегодня но на основе анализа истории и структуры автомобильного рынка в более развитых с точки зрения автомобилизации регионах попытаться оценить динамику спроса и перспективы различных Моделей в остальных регионах. День 365 10 = 3650 различных значений 2. Менеджер 300 различных значений 3. Модель Автомобиля 100 различных значений 4.

Русский

2015-07-21

38.52 KB

0 чел.

Критерии выбора уровня агрегации

Если спросить пользователя, какой уровень детализации ему желателен, он не задумываясь ответит - максимально возможный. Однако стоит оценить, сколько такое решение может стоить, и попытаться определить возможный экономический эффект от наличия данных на каждом новом уровне детализации.

Например, выбрав в качестве уровня агрегации Год, вы получите возможность проанализировать общие тенденции автомобильного рынка и спрогнозировать динамику его развития. Выбрав же в качестве уровня агрегации Месяц или Неделю, вы, кроме того, сможете спрогнозировать спрос на конкретные модели в конкретные моменты времени. И хотя автомобили - товар не сезонный, скорее всего, весной и летом их покупают больше, чем осенью и зимой. Это позволит отследить возможные сезонные колебания, рациональнее формировать свой склад и более эффективно проводить политику формирования сезонных скидок и распродаж. А если в систему введена информация о затратах на маркетинг, появится возможность проследить эффект от каждого конкретного маркетингового мероприятия.

Выбор в качестве уровня агрегации Номер Контракта/Счета позволит перейти на качественно новый уровень анализа. На этом уровне можно будет учитывать взаимосвязи между конкретным Автомобилем, Менеджером и Покупателем. А поскольку при покупке автомобиля заполняется множество документов, то доступна достаточно детальная информация о каждом конкретном Покупателе (Возраст, Пол, Место жительства, Вид оплаты и т.д.). Теперь вы сможете проанализировать не только рынок, но и заглянуть внутрь своей фирмы и всесторонне проанализировать эффективность работы каждого Менеджера и Подразделения. Но наиболее ценное, что вы получаете, - это информация о Регионах и Покупателях. Например, вы не только сможете оценить, какие Модели автомобилей пользуются наибольшим спросом в конкретном регионе сегодня, но на основе анализа истории и структуры автомобильного рынка в более развитых, с точки зрения автомобилизации, регионах попытаться оценить динамику спроса и перспективы различных Моделей в остальных регионах.

Однако переход на каждый следующий уровень детализации и добавление новых источников данных могут привести к увеличению, иногда более чем на порядок, размера целевой МБД и соответствующему удорожанию и усложнению аппаратного решения.

Рассмотрим в качестве примера Показатель Объем продаж. Анализ предметной области показывает, что он однозначно определяется комбинацией четырех Измерений:

1. {Год | Полугодие | Квартал | Месяц | Неделя | День | Счет}

2. {Страна | Регион | Филиал | Менеджер}

3. {Фирма-Производитель | Завод-Производитель | Модель Автомобиля}

4. {Тип скидки}

Выбрав уровень детализации:

1. День (365 * 10 = 3650 различных значений),

2. Менеджер (300 различных значений),

3. Модель Автомобиля (100 различных значений),

4. Тип Скидки (4 различных значения),

получим куб, состоящий из 438000000 ячеек. Но в основе используемого в МСУБД способа хранения данных лежит предположение о том, что внутри, в данном случае четырехмерного гиперкуба, нет пустот. Данные в МСУБД представлены в виде разреженных матриц с заранее фиксированной размерностью. При этом значения Показателей хранятся в виде множества логически упорядоченных блоков (массивов), имеющих фиксированную длину, причем именно блок является минимальной индексируемой единицей.

Таким образом, в нашей БД будет сразу же зарезервировано место для всех 438 млн. значений Показателя Объем Продаж. Причем цифры "300 менеджеров" и "100 моделей автомобилей" вовсе не означают того, что сегодняшняя номенклатура фирмы - 100 различных моделей, которые продают 300 человек. Цифра 300 говорит о том, что в фирме за 10 лет ее существования работало 300 различных менеджеров. Сегодня же их может быть, например, всего 30.

Попробуем оценить, какой процент ячеек в нашем случае будет содержать реальные значения. Предположим, что в среднем в фирме постоянно работает около 30 менеджеров, менеджер продает в день 10 различных моделей и при продаже каждого автомобиля может быть использован только один вариант скидки. Тогда 3650 * 30 * 10 * 1 = 1095000. То есть только 0,25% ячеек куба будет содержать реальные значения данных. И хотя в МСУБД обычно предполагается, что блоки, полностью заполненные неопределенными значениями, не хранятся, как правило, это не обеспечивает полного решения проблемы.


 

А также другие работы, которые могут Вас заинтересовать

19949. Частные случаи решения задачи и их сопоставление с экспериментальными результатами 41.7 KB
  Рассмотреть частные случаи решения задачи и сопоставить их с экспериментальными результатами. Обосновать дополнительные гипотезы о связях между параметрами переноса и необходимость их введения при решении задачи по восстановлению параметров по экспериментальным данным. Представить методику определения энергий активации и предэкпоненциальных членов коэффициентов диффузии.
19950. Связи между параметрами переноса и влияние на них дополнительных гипотез 57.09 KB
  Рассмотреть связи между параметрами переноса и влияние на них дополнительных гипотез. Представить методику определения предэкпонентных членов коэффициентов диффузии. Обосновать желание использовать дополнительные экспериментальные материалы по выходу ГПД в низкотемпературной области. Предложить модель для описания выхода ГПД при низкой температуре. Поставить и решить соответствующую задачу. Сопоставить расчет с экспериментом.
19951. Предположение о равенстве зернограничных параметров переноса в низкотемпературной и высокотемпературной области для образца с (Топливо ВВЭР) 93.93 KB
  Ввести предположение о равенстве зернограничных параметров переноса в низкотемпературной и высокотемпературной области для образца с (Топливо ВВЭР). Рассмотреть связи (аналитическая и графическая форма) между параметрами переноса и влияние на них указанного выше предположения. Представить численные значения параметров переноса и погрешности их восстановления. Сопоставить полученные результаты с данными других авторов.
19952. Результаты экспериментальных исследований влияния деформации ползучести на выход ГПД 59.44 KB
  Познакомить слушателей с результатами экспериментальных исследований влияния деформации ползучести на выход ГПД. Предложить диффузионно-конвективную модель для описания выхода ГПД при наличии пластической деформации. Поставить и решить стационарную задачу. Сопоставить аналитическое решение с экспериментом.
19953. Современный этап развития ядерной энергетики. Реакторы на тепловых и быстрых нейтронах 87.44 KB
  Конкретные пути решения задач, поставленных Президентом, представлены в «Стратегии развития ядерной энергетики России до середины XXI века», принятой Минатомом России в 2000-м году и одобренной Правительством РФ. В последующие годы были разработаны и приняты к исполнению ряд конкретных программ по направлениям. Некоторые из них включают разделы связанные непосредственно с решением проблем экологии и выводом АЭС из эксплуатации, эти задачи обеспечиваются значительной финансовой поддержкой.
19954. Элементы активной зоны ядерного реактора и реакторные испытания 30.76 KB
  Снижение затрат в процессе разработки твэлов удается достигнуть при использовании расчетных программ определения их работоспособности. Использование в программах расчета феноменологических характеристик материалов требует экспериментального исследования последних в режимах, близких к режимам эксплуатации материалов в твэлах. Знание этих характеристик особенно важно для разработчиков твэлов.
19955. Программа комплексной стандартизации методов, облучательных устройств и технических требований к реакторным и стендовым испытаниям 23.73 KB
  Рассмотреть программу комплексной стандартизации методов, облучательных устройств и технических требований к реакторным и стендовым испытаниям. Познакомить слушателей с каталогом и рубрикатором методов радиационных испытаний материалов и изделий ядерной техники в реакторах и защитных камерах и отраслевыми стандартами.
19956. Классификаций реакторных испытаний 28.86 KB
  Любую классификацию, по-видимому, следует рассматривать как, достаточно, подвижную форму упорядочения наших представлений. Именно поэтому ее не следует считать законченной и устоявшейся. К представленной ниже классификации необходимо относиться как к одному из многих возможных вариантов, который может дополняться и уточняться.
19957. Исследовательские реакторы ИРТ-2000 (проект) и ИРТ-МИФИ 28.79 KB
  Рассмотреть ядерный исследовательский реактор как источник излучений для реакторных испытаний. Познакомить слушателей с техническими характеристиками исследовательских реакторов Российской Федерации. Обосновать выбор реакторов для последующего детального рассмотрения. Дать общие представления о проекте типового исследовательского реактора ИРТ-2000 и рассмотреть возможности реактора ИРТ-МИФИ.