27146

Классификация данных: структурированные, неструктурированные, детализированные, агрегированные, метаданные

Доклад

Информатика, кибернетика и программирование

Метаданные должны содержать описание структуры хранилища и структуры данных в том числе импортируемых их внешних источников. В хранилищах данных метаданные нужны для извлечения преобразования и загрузки данных из разных источников а также для последующего использования и интерпретации хранимых данных. Технически метаданные содержат данные для обеспечения работы самого хранилища статистика загрузки описание модели данных Классификация данных в зависимости от способа управления и хранения: Структурированные 20 Неструктурированные 80.

Русский

2013-08-19

30.27 KB

43 чел.

Классификация данных: структурированные, неструктурированные, детализированные, агрегированные, метаданные.

Структурированные данные: организуют ряды в колонки, строго определенного порядка, для того, чтобы имелась возможность их легко извлекать и обращаться к ним

Неструктурированные данные: графические, мультимедийные данные, текстовые файлы, электронные сообщения и т.д. Занимают много места.

Детализированные данные: соответствуют элементарным событиям, фиксируются в виде фактов, являются неделимыми значениями.

Обобщенные детализированные данные служат для выявления тенденций и закономерностей.

Метаданные: это любая информация, необходимая для анализа, построения, проектирования, внедрения, применения компьютерной информационной системы. Основное назначение - повышение эффективности поиска. Метаданные должны содержать описание структуры хранилища и структуры данных, в том числе импортируемых их внешних источников.

В хранилищах данных, метаданные нужны для извлечения, преобразования и загрузки данных из разных источников, а также для последующего использования и интерпретации хранимых данных. Технически метаданные содержат данные для обеспечения работы самого хранилища (статистика загрузки, описание модели данных)

Классификация данных в зависимости от способа управления и хранения:

  1. Структурированные (20%)
  2. Неструктурированные (80%).

из лекций

Структурированные данные организуют в ряды и колонки строго определенного формата, чтобы приложения могли извлекать данные и эффективно обрабатывать их. Обычно хранятся с применением СУБД.

К неструктурированным данным можно отнести данные клиента (на наклейках, электронных сообщениях, визитках, текстовых файлах). Поскольку данные неструктурированны, то их трудно извлекать посредством приложения, управляющего клиентскими базами.

Неструктурированные данные на предприятии: электронная почта, pdf-файлы, мгновенные сообщения в ICQ, документы, веб-страницы, счета, аудио/видео, чеки, руководства, формы, контракты, картинки и т.п. Они занимают много места и требуют больших усилий для управления ими.

На основе анализа данных предприятие извлекает информацию. Эффективный анализ данных не только приносит прибыль, но и создает новые возможности. Поэтому существует постоянная необходимость в их доступности и защите.

В зависимости от специфики решаемых задач и уровня их сложности архитектура ХД и модели данных, используемых для их построения, могут различаться.

Согласно схеме данные извлекаются из различных источников и загружаются в ХД, которое содержит как собственно данные, представленные в соответствии с некоторой моделью, так и метаданные.

Обобщенная концептуальная схема ХД

ДЕТАЛИЗИРОВАННЫЕ И АГРЕГИРОВАННЫЕ ДАННЫЕ

Данные в детализированном виде поступают непосредственно из источников данных и соответствуют элементарным событиям, регистрируемым OLTP-системами. Такими данными могут быть ежедневные продажи, количество произведенных изделий и т.д. Это неделимые значения.

Многие задачи анализа требуют использования данных определенной степени обобщения. Например, суммы продаж, взятые по дням, могут дать очень неравномерный ряд данных, что затруднит выявление характерных периодов, закономерностей или тенденций. Однако, если обобщить эти данные в пределах недели или месяца и взять сумму, среднее, максимальное и минимальное значения за соответствующий период, то полученный ряд может оказаться более информативным.

Процесс обобщения детализированных данных называется агрегированием, а сами обобщенные данные — агрегированными. Обычно агрегированию подвергаются числовые данные (факты), они вычисляются и содержатся в ХД вместе с детализированными данными.

Поскольку один и тот же набор детализированных данных может породить несколько наборов агрегированных данных с различной степенью обобщения, объем ХД возрастает, иногда существенно.

МЕТАДАННЫЕ

Слово «метаданные» буквально переводится как «данные о данных». Метаданные в широком смысле необходимы для описания значения и свойств информации с целью лучшего ее понимания, использования и управления ею.

Пример

В любой книге, помимо текста, содержится значительное количество дополнительной информации. Цель ее заключается в том, чтобы, во-первых, помочь читателю быстрее ознакомиться с содержимым книги и осмыслить его, во-вторых, описать структуру книги для более эффективного поиска нужной информации. Для решения первой задачи служат такие элементы, как аннотация, комментарии, глоссарий, примечания и т.д. Для поиска нужной информации используются оглавление, названия глав, параграфов и разделов, номера страниц, колонтитулы, предметный указатель и т.д. Кроме этого, читателю могут понадобиться сведения об авторах или об издательстве. Вся эта информация, которая не является частью книги, а служит для повышения эффективности работы с ней, и представляет собой метаданные.

С точки зрения IT-технологий метаданные — любая информация, необходимая для анализа, проектирования, построения, внедрения и применения компьютерной информационной системы. Одно из основных назначений метаданных — повышение эффективности поиска. Поисковые запросы, использующие метаданные, делают возможным выполнение сложных операций по фильтрации и отбору данных.

Если рассматривать понятие «метаданные» в контексте технологии ХД, то метаданные должны содержать описание структуры данных хранилища и структуры данных импортируемых источников. Метаданные хранятся отдельно от данных в репозитарии метаданных. Они содержат всю информацию, необходимую для извлечения, преобразования и загрузки данных из различных источников, а также для последующего использования и интерпретации данных, содержащихся в ХД.


 

А также другие работы, которые могут Вас заинтересовать

38000. Медико-тактическая характеристика очагов поражения при авариях на АЭС 99 KB
  Ядерная энергия основана на использовании трех делящихся радионук-лидов: уран-235 - естественный элемент, два других - плутоний-239 и уран-233 получают искусственным путем в процессе ядерного топливного цикла. На всех этапах ядерного топливного цикла, начиная с добычи урановой руды, её обогащения
38001. ИЗУЧЕНИЕ ОСНОВНЫХ ЗАКОНОВ ФОТОЭФФЕКТА И ИЗМЕРЕНИЕ ПОСТОЯННОЙ ПЛАНКА 68.4 KB
  Введение Постоянная Планка h играет в квантовой физике такую же роль как скорость света с в релятивистской физике. В начале XX века была создана так называемая старая квантовая теория в основе которой лежат гипотеза Планка о дискретном характере испускания и поглощения света осциллятором введенное Эйнштейном представление о квантах света фотонах и его уравнение фотоэффекта построенная Бором теория простейших атомов. Внешний фотоэффект Фотоэффектом называется освобождение полное или частичное электрона от связей с атомами и...
38002. ИЗУЧЕНИЕ ЗАКОНОВ ТЕПЛОВОГО ИЗЛУЧЕНИЯ 312.5 KB
  Краткие теоретические сведения Для абсолютно чёрного тела АЧТ т. тела для которого поглощательная способность справедлив закон Стефана Больцмана: 1 где R энергетическая светимость полная или интегральная испускательная способность характеризующая тепловое излучение тела а Т его температура постоянная СтефанаБольцмана. В то же время для любого тела где испускательная способность тела. В соответствии с законом Кирхгофа 2 а определяется формулой Планка: 3 Спектр теплового...
38003. ИЗУЧЕНИЕ СПЕКТРА АТОМА ВОДОРОДА 1.03 MB
  состоят из отдельных узких спектральных линий. Частоты длины волн и интенсивности спектральных линий определяются строением излучающего атома и являются строго индивидуальными каждый сорт атомов имеет только ему присущий спектр. Частоты линий этой серии определяются формулой 3 Спектральные линии серии Бальмера принято обозначать буквой H с индексом в порядке возрастания числа n и соответственно уменьшения длины волны λ : и т. В данной работе измеряются длины волн нескольких бальмеровских линий атомарного водорода их...
38005. ОПРЕДЕЛЕНИЕ ФОСФОРА ПО РЕАКЦИИ ОБРАЗОВАНИЯ ГЕТЕРОПОЛИКОМПЛЕКСА 42.5 KB
  I Повторите по лекционному конспекту и учебникам [I 2] материал о реакции образования ГПК их устойчивости и оптическим свойствам. Определение фосфора и кремния по реакции образования их ГПК является важнейшим а для малых количеств практически единственным способом определения. ГПК имеют формулу вида ЭхОу nМezОt в случае двойных комплексов где Me = Mo V W и другие металлы образующие лиганд анионного характера; Э= Р Si s Ge неметалл.
38006. ОПРЕДЕЛЕНИЕ СОСТАВА КОМПЛЕКСНЫХ СОЕДИНЕНИЙ МЕТОДОМ НАСЫЩЕНИЯ 42 KB
  При этом выход единственного комплекса увеличивается соответственно увеличивается и оптическая плотность раствора измеренная на длине волны максимального поглощения комплекса. Точка пересечения прямых соответствует стехиометрическому соотношению СR CM = M n для комплекса состава MnRM. В случае образования малопрочного комплекса точку пересечения находят экстрополяцией линейных участков кривой. Применяется в тех случаях когда мы не можем надежно определить точку излома малопрочный комплекс побочные процессы при насыщении сдвиг рН...
38007. Изучение устойчивости комплексного соединения в растворе при разбавлении и при введении посторонних веществ 197.5 KB
  Теоретическое введение Предположим что мы определяем металл М по фотометрической реакции М iR = MRi измеряя поглощение образующегося комплекса на длине волны λ остальные компоненты и комплексы М и с R стехиометрии на этой длине не поглощают. МRi = βRi [R]` φ Обозначая индексами Л и П величины относящиеся соответственно к пробе и эталону запишем : `MRi = ``MRi...
38008. Диагностика и лечение дисфагии при заболеваниях центральной нервной системы. Клинические рекомендации 352 KB
  При отборе публикаций, как потенциальных источников доказательств, использованная каждым исследователем методология изучалась для того, чтобы убедиться в ее валидности. Результат изучения влияет на уровень доказательств, присваеваемый публикации, что в свою очередь влияет на силу, вытекающих из нее рекомендаций.