27146

Классификация данных: структурированные, неструктурированные, детализированные, агрегированные, метаданные

Доклад

Информатика, кибернетика и программирование

Метаданные должны содержать описание структуры хранилища и структуры данных в том числе импортируемых их внешних источников. В хранилищах данных метаданные нужны для извлечения преобразования и загрузки данных из разных источников а также для последующего использования и интерпретации хранимых данных. Технически метаданные содержат данные для обеспечения работы самого хранилища статистика загрузки описание модели данных Классификация данных в зависимости от способа управления и хранения: Структурированные 20 Неструктурированные 80.

Русский

2013-08-19

30.27 KB

48 чел.

Классификация данных: структурированные, неструктурированные, детализированные, агрегированные, метаданные.

Структурированные данные: организуют ряды в колонки, строго определенного порядка, для того, чтобы имелась возможность их легко извлекать и обращаться к ним

Неструктурированные данные: графические, мультимедийные данные, текстовые файлы, электронные сообщения и т.д. Занимают много места.

Детализированные данные: соответствуют элементарным событиям, фиксируются в виде фактов, являются неделимыми значениями.

Обобщенные детализированные данные служат для выявления тенденций и закономерностей.

Метаданные: это любая информация, необходимая для анализа, построения, проектирования, внедрения, применения компьютерной информационной системы. Основное назначение - повышение эффективности поиска. Метаданные должны содержать описание структуры хранилища и структуры данных, в том числе импортируемых их внешних источников.

В хранилищах данных, метаданные нужны для извлечения, преобразования и загрузки данных из разных источников, а также для последующего использования и интерпретации хранимых данных. Технически метаданные содержат данные для обеспечения работы самого хранилища (статистика загрузки, описание модели данных)

Классификация данных в зависимости от способа управления и хранения:

  1. Структурированные (20%)
  2. Неструктурированные (80%).

из лекций

Структурированные данные организуют в ряды и колонки строго определенного формата, чтобы приложения могли извлекать данные и эффективно обрабатывать их. Обычно хранятся с применением СУБД.

К неструктурированным данным можно отнести данные клиента (на наклейках, электронных сообщениях, визитках, текстовых файлах). Поскольку данные неструктурированны, то их трудно извлекать посредством приложения, управляющего клиентскими базами.

Неструктурированные данные на предприятии: электронная почта, pdf-файлы, мгновенные сообщения в ICQ, документы, веб-страницы, счета, аудио/видео, чеки, руководства, формы, контракты, картинки и т.п. Они занимают много места и требуют больших усилий для управления ими.

На основе анализа данных предприятие извлекает информацию. Эффективный анализ данных не только приносит прибыль, но и создает новые возможности. Поэтому существует постоянная необходимость в их доступности и защите.

В зависимости от специфики решаемых задач и уровня их сложности архитектура ХД и модели данных, используемых для их построения, могут различаться.

Согласно схеме данные извлекаются из различных источников и загружаются в ХД, которое содержит как собственно данные, представленные в соответствии с некоторой моделью, так и метаданные.

Обобщенная концептуальная схема ХД

ДЕТАЛИЗИРОВАННЫЕ И АГРЕГИРОВАННЫЕ ДАННЫЕ

Данные в детализированном виде поступают непосредственно из источников данных и соответствуют элементарным событиям, регистрируемым OLTP-системами. Такими данными могут быть ежедневные продажи, количество произведенных изделий и т.д. Это неделимые значения.

Многие задачи анализа требуют использования данных определенной степени обобщения. Например, суммы продаж, взятые по дням, могут дать очень неравномерный ряд данных, что затруднит выявление характерных периодов, закономерностей или тенденций. Однако, если обобщить эти данные в пределах недели или месяца и взять сумму, среднее, максимальное и минимальное значения за соответствующий период, то полученный ряд может оказаться более информативным.

Процесс обобщения детализированных данных называется агрегированием, а сами обобщенные данные — агрегированными. Обычно агрегированию подвергаются числовые данные (факты), они вычисляются и содержатся в ХД вместе с детализированными данными.

Поскольку один и тот же набор детализированных данных может породить несколько наборов агрегированных данных с различной степенью обобщения, объем ХД возрастает, иногда существенно.

МЕТАДАННЫЕ

Слово «метаданные» буквально переводится как «данные о данных». Метаданные в широком смысле необходимы для описания значения и свойств информации с целью лучшего ее понимания, использования и управления ею.

Пример

В любой книге, помимо текста, содержится значительное количество дополнительной информации. Цель ее заключается в том, чтобы, во-первых, помочь читателю быстрее ознакомиться с содержимым книги и осмыслить его, во-вторых, описать структуру книги для более эффективного поиска нужной информации. Для решения первой задачи служат такие элементы, как аннотация, комментарии, глоссарий, примечания и т.д. Для поиска нужной информации используются оглавление, названия глав, параграфов и разделов, номера страниц, колонтитулы, предметный указатель и т.д. Кроме этого, читателю могут понадобиться сведения об авторах или об издательстве. Вся эта информация, которая не является частью книги, а служит для повышения эффективности работы с ней, и представляет собой метаданные.

С точки зрения IT-технологий метаданные — любая информация, необходимая для анализа, проектирования, построения, внедрения и применения компьютерной информационной системы. Одно из основных назначений метаданных — повышение эффективности поиска. Поисковые запросы, использующие метаданные, делают возможным выполнение сложных операций по фильтрации и отбору данных.

Если рассматривать понятие «метаданные» в контексте технологии ХД, то метаданные должны содержать описание структуры данных хранилища и структуры данных импортируемых источников. Метаданные хранятся отдельно от данных в репозитарии метаданных. Они содержат всю информацию, необходимую для извлечения, преобразования и загрузки данных из различных источников, а также для последующего использования и интерпретации данных, содержащихся в ХД.


 

А также другие работы, которые могут Вас заинтересовать

30740. Политическая борьба в западной зоне оккупации Германии. Образование ФРГ 24.5 KB
  После войны в Западной Германии происходит борьба партий: одни за единое немецкое государство СДПГ соцдемокр партия герм но против советского военнополитического присутствия другие за формирование западноевропейского государства Христ. но распространить свое влияние на всю территорию Германии она не сумела оказавшись под жестким прессингом со стороны советской администрации.и раскол Германии Уже в начале 1947 г.
30741. Основные направления внутренней и внешней политики республиканских администраций в США (1921 – 1933-е гг.) 23 KB
  у власти в США стояли республиканцы. Это был период процветания США. В 20е годы мировая капиталистическая экономика стабилизировалась и в США наступил экономический подъем: рост автомобилей строительство дорог США становится мировым кредитором оттеснив Англию и т.
30742. Коминтерн и РСИ – особенности стратегии и тактики в 1920 – 1930 гг 25 KB
  в России по инициативе Ленина был создан Коммунистический интернационал Коминтерн участвовали 28 стран был провозглашен курс на мировую социалистическую революцию. На первый план выдвигались не социалистические путем революции а демократические задачи реформы как подготовительный этап на пути к социальной революции. Новые задачи потребовали изменение отношения коммунистов к социалдемократии. Если раньше союз с социалдемократией был невозможен изза разницы во взглядах то теперь этот союз стал возможен т.
30743. Холодная война и ее этапы (с 40-х по 90-е гг.) 24.5 KB
  Конфликт двух сверх держав США и СССР противостояние двух военнополиитческих блоков НАТО и Варшавского договора. Воплощением конфликта стала холодная война между США и СССР. Начало Холодной войны было в момент послевоенного урегулирования когда возникли противоречия между союзниками антигитлеровской коалиции США и Великобритании и СССР. был создан англоамериканский военный союз для борьбы с СССР и коммунистической угрозой.
30744. Захватнические планы Гитлеровской Германии и их осуществление (1935 – 1941 гг.) 24 KB
  Захват чужих территорий стал центром всей политики гитлеровской Германии. Немаловажное значение для развития экономического потенциала Германии и использования его в военных целях против СССР имели захват и ограбление Австрии Чехословакии Польши Франции и других европейских стран. На выполнение только военных заказов Германии работали предприятия оккупированных западноевропейских стран.
30745. Возникновение и приход к власти фашизма в Италии и Германии: общее и особенное 24 KB
  Так в 1919 г возникла 1 фашистская организация в Италии а в Германии националсоциальнеческая. В Италии её возглавил Муссолини а в Германии Гитлер фюрер. фашистское движение в Италии было преобразовано в национальную фашистскую партию с 1922 г.
30746. США и Латинская Америкак: эволюция и проблемы взаимоотношений во второй половине 20 столетия 26.5 KB
  Во время Второй мировой войны создались благоприятные условия для развития национального капитала в Латинской Америке. Выросли цены на сырье ослабло влияние национального капитала увеличились средства для вложения в национальную промышленность. Новый уровень глобализации иначе говоря огромная роль мировых хозяйственных связей привлечение современной технологии и иностранного капитала стал частью стратегии латиноамериканских стран. Основным источником накопления капиталов и модернизации стали широкое привлечение иностранного...
30747. Причины зарождения и сущность фашизма 24 KB
  в конкретной исторической обстановке фашизм нужен определенным кругам империализма чтобы справиться с возрастанием революционного движения разрешить в свою пользу классовые противоречия которые нельзя разрешить старыми методами и формами борьбы. Мировому капиталу фашизм был нужен чтобы разрушить главной оплот международного революционного процесса и антиимпериалистической борьбы СССР. Германский фашизм сопровождался политическими убийствами погромами и др.
30748. Латинская Америка: что принесли неолиберальные преобразования (на опыте 1980 - 1990-х гг.) 27 KB
  стимулировал экономический рост Латинской Америки в начале 90х гг. Другая болевая точка современной Латинской Америки безработица принявшая беспрецедентные масштабы. Финансовоэкономическая стратегия Латинской Америки на 90е гг. В задачи консенсуса входило преодоление инфляции сокращение бюджетного дефицита укрепление национальных валют Латинской Америки.