27146

Классификация данных: структурированные, неструктурированные, детализированные, агрегированные, метаданные

Доклад

Информатика, кибернетика и программирование

Метаданные должны содержать описание структуры хранилища и структуры данных в том числе импортируемых их внешних источников. В хранилищах данных метаданные нужны для извлечения преобразования и загрузки данных из разных источников а также для последующего использования и интерпретации хранимых данных. Технически метаданные содержат данные для обеспечения работы самого хранилища статистика загрузки описание модели данных Классификация данных в зависимости от способа управления и хранения: Структурированные 20 Неструктурированные 80.

Русский

2013-08-19

30.27 KB

43 чел.

Классификация данных: структурированные, неструктурированные, детализированные, агрегированные, метаданные.

Структурированные данные: организуют ряды в колонки, строго определенного порядка, для того, чтобы имелась возможность их легко извлекать и обращаться к ним

Неструктурированные данные: графические, мультимедийные данные, текстовые файлы, электронные сообщения и т.д. Занимают много места.

Детализированные данные: соответствуют элементарным событиям, фиксируются в виде фактов, являются неделимыми значениями.

Обобщенные детализированные данные служат для выявления тенденций и закономерностей.

Метаданные: это любая информация, необходимая для анализа, построения, проектирования, внедрения, применения компьютерной информационной системы. Основное назначение - повышение эффективности поиска. Метаданные должны содержать описание структуры хранилища и структуры данных, в том числе импортируемых их внешних источников.

В хранилищах данных, метаданные нужны для извлечения, преобразования и загрузки данных из разных источников, а также для последующего использования и интерпретации хранимых данных. Технически метаданные содержат данные для обеспечения работы самого хранилища (статистика загрузки, описание модели данных)

Классификация данных в зависимости от способа управления и хранения:

  1. Структурированные (20%)
  2. Неструктурированные (80%).

из лекций

Структурированные данные организуют в ряды и колонки строго определенного формата, чтобы приложения могли извлекать данные и эффективно обрабатывать их. Обычно хранятся с применением СУБД.

К неструктурированным данным можно отнести данные клиента (на наклейках, электронных сообщениях, визитках, текстовых файлах). Поскольку данные неструктурированны, то их трудно извлекать посредством приложения, управляющего клиентскими базами.

Неструктурированные данные на предприятии: электронная почта, pdf-файлы, мгновенные сообщения в ICQ, документы, веб-страницы, счета, аудио/видео, чеки, руководства, формы, контракты, картинки и т.п. Они занимают много места и требуют больших усилий для управления ими.

На основе анализа данных предприятие извлекает информацию. Эффективный анализ данных не только приносит прибыль, но и создает новые возможности. Поэтому существует постоянная необходимость в их доступности и защите.

В зависимости от специфики решаемых задач и уровня их сложности архитектура ХД и модели данных, используемых для их построения, могут различаться.

Согласно схеме данные извлекаются из различных источников и загружаются в ХД, которое содержит как собственно данные, представленные в соответствии с некоторой моделью, так и метаданные.

Обобщенная концептуальная схема ХД

ДЕТАЛИЗИРОВАННЫЕ И АГРЕГИРОВАННЫЕ ДАННЫЕ

Данные в детализированном виде поступают непосредственно из источников данных и соответствуют элементарным событиям, регистрируемым OLTP-системами. Такими данными могут быть ежедневные продажи, количество произведенных изделий и т.д. Это неделимые значения.

Многие задачи анализа требуют использования данных определенной степени обобщения. Например, суммы продаж, взятые по дням, могут дать очень неравномерный ряд данных, что затруднит выявление характерных периодов, закономерностей или тенденций. Однако, если обобщить эти данные в пределах недели или месяца и взять сумму, среднее, максимальное и минимальное значения за соответствующий период, то полученный ряд может оказаться более информативным.

Процесс обобщения детализированных данных называется агрегированием, а сами обобщенные данные — агрегированными. Обычно агрегированию подвергаются числовые данные (факты), они вычисляются и содержатся в ХД вместе с детализированными данными.

Поскольку один и тот же набор детализированных данных может породить несколько наборов агрегированных данных с различной степенью обобщения, объем ХД возрастает, иногда существенно.

МЕТАДАННЫЕ

Слово «метаданные» буквально переводится как «данные о данных». Метаданные в широком смысле необходимы для описания значения и свойств информации с целью лучшего ее понимания, использования и управления ею.

Пример

В любой книге, помимо текста, содержится значительное количество дополнительной информации. Цель ее заключается в том, чтобы, во-первых, помочь читателю быстрее ознакомиться с содержимым книги и осмыслить его, во-вторых, описать структуру книги для более эффективного поиска нужной информации. Для решения первой задачи служат такие элементы, как аннотация, комментарии, глоссарий, примечания и т.д. Для поиска нужной информации используются оглавление, названия глав, параграфов и разделов, номера страниц, колонтитулы, предметный указатель и т.д. Кроме этого, читателю могут понадобиться сведения об авторах или об издательстве. Вся эта информация, которая не является частью книги, а служит для повышения эффективности работы с ней, и представляет собой метаданные.

С точки зрения IT-технологий метаданные — любая информация, необходимая для анализа, проектирования, построения, внедрения и применения компьютерной информационной системы. Одно из основных назначений метаданных — повышение эффективности поиска. Поисковые запросы, использующие метаданные, делают возможным выполнение сложных операций по фильтрации и отбору данных.

Если рассматривать понятие «метаданные» в контексте технологии ХД, то метаданные должны содержать описание структуры данных хранилища и структуры данных импортируемых источников. Метаданные хранятся отдельно от данных в репозитарии метаданных. Они содержат всю информацию, необходимую для извлечения, преобразования и загрузки данных из различных источников, а также для последующего использования и интерпретации данных, содержащихся в ХД.


 

А также другие работы, которые могут Вас заинтересовать

81013. Особенности дошкольного и школьного специального (коррекционного) образования 28.25 KB
  комплектование ДОУ по принципу ведущего отклонения в развитии ребенка с нарушениями слуха – глухие и слабослышащие; с нарушениями зрения; с нарушениями речи; с нарушениями интеллекта; с ЗПР; с нарушениями опорно – двигательного аппарата. для каждой категории детей с психофизическими нарушениями предусмотрена своя специальная школа; 2.
81014. Принципы специального образования 28.23 KB
  Выготского о зоне ближайшего развития ; принцип ранней педагогической помощи обеспечение раннего выявления и ранней диагностики отклонения ребенка для определения его образовательных потребностей; принцип коррекционнокомпенсирующей направленности опора на сохранные анализаторы а так же использование компенсаторных возможностей детей; принцип социальноадаптирующей направленности обучения подготовка ребенка с психофизическими нарушениями к максимально самостоятельной жизни в обществе чтобы избежать социального выпадения; принцип...
81015. Показатели развития ребенка, значимые для выявления психофизических нарушений 27.51 KB
  В соответствии с этим учитывается степень достижения зрелости в каждый период развития ребенка до и после его рождения. Во время эмбрионального развития организм плода очень восприимчив к различным неблагоприятным факторам. Развитие сенсорных и моторных функций которые являются базой для развития психических процессов.
81016. Причины аномального развития детей. Типы нарушений психического развития 29.04 KB
  Типы нарушений психического развития по Лебединскому: недоразвитие ранее время поражения незрелость мозга. Пример: умственная отсталость психические функции недоразвиты вынужденная недостаточность высших психических функций мышления речи; ✓ задержанное развитие замедление темпов формирования познавательной и эмоциональной сфер; ✓ поврежденное развитие более позднее после 2 3 лет патологическое воздействие на мозг; ✓ дефицитарное развитие тяжелые нарушения отдельных систем: зрения слуха речи опорнодвигательного...
81017. Принципы и методы диагностики отклонений в развитии ребенка. Функции психолого-медико-педагогической консультации 30.39 KB
  Принцип комплексного изучения ребенка который предполагает всестороннее обследование особенностей развития всех видов познавательной деятельности эмоциональноволевой сферы личности навыков и т.Принцип целостного системного изучения ребенка.Принцип динамического изучения ребенка согласно которому при обследовании важно выяснить не только то что дети знают и умеют но и их возможности в обучении зона ближайшего развития.
81018. Политический реализм и неореализм в теории международных отношений 36.26 KB
  Все концепции международных отношений нсмотря на кардинальные различия рассматривают мировую политику в целом а не отдельные ее элементы. Это отличает их от внутриобщественных отношений построенных на принципах иерархии субординации формализованных правовых нормах. В отличии от внутриобщественных отношений где формально закреплена функция государственного принятия решений в МО это невозможно на правовом уровне.
81019. Либерализм в теории международных отношений. Неолиберализм 37.31 KB
  увеличивается количество акторов и их направление интересов предсказать не всегда возможно. 2 развитие коммуникации нетрадиционных акторов международных отношений т.3 государство теряет способность деятельность других акторов которая все чаще осуществляется в обход государственного суверенитета и вопреки ему. Сужение полномочий национальных правительств увеличение многообразия акторов приводит к росту анархии в МО делают отношения неуправляемыми и плохо поддающимися структурированию.
81020. Идеализм как школа международных отношений 35.05 KB
  Основной целью стало выработка моделей нормативного ведения мировых отношений. Идеалисты отрицали силовые и военные средства как регуляторы международных отношений ориентируясь на институты международного права. Однако послевоенный мир и вторая мировая война выявили несостоятельность идеалистической концепции регулирования международных отношений.
81021. Традиционализм и модернизм как направление дискуссии в теории международных отношений 32.17 KB
  Модернисты рассматривали национальные государства в качестве автономных властных систем которые испытывает влияние других субъектов международных отношений и определенным образом реагирует на уровне внешней политики. Основная задача в ТМО – смоделировать поведение того или иного государства при воздействии внешних субъектов и спрогнозировать поведение. Традиционалисты акцентируют внимание на необходимости учета в анализе МО тех факторов которые относятся к культурным особенностям государств: влияние традиций обычаев национального...