27146

Классификация данных: структурированные, неструктурированные, детализированные, агрегированные, метаданные

Доклад

Информатика, кибернетика и программирование

Метаданные должны содержать описание структуры хранилища и структуры данных в том числе импортируемых их внешних источников. В хранилищах данных метаданные нужны для извлечения преобразования и загрузки данных из разных источников а также для последующего использования и интерпретации хранимых данных. Технически метаданные содержат данные для обеспечения работы самого хранилища статистика загрузки описание модели данных Классификация данных в зависимости от способа управления и хранения: Структурированные 20 Неструктурированные 80.

Русский

2013-08-19

30.27 KB

43 чел.

Классификация данных: структурированные, неструктурированные, детализированные, агрегированные, метаданные.

Структурированные данные: организуют ряды в колонки, строго определенного порядка, для того, чтобы имелась возможность их легко извлекать и обращаться к ним

Неструктурированные данные: графические, мультимедийные данные, текстовые файлы, электронные сообщения и т.д. Занимают много места.

Детализированные данные: соответствуют элементарным событиям, фиксируются в виде фактов, являются неделимыми значениями.

Обобщенные детализированные данные служат для выявления тенденций и закономерностей.

Метаданные: это любая информация, необходимая для анализа, построения, проектирования, внедрения, применения компьютерной информационной системы. Основное назначение - повышение эффективности поиска. Метаданные должны содержать описание структуры хранилища и структуры данных, в том числе импортируемых их внешних источников.

В хранилищах данных, метаданные нужны для извлечения, преобразования и загрузки данных из разных источников, а также для последующего использования и интерпретации хранимых данных. Технически метаданные содержат данные для обеспечения работы самого хранилища (статистика загрузки, описание модели данных)

Классификация данных в зависимости от способа управления и хранения:

  1. Структурированные (20%)
  2. Неструктурированные (80%).

из лекций

Структурированные данные организуют в ряды и колонки строго определенного формата, чтобы приложения могли извлекать данные и эффективно обрабатывать их. Обычно хранятся с применением СУБД.

К неструктурированным данным можно отнести данные клиента (на наклейках, электронных сообщениях, визитках, текстовых файлах). Поскольку данные неструктурированны, то их трудно извлекать посредством приложения, управляющего клиентскими базами.

Неструктурированные данные на предприятии: электронная почта, pdf-файлы, мгновенные сообщения в ICQ, документы, веб-страницы, счета, аудио/видео, чеки, руководства, формы, контракты, картинки и т.п. Они занимают много места и требуют больших усилий для управления ими.

На основе анализа данных предприятие извлекает информацию. Эффективный анализ данных не только приносит прибыль, но и создает новые возможности. Поэтому существует постоянная необходимость в их доступности и защите.

В зависимости от специфики решаемых задач и уровня их сложности архитектура ХД и модели данных, используемых для их построения, могут различаться.

Согласно схеме данные извлекаются из различных источников и загружаются в ХД, которое содержит как собственно данные, представленные в соответствии с некоторой моделью, так и метаданные.

Обобщенная концептуальная схема ХД

ДЕТАЛИЗИРОВАННЫЕ И АГРЕГИРОВАННЫЕ ДАННЫЕ

Данные в детализированном виде поступают непосредственно из источников данных и соответствуют элементарным событиям, регистрируемым OLTP-системами. Такими данными могут быть ежедневные продажи, количество произведенных изделий и т.д. Это неделимые значения.

Многие задачи анализа требуют использования данных определенной степени обобщения. Например, суммы продаж, взятые по дням, могут дать очень неравномерный ряд данных, что затруднит выявление характерных периодов, закономерностей или тенденций. Однако, если обобщить эти данные в пределах недели или месяца и взять сумму, среднее, максимальное и минимальное значения за соответствующий период, то полученный ряд может оказаться более информативным.

Процесс обобщения детализированных данных называется агрегированием, а сами обобщенные данные — агрегированными. Обычно агрегированию подвергаются числовые данные (факты), они вычисляются и содержатся в ХД вместе с детализированными данными.

Поскольку один и тот же набор детализированных данных может породить несколько наборов агрегированных данных с различной степенью обобщения, объем ХД возрастает, иногда существенно.

МЕТАДАННЫЕ

Слово «метаданные» буквально переводится как «данные о данных». Метаданные в широком смысле необходимы для описания значения и свойств информации с целью лучшего ее понимания, использования и управления ею.

Пример

В любой книге, помимо текста, содержится значительное количество дополнительной информации. Цель ее заключается в том, чтобы, во-первых, помочь читателю быстрее ознакомиться с содержимым книги и осмыслить его, во-вторых, описать структуру книги для более эффективного поиска нужной информации. Для решения первой задачи служат такие элементы, как аннотация, комментарии, глоссарий, примечания и т.д. Для поиска нужной информации используются оглавление, названия глав, параграфов и разделов, номера страниц, колонтитулы, предметный указатель и т.д. Кроме этого, читателю могут понадобиться сведения об авторах или об издательстве. Вся эта информация, которая не является частью книги, а служит для повышения эффективности работы с ней, и представляет собой метаданные.

С точки зрения IT-технологий метаданные — любая информация, необходимая для анализа, проектирования, построения, внедрения и применения компьютерной информационной системы. Одно из основных назначений метаданных — повышение эффективности поиска. Поисковые запросы, использующие метаданные, делают возможным выполнение сложных операций по фильтрации и отбору данных.

Если рассматривать понятие «метаданные» в контексте технологии ХД, то метаданные должны содержать описание структуры данных хранилища и структуры данных импортируемых источников. Метаданные хранятся отдельно от данных в репозитарии метаданных. Они содержат всю информацию, необходимую для извлечения, преобразования и загрузки данных из различных источников, а также для последующего использования и интерпретации данных, содержащихся в ХД.


 

А также другие работы, которые могут Вас заинтересовать

81424. Доменная структура и её роль в функционировании белков. Яды и лекарства как ингибиторы белков 106.19 KB
  Яды и лекарства как ингибиторы белков. Некоторые яды попадая в организм человека прочно связываются с определёнными белками ингибируют их и тем самым вызывают нарушения биологических функций. Так лекарства назначаемые в дозах больших чем терапевтические могут действовать как яды т. вызывать серьёзные нарушения обмена веществ и функций организма а яды в микродозах часто используют как лекарственные препараты.
81425. Четвертичная структура белков. Особенности строения и функционирования олигомерных белков на примере гемсодержащего белка - гемоглобина 104.92 KB
  Особенности строения и функционирования олигомерных белков на примере гемсодержащего белка гемоглобина. В частности молекула гемоглобина состоит из двух одинаковых α и двух βполипептидных цепей т. Молекула гемоглобина содержит четыре полипептидные цепи каждая из которых окружает группу гема пигмента придающего крови ее характерный красный цвет. Простетическая группа нековалентно связана с гидрофобной впадиной молекулы гемоглобина.
81426. Лабильность пространственной структуры белков и их денатурация. Факторы, вызывающие денатурацию 100.13 KB
  Под лабильностью пространственной структуры белка понимают способность структуры белковой молекулы претерпевать конформационные изменения под действием различных физикохимических факторов. Под денатурацией следует понимать нарушение общего плана уникальной структуры нативной молекулы белка преимущественно ее третичной структуры приводящее к потере характерных для нее свойств растворимость электрофоретическая подвижность биологическая активность и т. При непродолжительном действии и быстром удалении денатурирующих агентов возможна...
81427. Шапероны - класс белков, защищающий другие белки от денатурации в условиях клетки и облегчающий формирование их нативной конформации 105.78 KB
  Шаперо́ны (англ. chaperones) — класс белков, главная функция которых состоит в восстановлении правильной третичной структуры повреждённых белков, а также образование и диссоциация белковых комплексов. Термин «молекулярный шаперон» впервые был использован в работе Ласкей и других при описании ядерного белка нуклеоплазмина
81428. Многообразие белков. Глобулярные и фибриллярные белки, простые и сложные. Классификация белков по их биологическим функциям и по семействам: (сериновые протеазы, иммуноглобулины) 106.76 KB
  Глобулярные и фибриллярные белки простые и сложные. Так белки можно классифицировать: по форме молекул глобулярные или фибриллярные; по молекулярной массе низкомолекулярные высокомолекулярные и др.; по химическому строению наличие или отсутствие небелковой части; по выполняемым функциям транспортные защитные структурные белки и др.; по локализации в организме белки крови печени сердца и др.
81429. Иммуноглобулины, особенности строения, избирательность взаимодействия с антигеном. Многообразие антигенсвязывающих участков Н- и L-цепей. Классы иммуноглобулинов, особенности строения и функционирования 108.05 KB
  Домены тяжёлых цепей IgG имеют гомологичное строение с доменами лёгких цепей. Специфичность пути разрушения комплекса антигенантитело зависит от класса антител которых существует 5 типов: Ig IgD IgE IgG IgM. Созревающие Влимфоциты синтезируют мономерные бивалентные молекулы IgM по структуре похожие на рассматриваемые выше IgG которые встраиваются в плазматическую мембрану клеток и играют роль первых антигенраспознающих рецепторов. В количественном отношении IgG доминируют в крови и составляют около 75 от общего количества этих...
81430. Физико-химические свойства белков. Молекулярный вес, размеры и форма, растворимость, ионизация, гидратация 103.82 KB
  Молекулярный вес размеры и форма растворимость ионизация гидратация Индивидуальные белки различаются по своим физикохимическим свойствам: форме молекул молекулярной массе суммарному заряду молекулы соотношению полярных и неполярных групп на поверхности нативной молекулы белка растворимости белков а также степени устойчивости к воздействию денатурирующих агентов. Различия белков по молекулярной массе. Молекулярная масса белка зависит от количества аминокислотных остатков в полипептидной цепи а для олигомерных белков и от...
81431. Методы выделения индивидуальных белков: осаждение солями и органическими растворителями, гель-фильтрация, электрофорез, ионообменная и аффинная хроматография 104.42 KB
  Метод выделения белков основанный на различиях в их растворимости при разной концентрации соли в растворе. Соли щелочных и щёлочноземельных металлов вызывают обратимое осаждение белков т. Чаще всего для разделения белков методом высаливания используют разные концентрации солей сульфата аммония NH42SO4.
81432. Методы количественного измерения белков. Индивидуальные особенности белкового состава органов. Изменения белкового состава органов при онтогенезе и болезнях 110.81 KB
  Индивидуальные особенности белкового состава органов. Изменения белкового состава органов при онтогенезе и болезнях. Для определения количества белка в образце используется ряд методик: Биуретовый метод один из колориметрических методов количественного определения белков в растворе.