48543

МЕТАДАННЫЕ

Лекция

Информатика, кибернетика и программирование

Метаданные — это данные о данных, которые описывают характеристики объектов-носителей данных, способствуют обнаружению, идентификации, оценке и управлению этими данными, включают определения объектов, относящихся к данным, разработчикам, пользователям и средствам взаимодействия.

Русский

2013-12-17

608.79 KB

42 чел.

МЕТАДАННЫЕ

Необходимость создания метаданных

Существующие системы метаданных

Цели, задачи создания метаданных и требования к ним

Классификация метаданных

Обоснование выделения объектов метаданных - место метаданных на различных этапах обработки данных

Выделение атрибутов метаданных

Стандартизация в области представления и обмена метаданных

Организация хранения метаданных

Агрегация и аналитика для метаданных

Необходимость создания метаданных

Метаданные — это данные о данных, которые описывают характеристики объектов-носителей данных, способствуют обнаружению, идентификации, оценке и управлению этими данными, включают определения объектов, относящихся к данным, разработчикам, пользователям и средствам взаимодействия.

Определение понятия "метаданные" данное в стандартах:

ГОСТ Р ИСО 15489-1-2007 [8] п.3.10. Метаданные - это данные, описывающие контекст, содержание, структуру документов и управление ими;

ГОСТ Р ИСО 23081-1-2008 [9] п.4. Метаданные об управлении документами. В контексте управления документами метаданные определяются как данные, описывающие контекст, содержание и структуру документов, а также процессы управления ими на протяжении всего жизненного цикла документа (ИСО 15489-1, подраздел 3.12). Сами по себе метаданные являются структурированной или полуструктурированной информацией, позволяющей создавать, регистрировать, классифицировать, обеспечивать доступ, хранение и размещение документов, в рамках и за пределами одной либо нескольких областей деятельности.

Первоначально метаданные определяют документ в момент его ввода, фиксируя его связь с контекстом деятельности предприятия и устанавливая контроль над ним. В течение жизненного цикла документов или их совокупностей новые слои метаданных будут добавляться в процессе использования документов во вновь проводимых деловых операциях. Это означает, что метаданные продолжают накапливать информацию, касающуюся контекста управления документами и деловых процессов, в которых используются документы, и соотносятся с содержательными и структурными изменениями документа. Метаданные могут быть источником информации о многократном использовании документа многими системами и для множества целей. Метаданные, применяемые к документам в течение всего их жизненного цикла, можно продолжать использовать после того, как сами документы перестанут быть востребованы в деловых целях и будут переданы на хранение.

Метаданные обеспечивают аутентичность, надежность, применимость и целостность документов, обеспечивают управление ими и понимание информационных объектов как физических, так и аналоговых, и цифровых.

Каталог – это поименованный список однородных объектов, составленный в порядке, облегчающем их нахождение с указанием для каждого объекта значений характеристик (свойств) уникально идентифицирующий объект. Каталог идентифицирует различные объекты, представленные в виде списков. Например, каталог запчастей, компьютеров, книг, ресторанов, гостиниц и т.п. Сведения о данных также являются каталогом. Просто этот каталог, также как каталог web-ресурсов, представляет обобщенный каталог данных, которому нужно привлечение других каталогов. Когда говорим о каталоге, то здесь важно знать, где находятся данные, в каком формате они хранятся, кто ответственный за поддержку данных и др. Каталог товаров без указания, где товар можно купить, не имеет смысла. Поэтому, кроме каталога товаров, нужны каталоги магазинов и таблицы связей, в каком магазине, какие товары можно купить.

В последние десятилетия интенсивно идет процесс создания массивов и БД, созданы десятки тысяч исходных, инвертированных и расчетных массивов. Для обработки этих данных разработаны сотни различных программных средств, на основе которых можно получить тысячи различных расчетных характеристик. Обмен данными (международный, межведомственный и межкорпоративный) всегда сопровождается оценкой их свойств, потребительских характеристик качества данных. Во всем этом потоке информации необходимо очень быстро ориентироваться. И здесь имеющиеся бумажные каталоги, списки, справки, полученные с технических носителей, уже не помогают.

БД и массивы данных очень быстро изменяются, пополняются, корректируются и т.п. Объем такой информации также относительно большой, так базы сведений об изученности того или иного района Мирового океана оцениваются в сотни Мбайт. Справочная информация - это основа для перехода на безбумажную технологию обработки информации. Кроме того, пользователей уже не удовлетворяет полное или выборочное копирование файлов данных, им требуется тонкая выборка по определенным критериям, атрибутов которых иногда нет в исходных массивах данных и об этом пользователю неизвестно.

Проблемы стратегического управления данными и контроля над ними связаны с метаданными. К сожалению, большинство организаций еще не решили проблему создания и эффективного управления метаданными. Одна из главных задач, связанных с метаданными, заключается в координировании и синхронизации информации из разрозненных источников, что ведет к лучшему пониманию того, где находится информация и как она используется. Метаданные требуются в БД, хранилищах данных, для управления данными и приложениями. Метаданные добавляют к информации контекст, что позволяет лучше понимать ее, использовать и отслеживать по всей организации. БД и приложения можно делать богаче при помощи таких метаданных, как сведения о БД, организациях, персонах, источниках данных, правилах перемещения данных и путь прохождения информации по влияющим на нее приложениям [5].

Метаданные необходимы для анализа, проектирования, построения, внедрения и применения практически любой компьютерной системы. Так как все, с чем работает компьютер, по сути, является данными, а метаданные сопровождают любые данные, то это понятие имеет место в любой предметной области.

Таким образом, метаданные в любой предметной области, представленные в виде каталогов, справочников, реестров, содержат сведения о составе данных, содержании, статусе, происхождении, местонахождении, качестве, форматах, формах визуализации, условиях доступа, приобретения и использования. Метаданные могут определять авторские, имущественные и смежные с ними права на данные.

Метаданные обладают рядом специфических особенностей, характерных для всех видов справочной информации:

  1.  одноразовый ввод информации при первоначальной загрузке метаданных с последующим внесением изменений и многократное ее использование в течение достаточно длительного промежутка времени;
  2.  относительно малая активность обновления метаданных, как по частоте, так и по объему корректировки;
  3.  отделение во времени по источникам и исполнителям процессов обновления от процесса использования и как следствие – необходимость обеспечения совместимости информации, подлежащей редактированию;
  4.  наличие четких признаков классификации и группировки метаданных;
  5.  необходимость централизации глобальных и национальных сведений о данных и децентрализации локальных, детальных сведений о данных.

Стандарт на метаданные Федерального комитета по географическим данным США (FGDC-
STD-001) выделяет четыре функции метаданных:

  1.  поддержка поиска – выделение необходимых пользователю источников баз или массивов данных, представление информации, необходимой для определения некоторых критериев поиска данных (временной период, географическая область, др.);
  2.  получение сведений о данных (назначение и пригодность) — информация, необходимая для оценки пригодности данных для выполнения той или иной прикладной задачи (полнота и качество данных, наличие и точность измерений отдельных параметров);
  3.  доступ к данным — информация, необходимая для приобретения (получения) выбранного набора данных (условия и методы доступа);
  4.  применение данных — информация, необходимая для прикладной обработки и использования данных, т.е. пользователь с помощью метаданных должен иметь возможность оценить их происхождение, семантику, структуру данных.

Наличие метаданных считается ключевым фактором успеха эксплуатации БД. Они содержат информацию, необходимую для извлечения, преобразования и загрузки данных из исходных систем, а также для последующего использования и интерпретации содержимого БД.

Существующие системы метаданных

В каждой организации есть справочные сведения, которые представляют информацию, необходимую для идентификации и конкретного определения ключевых объектов данных. Это сведения о наблюдательных платформах, проектах, организациях поставщиках и потребителях информации, разработчиках приборов, БД, форматах, картах, пособиях и т.д. Они является вспомогательными, справочными при обработке данных.

Первые попытки создания массивов справочной информации (тогда еще не было термина «метаданные») относятся к концу шестидесятых годов [1, 4]. К сожалению, технические возможности того времени не позволили создать полноценные массивы справочной информации. Была только предложена идея накопления, в первую очередь, справочных сведений о массивах данных находящихся на различных носителях, в различных странах и организациях, имеющих различные пространственно – временные масштабы представления данных. В конце семидесятых начале восьмидесятых годов в России и в мире вновь вернулись к идее создания массивов справочных сведений. Так во ВНИИГМИ-МЦД было разработано программное средство общего назначения КАТАЛОГ для описания коллекций данных, которое позволяло настраиваться на различные объекты метаданных. На основе этой программной системы было разработано две автоматизированные информационно – справочных системы (АИСС); КАТАЛОГ - общие сведения о массивах гидрометеорологических данных и автоматизированный каталог океанографических данных (АКОД), в которых отражались как сведения об источниках данных (рейсах НИС и прибрежных станциях), так и детальные сведения о данных на носителях. Эти системы отражали далеко не весь объем метаданных. Была представлена только «верхушка айсберга метаданных»

Более широкий подход к созданию метаданных был предпринят в начале восьмидесятых годов в Институте кибернетики АН Украины при совместной с ВНИИГМИ-МЦД разработке системы управления океанографическими данными [1]. В состав этой системы, кроме сведений о данных, была включена информация о пользователях, запросах, учреждениях, программных средствах и др. Эта разработка называлась Словарь–справочник. В настоящее время во ВНИИГМИ-МЦД разработано более 15 объектов для хранения и поиска метаданных (сведения о массивах и базах данных, организациях, проектах, форматах, наблюдательных платформах, приборах, рейсах НИС, др.).

За рубежом интенсивно ведутся исследования в области создания метаданных, особо следует отметить сайт http://www.marinemetadata.org [14, 16]. В России создано несколько достаточно крупных ресурсов по метаданным [www.metadata.ru, http://www.elbib.ru/index.phtml?page=elbib/rus/methodology/md_rev/md_intro/md_example]. К сожалению, они представляют только стандарты в этой области. Одной из первых разработок в области создания метаданных относится разработка ИСИР [3] Перечень и краткие сведения о существующих и используемых в Интернет-системах метаданных, разработанных в различных странах и по различным программам, проектам, представлен в табл.1.

Таблица 1 - Сведения об информационно- справочных системах с метаданными

Разработчик

Система

Содержание и назначение

Источник

США НАСА

GCMD

Общие сведения о данных по природной среде

http://gcmd.nasa.gov 

США НАСА

EOSDIS

Сведения о массивах данных

http://harp.gsfc.nasa.gov/~imswww/pub/imswelcome/plain.html

Норвегия, Grid-Arenda

ADD

Организации и БД

http://www.grida.no/add/

AMAP Норвегия

APD

Сведения о проектах

http://www.amap.no/

МОК

GLODIR

Эксперты в области морских исследований 

http://www.unesco.org/ioc/infserv/glodir.htm

США

RVs

Сведения о НИС и расписание их работы по странам

http://oceanic.cms.udel.edu/ships

МСИМ

НЦОД Германии

CSR

Сведения о рейсах НИС в формате ROSCOP, переданные в международный обмен

http://www.ices.dk/ocean/roscop

http://www.sea-search.net/roscop/welcome.html 

ВНИИГМИ-МЦД

ЦБМД ЕСИМО

Сведения о массивах и БД, форматах данных, проектах, организациях, наблюдательных платформах, программных средствах, др.

http://www.esimo.ru/meta/ 

ВНИИГМИ-МЦД

ЕСИМО

Сведения об информационных ресурсах

http://www.esimo.ru/srbd_data/index.jsp 

ВНИИГМИ-МЦД

CODES 

Кодификаторы ЕСИМО

http://www.esimo.ru/meta/codes/

ВНИИГМИ-МЦД

ЕСП

Единый словарь параметров ЕСИМО

http://data.oceaninfo.ru/udopweb/index.jsp

ВНИИГМИ-МЦД

Термины

Термины и определения ЕСИМО

http://data.oceaninfo.ru/resource/dictionaries/index.jsp

США

DADDI

Поисковая машина для метаданных по Арктике

http://mercdev.ornl.gov/daddi/ 

Комитет по данным МПГ

МПГ

Сведения о проектируемых массивах данных в период МПГ

http://nsidc.org/forms/ipy_data_registration.html 

Германия

Pangea

Сведения о массивах, проектах, программных средствах

http://www.pangaea.de/

EC, проект SeaDataNet

CDI

Общий индекс данных, который идентифицирует каждую единицу хранения (станция, срок наблюдений, др.).

http://www.seadatanet.org 

Кроме того существует общие программные средства, позволяющие организовать работу с метаданными. Практически все крупные корпорации включают в список своих инструментов программные средства работы с метаданными.

Средство для работы с метаданными InfoSphere корпорации IBM собирает метаданные из разных источников, обеспечивает связь метаданных между разными системами и непрерывно записывает метаданные, чтобы точно знать, что происходит с информацией по мере ее интеграции. Пакет позволяет также связывать глоссарии с элементами данных. В результате информация становится более понятной и надежной, и ее легче интегрировать как внутри систем-источников, так и при перемещении по предприятию.

Кроме того, корпорация IBM имеет инструмент управления метаданными Metadata Workbench, который позволяет визуализировать взаимосвязи между источниками и пользователями данных, предоставлять подтверждение «родословной» данных. Metadata Workbench обеспечивает понимание происхождения информации, связывая поля в инструментах формирования аналитических отчетов с источниками, из которых эти данные были извлечены и, показывая, каким образом эти данные были получены. Инструмент IBM для управления метаданными позволяет создавать новые объекты метаданных.

Анализ представленных систем метаданных позволяет сделать следующие выводы:

  1.  большинство программных систем ориентировано на работу с одним объектом метаданных;
  2.  для успешного поиска высококачественных данных, кроме сведений о массивах и базах данных необходимы и другие объекты метаданных - сведения о форматах хранения данных, организациях, хранящих данные, программных средствах их обработки, проектах, в рамках которых получены данные и другие, которые нужно объединить в единую модель метаданных;
  3.  в созданных системах хранения метаданных, информация об организациях, экспертах, параметрах дублируется в нескольких объектах метаданных (например, сведения об организациях нужны в описаниях массивов и БД, проектов, рейсов НИС и др.);
  4.  основная часть систем работает в режиме онлайн;
  5.  системы метаданных создаются на международном (MEDI, EDMED), национальном (EOSDIS, ЕСИМО) и ведомственном уровнях;
  6.  атрибуты метаданных в различных системах для одних и тех же объектов метаданных не унифицированы по принятым именам, используемым классификаторам;
  7.  нет четкого понимания единицы описания метаданных (в одной и той же системе, для одного и того же объекта метаданных даются значения атрибутов с различными уровнями обобщения, например, в одном случае это данные одной экспедиции, выполненной в Черном море, а в другом – много экспедиций для Мирового океана);
  8.  наибольшее число систем создано для таких объектов, как сведения о массивах и БД, рейсах НИС, проектах, организациях;
  9.  для создания и поиска метаданных имеются как общее программное обеспечение ИБМ Metadata Workbench, так программные средства для отдельных объектов метаданных (ЕДМЕД, ЕДМЕРП, CSR, другие) или группы объектов, например, в ЦБМД ЕСИМО [6].

Недостатками процессов ведения метаданных являются:

  1.  низкая оперативность обновления информации (некоторые объекты после их создания не обновляются);
  2.  несогласованный ввод новых экземпляров и изменений в различные объекты метаданных, т.е. требуется учет жизненного цикла описаний объектов метаданных;
  3.  недостаточная функциональность и степень автоматизации системы ведения метаданных;
  4.  неэффективная и разрозненная служба ведения метаданных – одни и те же объекты метаданных и их экземпляры поддерживаются в различных странах, ведомствах, организациях), т.е. требуется организация обмена метаданными между различными системами;
  5.  слабая стандартизация методов представления (структур, используемых классификаторов) различных объектов метаданных;
  6.  недостаточная интероперабельность в этой области (использование международных стандартов и спецификаций, общих интерфейсов);
  7.  не всегда реализован автоматизированный выход на данные;
  8.  недостаточное развитие пространственных метаданных [2, 15];
  9.  отсутствие глобальной схемы создания, обработки и использования метаданных.

Пользователей не устраивает, что метаданные разрознены, не достаточно структурированы (имеется много полей свободного заполнения), противоречивы, содержат дублирующие и устаревшие записи. Объекты метаданных далеко не всегда автоматически связаны между собой. В этом случае даже при хорошо организованной базе метаданных добиться актуальности и достоверности метаданных очень трудно.

В существующие системы метаданных необходимо встраивать дополнительные объекты метаданных (описания сетей наблюдений, технологий, методов сбора и обработки и др.). Разработчики приложений используют внутренние структуры метаданных с собственной кодировкой, не используя существующие типовые блоки систем метаданных (геообласти, период измерений, другие) со стандартизованными классификаторами.

Различные организации используют разные программные средства для поддержки своих метаданных. Для каждого средства создаются свои структуры метаданных, в результате появляются "острова метаданных", которые трудно связать друг с другом. Распространение корпоративных приложений с преобладанием изолированных структур данных привело к тому, что метаданные оказались рассеянными и сохраняются в разобщенных БД.

Информация о различных объектах метаданных содержится в БД в виде отдельных схем, таблиц и в виде ссылок на другие документы.

Существующие (“независимые”) глобальные системы метаданных типа GCMD, EDMED и другие не отвечают роли метаданных в интегрированных БД и требуются создание дополнительных объектов метаданных. Независимые системы метаданных также нужны и их необходимо развивать, как минимум, для ответов на совершенно конкретные вопросы, например, сколько массивов данных по тому или иному виду данных существует в мире и их характеристики, а также обеспечивать их заказчиков детальной информацией. Это необходимо знать при планировании новой программы или международного проекта. Но, очевидно, что продолжение независимого развития систем метаданных приводит к тому, что при разработке прикладных систем разрабатываются собственные ресурсы метаданных и схемы их управления, параллельно существующим системам метаданных. Поэтому наиболее актуальным вопросом сейчас является создание в каждой крупной предметной области единой централизованной системы метаданных включающей несколько уровней описания метаданных.

Для построения единой системы метаданных необходимо провести классификацию метаданных, обосновать выделение объектов метаданных, определить атрибуты объектов метаданных, шире использовать международные и национальные стандарты в этой области.

Цели, задачи создания метаданных и требования к ним

Целями создания метаданных являются:

  1.  эффективная организация работ по разработке, администрированию БД и более быстрому извлечению информации из БД, повышение качества информационных услуг;
  2.  развитие стратегического управления данными и получение автоматизированной отчетности по управлению данными, включая мониторинг состояния БД.

Для достижения этих целей с помощью метаданных решаются следующие задачи:

  1.  интегрируются данные за счет отдельного хранения описания структур данных, кроме того, для создания многомерных интегрированных БД требуются более подробные метаданные, такие как сведения об источниках интегрируемой информации, методах создания и обработки данных, др.;
  2.  поддерживается проектирование новых приложений;
  3.  повышается гибкость создаваемой системы и возможности повторного использования существующих приложений (это обеспечивается информацией о программных средствах с исходными текстами кодов программ, web – сервисах, структурах данных);
  4.  автоматизируются административные процессы управления загрузкой, обновлением и использованием БД;
  5.  улучшается информирование пользователей, эксплуатационного персонала сведениями об использовании БД и т.п.;
  6.  пользователи обеспечиваются информацией (например, сведениями об источниках данных, организациях, приборах, проектах), которую можно считывать и визуализировать или агрегировать;
  7.  информация о времени создания, об авторе, происхождении, источнике данных, правилах наследовании данных и о путях трансформации данных от источника к текущему местоположению данных позволяет пользователям восстановить цепочку, по которой проходят данные за время преобразования, и выявить места возникновения ошибочной информации;
  8.  усиливается механизм безопасности (метаданные хранят правила доступа и пользовательские права для всей системы и для отдельных компонент, приложений и таблиц);
  9.  повышается качество данных (метаданные хранят правила проверки качества данных, процедуры их запуска и результаты контроля данных);
  10.  разработчики обеспечиваются информацией о структурах данных, программных средствах создания и обработки данных;
  11.  улучшается взаимодействие внутри системы (метаданные обеспечивают сведениями о времени и месте измерения данных, их связи с данными, представляют дополнительные атрибуты поиска для выполнения запросов);
  12.  улучшается анализ данных (метаданные дают информацию о методах анализа и обработки данных);
  13.  стандартизируется применение общей терминологии и языка взаимодействия пользователей и разработчиков.

Метаданные должны:

  1.  описывать, как было произведено измерение (платформа, приборы и т.д.) и как была получена продукция (метод, программное обеспечение и т.д.). Метаданные, дающие оценку качества данных, представляют важность для выделения необходимых наборов данных, которые можно использовать для конкретных целей;
  2.  отражать структуру комплектов данных (таблицы, атрибуты, свойства данных и т.д.) и специфику их хранения (СУБД, файловая система, ГИС), систему локальных кодов, единиц и наименования атрибутов данных для обеспечения доступа к неоднородным массивам данных (желаемым порциям данных), которые требуются для прикладной обработки;
  3.  обеспечивать создание каталогов (регистров) данных и сервисов для поиска данных, а также цепочек сервисов обработки данных, которые удовлетворяют потребностям и запросам потребителей;
  4.  помогать отслеживать происхождение и обновление новых версий данных, представленных авторами БД, т.е. вести справочную информацию по массивам данных – документацию, библиографические ссылки и цитируемость данных, потенциально структура и средства поддержки метаданных должны позволять пользователям БД публиковать новую и редактировать старую информацию о них;
  5.  давать информацию о технологиях сбора, передачи и доступа к данным;
  6.  предоставлять метаданные в технологии обработки и визуализации данных для лучшей их идентификации;
  7.  выдавать соответствующую информацию о пользователях (это могут быть конечные пользователя и внешние системы, web-приложения или сервисы), необходимую для их идентификации и авторизации, а также для предоставления отчетной информации о работе системы;
  8.  упрощать управление данными, формулировку и задание критериев запросов на данные;
  9.  помогать управлению обслуживающим персоналом БД эффективнее эксплуатировать, технические средства и технологии, касающиеся сбора, обработки, обмена данными;
  10.  поддерживать миграцию данных на современные носители и компьютеры новых поколений;
  11.  помогать пользователям полноценно использовать данные, поддерживать огромные объемы информации, доступные в электронной форме;
  12.  обеспечивать прозрачный доступ ко всем полям объектов метаданных, включая поля, необходимые для содержательной работы с данными;
  13.  содействовать интеграции данных, облегчать доступ к тем данным, о существование которых пользователь ранее не знал;
  14.  уменьшить дублирование данных;
  15.  гарантировать согласованные средства взаимодействия и интерпретации информации из БД, а также обеспечивать согласованность сведений по предметной области.

Для решения этих задач необходимо в различных предметных областях интегрировать метаданные в централизованные БД. За счет централизации метаданных можно оптимизировать процессы ведения метаданных, информационное взаимодействие, уменьшить затраты на ведение и сопровождение, повысить скорость обучения и взаимодействия с новыми системами, эффективность управления, производительность баз метаданных.

Необходимо не только расширить и стандартизовать состав объектов метаданных и их атрибутов, но и создать единую систему хранения метаданных, включающую все объекты метаданных и позволяющую интегрировать различные объекты метаданных, созданные в различных странах и организациях.

Метаданные могут использоваться одновременно в нескольких приложениях. Поэтому важно сформулировать соглашения о том, какие системы имеют право доступа, кто имеет право на изменение и удаление экземпляров метаданных. При централизации метаданных можно получить необходимые метаданные непосредственно в любой момент сразу после ее внесения в БД, организовать хранение, агрегацию и проведение анализа метаданных.

Большинство экземпляров объектов метаданных мало изменяется во времени. Тем не менее, важно проследить изменение отдельных объектов во времени. Поэтому в состав атрибутов должны вводиться «дата разработки прибора», «начало их применения», «дата ввода и редактирования описания экземпляра метаданных». Основные данные, необходимые для создания метаданных, содержатся в технической документации, поэтому они требуют дополнительного упорядочения и формализации.

Система ведения метаданных должна:

  1.  обеспечить актуальную и доступную централизованную информацию обо всех информационных ресурсах и их связях;
  2.  установить единое терминологическое пространство;
  3.  иметь информацию обо всех эксплуатируемых БД;
  4.  отражать контекст, дату, время, место, роль организации, хранящей данные (автор, провайдер, др.).

Жизненный цикл включает для:

данных - наблюдение (измерение), сбор, создание, загрузку БД, контроль, редактирование, консолидацию, архивирование, извлечение, трансформацию (структурные преобразования), обработку, агрегацию, доставку, использование, начало эксплуатации;

метаданных (рис.1) [16] - анализ предметной области, понимание, проектирование, моделирование, разработку, преобразование, публикацию, владение, потребление, управление качеством, управление метаданными, отчетность, аудит, описание, редактирование;

нормативно-справочной информации (НСИ) - отождествление, создание, обзор, публикацию, обновление, выведение из использования.

Анализ и понимание включают определение структур данных, понимание смысла и содержания входных данных, выявление связей между таблицами БД, анализ зависимостей и связей информации, исследование данных для их интеграции.

Моделирование подразумевает выявление схем объединения данных, выявление и отображение взаимосвязей в метаданных, моделирование структур данных и схем объединения данных, анализ влияния и синхронизации между моделями.

Разработка предполагает создание новых метаданных. Разработка обеспечивает коллективное создание и управление словарем параметров, поддержку функций информационных систем, усвоение потоков трансформации и доставки данных.

Преобразование заключается в автоматизации трансформации данных, связывании источников и БД с помощью определенных правил.

Рисунок 1 - Жизненный цикл метаданных [16]

Публикация извещает заинтересованных пользователей о существовании искомых метаданных и их расположении. Публикация предоставляет унифицированный механизм размещения метаданных и оповещения об обновлениях.

Владение позволяет определять права использования метаданных. Использование метаданных осуществляется сотрудниками или информационными системами. Управление, выполняемое руководителем, включает в себя модификацию, расширение метаданных и контроль доступа.

Потребление – это поиск, визуальная навигация и отображение метаданных и их взаимосвязей, доступ к метаданным, их интеграция, импорт и экспорт; анализ влияния изменений.

Управление качеством метаданных решает задачи проверки разнородных данных в рамках их интеграции, повышения качества информационных ресурсов, мониторинга качества входных данных и позволяет устранять проблемы со структурами данных и их пригодностью до того, как они повлияют на проект.

Отчетность и аудит предполагают определение функций подготовки, исполнения отчетов по расписанию, форматирования результатов отчета, сохранения и просмотра версий отчета. Результаты аудита должны использоваться для анализа и понимания на следующем витке жизненного цикла метаданных.

Управление метаданными состоит в организации доступа к шаблонам, отчетам и результатам, навигации по объектам метаданных; определении прав и ответственности за поддержание качества и актуальности метаданных.

Классификация метаданных

Метаданные подразделяют на:

  1.  системные (технические) метаданные - используются для извлечения, преобразования, загрузки БД, описывают информационную и функциональную части системы, определяют структуру данных – состав и названия таблиц, атрибутов, их свойства, правила их преобразования, в соответствии с которыми осуществляется их обработка, типы связи, форматы хранения, ограничение на доступ; необходимы пользователям инструментальных средств для профилирования, моделирования и разработки информационных систем;
  2.  тематические (описательные) метаданные - представляют смысловое содержание данных (название БД, период наблюдений, географический район, пространственно-временные масштабы обобщения данных, др.), определения, терминологию, глоссарии, происхождение данных и алгоритмы их обработки; содержат как информацию, взятую из самих БД (дата наблюдений в первой и последней записи, объем данных в логических и физических единицах), так и введенную дополнительно; предназначены для внешних пользователей;
  3.  интерфейсные метаданные - используются для описания экранов и создания отчетов, примером таких метаданных является реестр web-сервисов WSDL;
  4.  метаданные процессов (операционные метаданные) - отражают информацию о характеристиках системы обработки данных (статистику загрузки БД, работы приложений -  частоту исполнения, количество записей), календарном планировании и обработке исключений, трафике, скорости доступа и жизненном цикле данных; востребованы пользователями, управляющим и операционным персоналом;
  5.  проектные метаданные - отражают документирование результатов разработки и предоставляют данные для аудита разработки и поддерживают управление изменениями.

Системные метаданные можно разделить на:

  1.  метаданные для источников данных (частота и средства обновления, ограничения и методы доступа);
  2.  метаданные для преобразования данных - информация о получении данных (планирование создания массивов данных и проведение измерений), использовании данных – методы обработки); управлении таблицами измерений; преобразовании и агрегации (программы контроля и обработки данных, загрузки БД); документировании проверок, проводимых работ с БД (журналы и протоколы обработки, рекомендации по обработке данных);
  3.  метаданные СУБД (содержание таблиц и форматы полей).

Описательные метаданные включают следующие объекты метаданных - сведения о массивах и БД; организациях, форматах, наблюдательных сетях, платформах, приборах, программных средствах, др. Их можно также классифицировать по уровню необходимого обобщения данных – глобальные, национальные и корпоративные метаданные.

В каждой системе метаданных вне зависимости от уровня обобщения метаданных в них можно выделить общие сведения, источники данных, сведения об экземплярах данных, рис.2. Состав объектов метаданных и агрегация атрибутов зависит от уровня обобщения метаданных. Сведения об организациях, форматах, экспертах, приборах, методах используются во всех системах и во многих объектах метаданных.

Классификаторы, параметры

Данные

БД 1

  Проект 1

  Проект 2

  Проект 3

       Профиль 1

    Профиль 2

    Профиль 3

БД 2

БД 3

БД-N

Общие сведения о массивах и базах данных (форматы, методы)

Источники данных (организации, платформы, проекты, рейсы, web – ресурсы, эксперты, приборы, программные средства)

)

Сведения об экземплярах

(сведения о точках измерений, в т.ч. временных рядах, профилях, полях сетки, каталоги объектных файлов)

Рисунок 2 – Уровни метаданных

Общие сведения о массивах и БД рассчитаны на широкий круг пользователей. Здесь находятся сведения о глобальных массивах и БД, имеющихся в различных организациях, странах; сведения об информационных ресурсах, представленных в Интернет.

Источники данных рассчитаны на пользователей специалистов, которые хотят оценить содержание, количество, достоверность, полноту той или иной базы исходных данных. Поэтому здесь используются базы метаданных, представляющие сведения о наблюдательных платформах (НИС, прибрежных станциях, спутниках и т.п.), методах наблюдений, используемых на наблюдательных платформах, проектах, в рамках которых получены данные и т.п.

Сведения об экземплярах данных (каталоги метаданных) предназначены для поиска данных и выдачи их в удобной для пользователя форме. Эти метаданные используются администраторами БД и специалистами, работающими с данными (подробные каталоги изученности того или иного района, сведения о пространственно- временных координатах каждого наблюдения). Создаваемые здесь базы метаданных позволят по логическим характеристикам данных найти их физические адреса хранения на технических носителях. Так как объем метаданных на этом уровне может быть достаточно большим (сравним с объемом исходных данных), то создание отдельной схемы метаданных для каждого вида наблюдений не всегда целесообразно. Особенно, если объем метаданных составляет около 30-50% от всей БД, а многие значения атрибутов повторяются от наблюдения к наблюдению. В таких случаях эффективнее использовать метаданные напрямую из базы исходных данных.

При создании системы метаданных необходимо выделить следующие структурные элементы.

База метаданных – совокупность объектов метаданных в определенной предметной области или организационной единице хранения данных (мировой, национальный, ведомственный центр данных, предприятие).

Объект метаданных – одна из сущностей, которая отражает тот или иной срез сведений о данных (что - массивы и базы данных; где – наблюдательные сети, организации, платформы, рейсы, проекты как источники данных; чем – приборы, методы, программные средства).

Экземпляр метаданных – единица описания для одного из объектов метаданных (одна база данных, или организация, или формат, или метод и т.п.).

Описание массива, БД или их частей представляет единицу описания информационного пространства и характеризуется сочетанием свойств физического представления - уникальным URI ресурса и семантического представления - свойствами относительно тематики, пространственно-временного представления, формой представления ресурса, информацией о ЖЦ ИР - дата формирования, изменения, описания ИР; идентификатором ИР и др.

Выбор единицы описания массива, БД (экземпляра) определяется следующими уникальными свойствами:

  1.  организацией – хранителем массива (базы) данных;
  2.  уровнем обработанности (агрегации) данных – первичные данные наблюдений, обобщенные данные, диагностические и прогностические данные;
  3.  типом системы хранения данных (СУБД, система структурированных файлов данных, система объектных файлов данных - документы, графические файлы, изображения, презентации, др.);
  4.  пространственным разрешением (точка, сетка, профиль, разрез, район, квадрат и т.п.);
  5.  временным разрешением (случайное, ежемесячное, ежедневное и др.);
  6.  списком параметров, хранящихся в наборах данных;

Экземпляр массива или БД - это логическая единица хранения, управления и обработки данных, представляющая собой совокупность информации, по отношению к которой осуществляются процессы доступа и манипулирования как к единому целому. Массив или БД может иметь один или несколько экземпляров.

Состав и точность описания свойств объектов метаданных зависит от уровня управления экономикой, масштаба системы, этапа обработки данных. Метаданные циркулируют в системе переработки данных каждого учреждения, находящегося в системе сбора, хранения, обмена и обработки данных на международном, национальном, корпоративном уровнях и уровне принятия решений. На каждом из этих уровней нужны свои объекты метаданных с необходимым уровнем обобщения.

На международном уровне необходимы сведения о международных соглашениях, массивах данных, предназначенных или переданных в международный обмен, включая сведения о рейсах и станциях, форматах обмена данными, программных средствах их обработки и др. Здесь как правило хранятся глобальные метаданные (сайты мировых центров данных, международных организаций, например, система МЕДИ на портале МОК ЮНЕСКО).

На национальном уровне используются сведения об организациях одной страны, массивах данных, которые они хранят, программных средствах обработки, форматах сбора и обмена на уровне страны, наблюдательных платформах, наблюдательных сетях и др. Эти метаданные хранятся на сайтах соответствующих выделенных национальных организаций, например. Национального центра океанографических данных.

На корпоративном уровне необходима детальная информация по массивам (БД) в виде сведений об источниках данных и их состоянии (в обработке, на каком носителе и т.п.), о состоянии изученности того или иного географического района по различным параметрам. Эти метаданные хранятся на сайтах отдельных организаций.

Для лиц, принимающих решения, в первую очередь, необходимы сведения об информационной продукции и регламенте ее выпуска, в т.ч. исходные данные и прогнозы, а также возможных типах запросов и решаемых системой задач.

То есть на различных уровнях системы обработки данных должны быть как объекты метаданных одного класса (сведения о массивах данных, источниках данных, форматах и т.п.), которые можно хранить в одной глобальной базе метаданных, так и специфические объекты для каждого уровня управления данными (сведения о международных соглашениях, конвенциях, законах, наставлениях, руководствах и т.п.).

Обоснование выделения объектов метаданных – место метаданных на различных этапах обработки данных

Пользователи хотят включать в обработку только ту информацию, которая удовлетворяет их критериям, например, данные отдельных ведомств или при наличии достаточного объема, полноты данных. Уверенность в поставщике и происхождении данных, возможность быстро найти необходимые сведения, оценить их пригодность для намеченного использования – вот что должны обеспечить пользователю метаданные.

Чем крупнее проект, чем больше источников данных задействовано в системе, чем шире спектр программного обеспечения, которое планируется использовать для доступа к БД и системе обработки данных, тем насущнее необходимость в применении метаданных. Метаданные дают возможность пользователю увидеть всю историю происхождения данных и понять, как это влияет на процесс анализа и откуда поступает интересуемая информация. Чтобы найти данные, пользователю нужно в метаданных найти ответы на вопросы где, кто, что, как, когда, чем, какие (табл.2).

Таблица 2 – Необходимые объекты метаданных

Вопросы

Объекты метаданных

Что ищет пользователь?

Параметры – сведения об измеренных и вычисленных свойствах объектов, определяемых и проконтролированных каким-то методом (название, точность, ограничения, частота, единица измерений, др.).

Поиск по дисциплинам или рубрикатору, ключевым словам.

Каков формат данных и их структура?

Система хранения данных (БД, структурированный файл, каталог), структура данных (точка, профиль, сетка, каталог), форматы представления (ASCII, XML, NetCdf, ЯОД).

Где находятся источники данных?

Географический район – океан, море, страна, субъект РФ, город. Координаты – широта, долгота, глубина.

Поиск по географической карте.

Где получить необходимые данные?

Организация – хранитель или источник данных, местоположение серверов, рабочих станций, др.

Как произведены необходимые данные?

Тип наблюдательной платформы (суда, спутники, прибрежные станции, буи), с которых получены данные, название или идентификатор платформы.

Организация - владелец наблюдательной платформы.

Приборы, с помощью которых велись наблюдения (производитель, измеряемые параметры, точность), сведения о калибровке инструмента (где, кто, когда).

Проекты, в рамках которых собраны наблюдения.

Рейсы, в рамках которых выполнены наблюдения.

Описание массивов и БД, проектов, рейсов НИС, платформ размещение инструмента на наблюдательной платформе - высота инструмента или глубина относительно поверхности земли (фотографии расположения приборов, чертежи, др.)

Кто выполнил измерения или хранит данные

Страна, организация, персона

Кто и как представляет данные?

Имена и адреса организаций, ученых и специалистов - экспертов по данным – сотрудников, поддерживающих в актуальном состоянии массив данных или создавших этот массив; проект, в рамках которого получены данные; программа (проект), в которой участвует наблюдательная платформа; разработчик формата, программных средств.

Описание пользователей – категории, права доступа к данным, сведения о пользователях, выполнявших различные операции над данными (ввод, редактирование, загрузка, извлечение, др.).

Информация о телекоммуникационной системе передачи данных.

Когда были измерены (получены) данные?

Жизненный цикл данных (дата начала и окончания наблюдений, дата создания БД, дата описания БД в метаданных, др.)

Как рассчитывается тот или иной параметр и т.д.?

Описание действий, выполняемых над данными (методы и алгоритмы вычисления параметров, исправление ошибок, расщепление полей, др.)

Какие существуют методы и формы представления информационной продукции?

Сведения о БД, интерфейсах, программных средствах, методах их представления

Какие существуют методы обработки данных?

Сведения о программных средствах создания, контроля, поиска и обработки данных.

Каким образом можно быстро разобраться в составе и структуре файлов и БД?

Сведения о форматах хранения, сбора и обмена данными

Какой существует объем данных для различных пространственно-временных масштабов?

Изученность района - количество наблюдений по квадратам, районам, периодом наблюдений, наличие пропусков в измерениях, др.

Для создания базы метаданных необходимо установить совокупность объектов метаданных с целью охвата всего объема сведений о данных. Состав и точность описания объектов метаданных зависит от масштаба системы, технологического этапа обработки данных (жизненного цикла – ЖЦ данных). Объекты метаданных, места их возникновения и использования показаны в табл.3.

Таблица 3 - Состав метаданных, место их возникновения и использования

Технологический этап - ЖЦ

Объекты ЖЦ

Объекты метаданных

Системы и методы наблюдений

Сведения о сетях и методах наблюдений, химических определений

Методы определения параметров

Сведения о химических лабораториях, методах измерений, определений параметров

Средства производства наблюдений

Описания наблюдательных платформ - НИС, прибрежных станций, спутников, самолетов, буев

Средства измерений (приборы и оборудование)

Сведения об измерительных средствах, их размещении и калибровке (способах и местах поверки приборов)

Сбор данных

Технологии

Сведения о технологиях сбора данных по видам наблюдений, форматах передачи данных, описание передаваемых комплектов данных, наличие, поступление данных, программах (проектах), в рамках которых собираются данные, их оперативности

Каталогизация источников данных

Логическое содержание данных и физическое их хранение

Описание массивов данных, организаций поставщиков, владельцев данных, пользователей, форматов сбора, наблюдательных проектов, параметров, методов сбора, первичной обработки, контроля данных, др. Сведения о единицах учета данных – рейсы НИС, полеты самолетов, спутников

Накопление данных (структурные преобразования, упорядочение)

Технологии

Сведения о технологиях, массивах и базах данных. Характеристики телекоммуникационной системы, стандарты представления и передачи метаданных (коды стран, городов, морских районов и т.п.)

Методы контроля данных

Сведения о методах контроля данных

Обмен данными

Технологии, проекты

Сведения о технологиях и форматах данных, описание комплектов данных, сведения о проектах и программах

Процедуры контроля данных

Сведения о методах контроля данных

Хранение и защита данных

Технологии

Сведения о технологиях хранения, защиты данных, носителях

Использование данных

Методы анализа и определения параметров

Сведения о методах использования данных, объектах, использующих данные, пространственно – временные координаты наблюдений (измерений), типовых запросах

Анализ и ассимиляция данных

Методы анализа, качество данных

Сведения о платформах, инструментах, качестве данных, методах наблюдений (высота или глубина установки), методы первичной обработки данных

Прогнозы состояния среды

Методы прогнозирования и обобщения, качество данных

Сведения о качестве данных, методах прогнозирования, обобщения, определения качества данных

Климатическая обработка

Методы статистической обработки, анализа данных

Сведения о методах обработки, анализа данных, алгоритмы обработки

Процедуры контроля данных

Сведения о методах контроля данных

Программные инструменты

Сведения о программных средствах (библиотеках программ, процедурах, ошибках программных средств, документации на программные средства)

Технические средства (ЭВМ, телекоммуникации и т.п.)

Сведения о комплексе технических средств ЭВМ (характеристика вычислительного процесса, загрузки, выполняемой работы на ЭВМ, обработки информации)

Моделирование

Модели процессов, прогноза, восстановления данных и др.

Сведения о моделях, методах, форматах выходных данных

Распространение данных

Формы представления

Сведения об экранных формах (интерфейсах) выдачи (таблицы, графики) данных, формах представления информации (таблицы, графика, текст, звук, карты, издания), статистических характеристиках, применяемых классификаторах (страны, города, морские районы, др.)

Форматы передачи

Сведения о форматах данных, параметрах

Издания

Сведения об изданиях, международных соглашениях, конвенциях, законах, наставлениях и руководствах

Представление в Интернет

Сведения о БД

Дополнительной информацией к метаданным могут быть наиболее часто задаваемые вопросы по массивам данных; политики в области сбора и распространения данных; наличие средств сервисного обслуживания, возможности оплаты; сведения о сообществе пользователей (экспертов, организаций, использующих массив данных), форумы, чаты, подписка на новости в области метаданных; термины и сокращения, используемые в данных и метаданных; публикации, сделанные на основе массивов данных.

Процессы обработки данных в любой организации можно характеризовать наличием технологий сбора, обработки, хранения, обмена и доведения информации. Результатом работы этих технологий являются один или несколько массивов и БД, которые в свою очередь характеризуются описаниями:

  1.  сетей наблюдательных платформ, на основе которых собрана эта информация;
  2.  форматов хранения этих данных;
  3.  методов измерений, сбора или переработки;
  4.  нормативно- методических документов, где представлены методы обработки данных, использования приборов, данных и др.;
  5.  программных средств, с помощью которых они созданы;
  6.  приборов, которыми произведены измерения.

Схема формирования метаданных представлена на рис.3.

Метаданные возникают уже на этапе измерений (кто, чем, как измерил, обработал). Безусловно, если бы в существующих технологиях сбора данных были отражены все атрибуты метаданных, то такие описания могли бы получаться автоматизированным способом. К сожалению, некоторые из этих объектов метаданных, только начинают формироваться. Поэтому часть метаданных восстанавливается уже на более высоких этапах переработки данных - стадии архивации данных. Использование спецификаций TML, SensorML позволяет для каждого измерения сделать отметку каким прибором, методом, произведено измерение того или иного параметра.

На основе созданных массивов и БД создаются различные представления в виде отчетов, информационных ресурсов в Интернет и т.п. Эти ресурсы являются производными от созданных массивов, поэтому они наследуют большинство значений атрибутов описания массивов и БД, т.е. могут получаться автоматизированным способом с уточнением некоторых значений атрибутов (в зависимости от условий выборки ресурса), например, по географической области, периоду наблюдений, составу параметров, др. Сведения о производных массивах данных можно хранить как в виде отдельного нового описания с указанием «родительского» описания, так и в виде описания этапа жизненного цикла основного массива данных (когда, кем и что было сделано с массивом данных, изменившиеся атрибуты описания).

Технологии

Массивы, БД технологии 1

Массивы, БД

технологии 2

Массивы, БД технологии N

Объекты метаданных

Сведения о БД

Сведения о форматах

Сведения о наблюдательных платформах

Сведения о программных средствах

Рисунок 3 - Схема организации объектов метаданных

В крупных центрах все массивы данных сопровождаются соответствующей документацией, включающей описание массива данных (полное и формализованное); описание формата данных, методов контроля, программных средств, применяемых для создания и обработки БД. Часто эта информация включается на Web-сайт, к ней возможен доступ и ознакомление до начала работ с данными. Еще в восьмидесятых годах Межправительственная океанографическая комиссия ЮНЕСКО в своем руководстве рекомендовала сопровождать каждый массив данных описанием набора данных, сведениями о рейсах НИС, приборах, наблюдаемых параметрах с указанием единиц и методов измерений. Для передачи данных в Государственный фонд по гидрометеорологии и мониторингу окружающей среды на любой массив данных должна представляться следующая документация:

  1.  описание массива (базы) данных с указанием полноты и логических единиц хранения (станций, рейсов, географических областей и т.п.) с количеством наблюдений;
  2.  перечень источников информации (организации, наблюдательных платформ, проектов);
  3.  описание физической организации данных (форматов хранения массивов данных);
  4.  перечень параметров с указанием полного и краткого наименований, единиц и методов измерений, пределов изменений параметров;
  5.  описание методов контроля данных (логических, синтаксических);
  6.  описания наблюдательных программ (проектов), в рамках которых получены данные;
  7.  описания методов измерений и применяемых приборов (измерительных систем);
  8.  описания программных средств, с помощью которых создан массив и (или) проведена обработка этого массива;
  9.  сведения о публикациях, полученных на основе этого массива;
  10.  описание используемых в массиве классификаторов;
  11.  каталог данных, содержащий агрегированную информацию о массивах данных, например, порейсовые данные сопровождаются каталогом рейсов, а прибрежные данные – каталогом станций.

От полноты приводимых сведений зависит понимание других разделов и количество вопросов потенциальных пользователей. Описание данных должно быть достаточно подробным и доступным как программисту, так и ЛПР.

Таким образом, в крупной корпоративной системе (например, в Федеральной службе по гидрометеорологии и мониторингу окружающей среды) должны создаваться целая серия различных объектов метаданных. Базовый набор объектов метаданных представлен в табл.4.

Таблица 4 - Базовый набор объектов метаданных

Объект

Описание объекта метаданных

  1. Технологии переработки данных

Описание технологий, в которых могут быть задействованы приборы, платформы, датчики, другие объекты

  1. Наблюдательные сети

Сведения о состоянии наблюдательных платформ в организации, ведомстве, стране

  1. Наборы данных

Сведения о массивах, базах данных, информационных  ресурсах

  1. Форматы данных

Форматы сбора, хранения и обмена данными, описание типов данных, описание логической структуры данных

  1. Платформы наблюдений

Характеристики платформ

- Судно

Сведения о судах

- Попутные суда

Суда, производящие гидрометеорологические наблюдения

- Прибрежные станции

Сведения о гидрометеорологических станциях

- Буи

Сведения о буях

- Спутники

Сведения о спутниках

  1. Проекты

Национальные и международные проекты и программы, в рамках которых получены данные

  1. Модели, программные средства

Сведения о моделях, программных средствах Обрабатывающий процесс, модель обработки данных, цепочка обработки данных, программное средство

  1. Инструменты

Приборы, ИИС, датчик-измеритель, датчик-фильтр, сенсор

  1. Методы

Характеристики методов наблюдений, определений, измерений, обработки

  1. Библиография

Характеристики документов

  1. Организация

Сведения об организациях – источниках, поставщиках данных, разработчиках приборов, программных средств, владельцах наблюдательных платформ, пользователях

  1. Рейсы НИС

Сведения о результатах экспедиционных работ

  1. Контактная информация (персона)

Сведения о результатах контактных лицах, экспертах, ученых. Лицо, отвечающее за состояние объекта и к которому можно обратиться за консультацией по "смысловым" вопросам, связанным с объектом, разработчик формата, программного средства

  1. Должность

Характеристика должности

  1. Объекты

Сведения об использовании таблиц БД (имя, объем, число обращений, др.)

  1. Интерфейсы

Характеристики интерфейсов, список интерфейсов (например, реестр web-сервисов WSDL)

  1. Карты

Сведения о картах

  1. Продукция

Сведения о выпускаемой информационной продукции, включая прогнозы

  1.  Интернет-ресурсы

Сведения об Интернет-ресурсах

  1.  Словарь параметров

Описание концептуального элемента (название, единицы измерения, диапазон значений параметра, тип статистической характеристики и др.)

  1. Параметры (показатели)

Характеристики измеренного или вычисленного параметра (показателя)

  1. Классификаторы

Сведения о классификаторах

  1. Термины

Описание терминов

  1. Формат

Cведения о форматах данных

  1. Прогнозы

Сведения о прогнозах

  1. Рейсы НИС

Сведения о рейсах НИС

  1. Библиография

Сведения о библиографических источниках (НПД, НМД, НТИ)

  1. Пространственные данные

Сведения о массивах пространственных данных

  1. Сетка

Описание наборов данных для сетки

  1. Изученность

Каталоги изученности того или иного района

  1. Временной ряд

Сведения о временных рядах океанографических наблюдений

  1. Профили

Сведения о выполненных океанографических станций

Для создания такого комплекса объектов метаданных необходимо иметь единую схему ввода метаданных. Такая схема позволяет осуществлять поиск, начиная его с любого объекта метаданных и отображать атрибуты метаданных из различных объектов, получать агрегированные отчеты по различным атрибутам и отслеживать все изменения в базе метаданных.

Средства формирования базы метаданных основаны на обобщенной модели метаданных (рис.4). В основе логики управления метаданными лежит группировка метаданных по информационным проектам. Информационный проект это программа действий, направленная на сбор, обработку, накопление, хранение и распространение данных в определенной предметной области, реализованная или планируемая к реализации организацией-участником программы. Проекты структурируются по следующим разделам:

  1.  производство измерений;
  2.  сбор данных;
  3.  обработка, накопление и хранение данных;
  4.  обслуживание (распространение данных и информационной продукции).

Информационная деятельность организации

Производство наблюдений

Сбор данных

Обработка, накопление и хранение

Распространение информации

Объекты метаданных

Сети

Организации

Методы, модели

НМД

Программные средства

Форматы

Массивы, ИР

Экземпляр метаданных

Проекты

Рисунок 4 – Обобщенная модель метаданных

Каждый проект связан с несколькими объектами метаданных. Такими объектами могут быть наблюдательные платформы, измерительные приборы, массивы данных, программные средства. Набор объектов метаданных исследовательского проекта определяется спецификой соответствующего мероприятия. Связи между различными объектами метаданных - проектами и их экземплярами реализуются средствами администрирования системы метаданных по схеме, представленной на рис.5.

Рисунок 5 - Схема связей объектов метаданных

Минимальный состав описываемых объектов метаданных включает описание массива (одного или нескольких – в зависимости от специфики технологии), описание формата (одного или нескольких), описание программного комплекса (одного или нескольких), описание эксплуатационной документации.

Для междисциплинарного общения и обработки данных необходимо единообразное понимание различных терминов, поэтому в базе метаданных должны широко применяться различные классификаторы, словари терминов и определений. Набор кодов и классификаторов позволяет с единых позиций описывать все объекты метаданных. В различных объектах метаданных используется более 30 классификаторов различного назначения. Эти классификаторы оформлены в виде БД. Если для какого-либо атрибута имеется несколько классификаторов, то за основу принимается более высокий уровень стандартизации: международный - ISO; международный по тематической области - МОК, ВМО, ИМО; национальный (общероссийский); национальный в тематической области; корпоративный (ведомственный); стандарт предприятия (организации).

Выделение атрибутов метаданных

Основными атрибутами описания массивов и БД являются:

  1.  параметры, хранящиеся в наборе данных;
  2.  уровень обработанности (агрегации) данных – первичные данные наблюдений, обобщенные данные, диагностические и прогностические данные;
  3.  тип системы хранения данных (СУБД, система структурированных файлов данных, система объектных файлов данных);
  4.  пространственное разрешение (точка, сетка, профиль, разрез, район, квадрат и т.п.);
  5.  временное разрешение (случайное, ежемесячное, ежедневное и др.);
  6.  метод (прибор) наблюдений;
  7.  частота обновления (ежечасно, ежесуточно, еженедельно и др.).

Другие атрибуты описания массива данных - это содержательное название, аннотация, условия использования (бесплатный, платный), автор или владелец данных, контактная информация, список ключевых слов, период данных, географический район, организация, рубрики и другие. К описанию массивов данных прилагаются такие экземпляры объектов метаданных как эксплуатационная документация (нормативно-методические документы), используемая при наблюдениях, обработке данных; сведения об источниках данных (организации, платформы).

Важно проследить изменение массивов данных во времени, поэтому в описание массивов данных вводится отдельная сущность описание жизненного цикла (идентификатор этапа, этап ЖЦ, дата). Некоторые объекты метаданных начинают формироваться еще перед выполнением крупной программы (проекта), до начала создания массива данных (проект будущего массива данных, сведения о планируемой экспедиции, исследовательском проекте). Например, при подготовке к Международному полярному году (МПГ) были созданы метаданные в виде сведений о планируемых к созданию массивов и БД всеми странами – участниками МПГ. Поэтому этот момент необходимо учитывать при разработке средств ведения метаданных и включить такой этап жизненного цикла, как дата описания проектируемого к созданию массива данных.

Массив (база) данных, как правило, возникает в результате деятельности многих исполнителей. Одни проектируют массив (базу) данных, другие разрабатывают необходимые программные и технологические средства и включают БД в информационные системы. Поэтому как для организации, так и для исполнителя вводится атрибут «Роль» (автор, дистрибьютор, др.).

Информация, необходимая для создания метаданных, содержатся в различной технической документации и в самих данных, которые являются основным источником информации о массиве (базе) данных для его будущих пользователей. Основной объем детальных метаданных (каталогов) можно получить путем обработки БД. Например, информация о каждом наблюдении (место и время наблюдений) является метаинформацией, ее можно создать путем выборки из БД. Кроме того, во многих БД содержится информация о приборах, методах определения загрязняющих параметров и другая сопутствующая информация, которая является метаданными. Или сведения о рейсах НИС (период рейса) можно получить путем определения дат выполнения первой и последней станции, количество выполненных наблюдений - суммированием количества профилей.

Если носитель состоит из нескольких экземпляров (комплектов компактных дисков, картриджей, другое.) или имеются материалы более чем по одному массиву, то необходимо описать физическое размещение материалов на каждом носителе.

В документации на массивы и БД появляются такие характеристики как, описание тематики, дата публикации, политика сохранения/уничтожения, внедренные объекты, степень сжатия, сведения об устройстве-источнике данных, история изменений, цифровые подписи, протоколы доступа. Они также являются атрибутами метаданных. В число атрибутов метаданных файловых систем входят данные о времени создания файла и внесения в него изменений, защищенности, принадлежности, прав доступа и т.д. Использование данных в сетевых файловых системах еще увеличивает число атрибутов метаданных, появляется URL адрес, протокол доступа (ftp, http, др.). В дополнение к техническим атрибутам метаданных нужно использовать характеристики контента, причем надо выбирать критически важные для документов атрибуты, например, для нормативных методических документов важны тип и дата утверждения документа, для библиографических источников – автор, а для данных – период измерений, состав параметров, др.

Поскольку информация о составе, качестве, цене, свойствах и местонахождении набора данных представлена в соответствующих атрибутах метаданных, потребитель может оценить имеющиеся описания данных и обратиться непосредственно к поставщику за нужным набором данных. Необходимые операции по публикации и обновлению метаданных, их использованию для поиска, оценки, заказа и получения наборов данных должны реализовыватьтся в единой распределенной среде на основе стандартных протоколов.

Каждый источник данных обеспечивает порождение одного или нескольких экземпляров описаний (рис.6) через выбранный метод доступа – конвертор, импорт из локальной СУБД, независимое приложение, приложение в среде распределенной системы или локальной файловой системе, FTP сервер с файлами данных.

Технология

Массив данных

Метаданные

БД

Другие объекты метаданных

ИР

ИР

ИР

Организация

Сеть

Формат

ИР

Рисунок 6 – Структурная схема получения различных объектов метаданных

Описание таких экземпляров наследует метаданные из «родительского» описания массива или БД, на основе которого создан ресурс, уточненные по изменившимся значениям атрибутов (период измерений, географический район, состав параметров).

Описание метаданных может быть обработано (выбрано, сохранено, передано или визуализировано приложением). Процесс создания баз метаданных включает:

  1.  разработку Web-интерфейса для удаленного ввода и редактирования описаний объектов метаданных;
  2.  регистрацию авторов (сведения об организациях и экспертах), как потенциальных источников метаданных и включение их в систему;
  3.  регистрацию, идентификацию и заполнение описаний объектов метаданных, контроль и коррекция, редактирование ранее введенных описаний (удалить ранее введенное описание может только администратор или автор) с привлечением авторов массивов и БД;
  4.  поддержку связей между различными объектами метаданных;
  5.  контроль качества описаний метаданных, включая оценку полноты заполнения по составу объектов метаданных и атрибутов;
  6.  продвижение метаданных к пользователям (рассылка сведений о пополнении, рекламирование), информирование автора и пользователей о включении описаний в систему;
  7.  организацию доступа, выборки, просмотра и копирования отдельных экземпляров метаданных;
  8.  отказ от поддержки отдельных экземпляров метаданных на основе периодического анализа посещаемости, актуальности, доступности, полноты заполнения атрибутов;
  9.  контроль доступа – аутентификация, предоставление доступа к отдельным объектам метаданных определенных категорий пользователей;
  10.  мониторинг метаданных (получение статистики о состоянии метаданных по различным атрибутам поиска – категория данных, посещаемость, др.);
  11.  формирование отчета о работе по вводу метаданных (общее число введенных или отредактированных описаний, число описаний по организациям, список введенных метаданных за указанный временной период - сутки, неделя, месяц).

БД содержат факты и сведения о различных объектах - каталоги. Базы фактов обязательно включают время и место происхождения факта. Поиск по фактам имеет главные атрибуты время и место. Любая БД может быть подвергнута агрегированию, т.е. обработке с целью получения статистических характеристик. Эта информация необходима для предварительного информирования пользователей о наличии той или иной информации в каталоге и в БД фактов.

Требования к метаданным обеспечиваются выбором источников данных в соответствии с установленными критериями (надежность источника, актуальность контента, полнота и качество данных), сертификация технологий подготовки и поддержки БД центрами. Например, показатели качества метаданных в ЦБМД ЕСИМО представлены в табл.5.

В отношении метаданных надежность подразумевает точность приводимых сведений, проверку сведений из нескольких источников, обязательность ссылок на источники приводимых сведений, наличие системы ранжирования источников; актуальность - своевременный отклик на информационные нужды пользователей; полнота - охват всех основных источников по теме в пределах выбранных критериев.

Таблица 5 - Показатели качества метаданных

Показатель качества

Индикатор

Процедура оценки показателя

1. Регистрация объектов технологий и систем

Наличие описаний тематических технологий в базе метаданных (каждая технология имеет минимум три объекта метаданных – описание БД, программное обеспечение, формат и др.)

Отсутствует в базе метаданных:

все технологии– очень плохо;

4 и более – плохо;

2-3 –удовлетворительно;

1 - хорошо;

Все включены - отлично

По справке «Список информационных проектов», включающий зарегистрированные в базе метаданных технологии

Полнота заполнения атрибутов (полей) объектов метаданных для тематических технологий

до 60 процентов – плохо;

61-80 процентов – удовлетворительно;

81-90 процентов – хорошо;

Более 90 процентов - отлично

По справке «Список информационных проектов», включающей раздел «Состояние проекта»

Наличие описаний ведомственных информационных систем

Нет описаний ведомственных систем: очень плохо;

1 – плохо;

2 –удовлетворительно;

3-4 – хорошо;

5 и более - отлично

По справке «Список информационных проектов», включающей раздел «Состояние проекта»

2. Ведение метаданных

Относительное количество своевременно отредактированных объектов метаданных, представленных в базе метаданных (описания массивов, БД – ежеквартально, другие объекты – ежегодно)

До 60 процентов обновляется – плохо;

61-80 процентов –удовлетворительно;

81-90 процентов – хорошо;

более 90 процентов - отлично

По справке «Список информационных проектов», включающей раздел «Состояние проекта»

3. Пригодность метаданных

Востребованность метаданных (по числу обращений пользователей).

Число обращений к ресурсу составляет:

нет обращений – очень плохо;

1-3 в неделю – плохо;

3-7 в неделю – удовлетворительно;

от 7 до 20 в неделю – хорошо;

больше 20 в неделю – отлично

По справке «Статистика посещаемости»

Отсутствие ошибок в разделе описания проекта

Ошибки в описании проекта устранены в течение:

года – очень плохо;

квартала – плохо;

месяца – удовлетворительно;

недели – хорошо;

суток – отлично

По справке «Список информационных проектов», включающей раздел «Состояние проекта»

Каталоги сервисов (рис.7) и приборов (рис.8) должны иметь уникальные стандартные XML – схемы, только тогда можно создать единую схему поиска.

ЖЦ сервиса

Программные средства технологии

Провайдер - персона

Сервисы

Каталог организаций - разработчиков и пользователей

Агрегированная информация о сервисах

Рисунок 7 – Связи каталога сервисов с другими объектами метаданных

ЖЦ прибора

Каталог приборов

Наличие приборов у поставщиков

Агрегированная информация о приборах

Контакты (персоны)

…….

Каталог поставщиков и производителей

Рисунок 8– Связи каталога приборов с другими объектами метаданных

Стандартизация в области представления и обмена метаданных

Необходимость стандартизации метаданных очевидна: различия в их составе и способе представления не позволяют вести эффективный поиск сведений о массивах данных и других объектов метаданных и корректно их использовать как для научных исследований, так и при принятии решений.

Помимо ISO, вопросами стандартизации метаданных занимаются Комиссия стандартов по пространственным данным Международной картографической ассоциации (http://ncl.sbs.ohio-state.edu/ica/home.html); консорциум государственных организаций, коммерческих компаний и частных лиц, активно развивающий и стандартизирующий технические средства пространственных данных в США (Open Geospatial Consortium, Inc. - OGC); ассоциация организаций, агентств, компаний и частных лиц со всего мира, продвигающая идеи глобальной пространственных данных, методики создания национальных пространственных данных и их интеграции в общемировой процесс (GSDI); межведомственный орган, координирующий создание пространственных данных в США (FGDC). В табл.5 приведен список стандартов ISO для метаданных. В настоящее время имеются:

  1.  стандарты выполнения OGC, стандарты для сервисов, картографического отображения (нужны стандарты поиска данных, каталогов данных);
  2.  стандарты методологических принципов создания (ISO);
  3.  стандарты транспортных механизмов (W3C).

Таблица 6 - Список стандартов ISO для метаданных из серии «Информация географическая»

Название

Обозначение

Разработчик

Кол-во стр

Стандарты, технические условия, отчеты и руководства, необходимые для применения инфраструктуры пространственных данных

CEN/TR 15449:2006

CEN/TC 287 Географическая информация

Приложение к ENV 1613-94. Сообщения для обмена лабораторной информацией

CR 12700: 1997

CEN/TC 251 Информатика в здравоохранении

Системы идентификационных карточек. Межсекторные сообщения между основным и периферийными устройствами. Сообщения от получателя к получателю

CR 1750: 1999

CEN/TC 224 Персональная идентификация, электронная подпись и карты и связанные с ними системы и операции

Руководство по отображению Dublin Core и ISO в географическом домене

CWA 14856:2003

CEN/WS MDC Рабочая подгруппа по метаданным для мультимедиа информации. Дублинское ядро (комитет не работает)

Отображение Dublin Core и ISO 19115, "Метаданные"

CWA 14857:2003

CEN/WS MDC Рабочая подгруппа по метаданным для мультимедиа информации. Дублинское ядро (комитет не работает)

Технологии производственные передовые. Архитектура систем. Исполнение модели предприятия и услуги интеграции

ENV 13550:1999

CEN/TC 310 Передовые промышленные технологии

Информационные технологии – Регистр метаданных

ISO 11179

Почтовые адреса

ISO 11180

Системы транспортные интеллектуальные. Файлы географических данных (GDF). Общие технические требования к данным

ISO 14825:2004

ISO TC 204 Автоматизированные транспортные системы

620

Анализ поверхности химический. Информационные форматы

ISO 14975: 2000

ISO TC 201/SC 3 Управление данными и обработка

24

Анализ поверхности химический. Формат передачи данных

ISO 14976: 1998

ISO TC 201/SC 3 Управление данными и обработка

48

Элементы стандарта Dublin Core,

ISO 15836:2003

http://dublincore.org/documents/dcq-html/

Эталонная модель

ISO 19101: 2002

ISO TC 211 Географическая информация/Геоматика

Эталонная модель. Часть 2. Изображения

ISO/TS 19101-2: 2008

ISO TC 211 Географическая информация/Геоматика

84

Язык концептуальной схемы

ISO/TS 19103: 2005

ISO TC 211 Географическая информация/Геоматика

76

Терминология

ISO/TS 19104: 2008

ISO TC 211 Географическая информация/Геоматика

110

Соответствие и тестирование

ISO 19105:2005, ГОСТ Р ИСО 19105-2003

CEN/TC 287 Географическая информация

28

Профили

ISO 19106: 2006

CEN/TC 287 Географическая информация

Схема пространственная

ISO 19107:2003

ISO TC 211 Географическая информация/Геоматика

178

Временная схема

ISO 19108:2002

ISO TC 211 Географическая информация/Геоматика

62

Временная схема

ISO 19108:2005

CEN/TC 287 Географическая информация

Правила для схемы приложений

ISO 19109: 2006

CEN/TC 287 Географическая информация

Правила для схемы приложений

ISO 19109:2005

ISO TC 211 Географическая информация/Геоматика

80

Методология каталогизации особенностей

ISO 19110: 2005

ISO TC 211 Географическая информация/Геоматика

64

Привязка в пространстве по координатам

ISO 19111:2007

ISO TC 211 Географическая информация/Геоматика, portal.opengeospatial.org/files/?artifact_id=6716

86

Пространственное ориентирование с использованием устройств географического распознавания

ISO 19112:2003

ISO TC 211 Географическая информация/Геоматика

28

Принципы качества

ISO 19113:2005, ГОСТ Р ИСО 19113-2003)

CEN/TC 287 Географическая информация

Методы оценки качества

ISO 19114:2003

ISO TC 211 Географическая информация/Геоматика

74

Метаданные

ISO 19115:2003

ISO TC 211 Географическая информация/Геоматика

184

Метаданные. Часть 2. Расширения для данных изображения и данных с координатной привязкой

ISO 19115-2:2009

ISO TC 211 Географическая информация/Геоматика

52

Услуги позиционирования

ISO 19116:2004

ISO TC 211 Географическая информация/Геоматика

60

Представление

ISO 19117: 2005

ISO TC 211 Географическая информация/Геоматика

48

Кодирование (шифрование)

ISO 19118: 2005

ISO TC 211 Географическая информация/Геоматика

114

Услуги

ISO 19119: 2005 Код МКС 35.240.70

ISO TC 211 Географическая информация/Геоматика

88

Базовые стандарты

ISO/TR 19120: 2001

ISO TC 211 Географическая информация/Геоматика

40

Изображения и пространственные данные

ISO/TR 19121: 2000

ISO TC 211 Географическая информация/Геоматика

44

Геоматика. Квалификация и сертификация персонала

ISO/TR 19122: 2004

ISO TC 211 Географическая информация/Геоматика

108

Схема топологии и функций рабочей зоны

ISO 19123: 2005

ISO TC 211 Географическая информация/Геоматика

72 с.

Схема геометрического и функционального покрытия

ISO 19123:2007

CEN/TC 287 Географическая информация

Доступ к простым топографическим элементам. Часть 1. Общая архитектура

ISO 19125-1: 2006

CEN/TC 287 Географическая информация

Доступ к простым топографическим элементам. Часть 2. Опция SQL (языка структурированных запросов)

ISO 19125-2: 2004

ISO TC 211 Географическая информация/Геоматика

68

Каталоги, директории и регистры

ISO 19126

CEN/TC 287 Географическая информация

Коды и параметры геодезические

ISO/TS 19127:2005

ISO TC 211 Географическая информация/Геоматика

28

Интерфейс системы отображения сервера

ISO 19128:2005

ISO TC 211 Географическая информация/Геоматика

84

Структура данных изображения, данных с координатной привязкой и данных области покрытия

ISO/TS 19129:2009

ISO TC 211 Географическая информация/Геоматика

48

Спецификации информационных продуктов

ISO 19131:2007

ISO TC 211 Географическая информация/Геоматика

48

Услуги, основанные на расположении. Эталонная модель

ISO 19132: 2007

ISO TC 211 Географическая информация/Геоматика

104

Услуги, основанные на расположении. Прокладка маршрутов и навигация

ISO 19133: 2005

ISO TC 211 Географическая информация/Геоматика

150

Услуги, основанные на расположении. Мультимодальная маршрутизация и навигация

ISO 19134: 2007

ISO TC 211 Географическая информация/Геоматика

48

Процедуры регистрации элементов

ISO 19135:2005

ISO TC 211 Географическая информация/Геоматика

64

Язык географической разметки (GML)

ISO 19136:2007

ISO TC 211 Географическая информация/Геоматика

104

Базовый профиль пространственной схемы

ISO 19137:2007

ISO TC 211 Географическая информация/Геоматика

20

Показатели качества данных

ISO/TS 19138:2006

ISO TC 211 Географическая информация/Геоматика

76

Метаданные. Внедрение XML-схем

ISO/TS 19139:2007

ISO TC 211 Географическая информация/Геоматика

118

Схема для подвижных элементов

ISO 19141: 2008

ISO TC 211 Географическая информация/Геоматика

56

Определение прикладных сервисов и спецификация протокола

ISO 23950:1998

Коды стран

ISO 3166

Сокращения названий языков

ISO 639-2:1998

Семибитное кодирование набора символов 

ISO 646

Библиографические описания – содержание форма и структура

ISO 690:1987

Представление дат и времени

ISO 8601:2000

http://xml.coverpages.org/ISO-FDIS-8601.pdf 

Картография цифровая. Термины и определения

ГОСТ 28441-99

29-й НИИ Министерства обороны Российской Федерации

16

Наиболее широко распространенным является стандарт ISO 19115, который определяет более 400 элементов метаданных, объединенных в 95 классов (атомарных единиц метаданных). 22 элемента составляют ядро, включающее 7 обязательных, 4 условных и 11 необязательных элементов. Стандарт имеет следующие преимущества: поддержку многоязычных метаданных, использование современных средств документирования (включая словарь данных), поддержку национальных и тематических профилей стандарта, опору на другие международные стандарты (например, для представления дат, времени, координат и др.). ISO 19115 является рамочным стандартом, т.е. не указывает, как метаданные должны храниться в файлах или БД. Эту задачу решает стандарт реализации — ISO 19139.

Идея разбиения стандарта на классы, помимо улучшения обзорности большого числа элементов, состоит в том, что элементы (такие, как условия применения, обязательность и др.) можно присваивать как отдельным элементам, так и классам. Разбиение на классы удобно для создания профилей стандарта, куда они могут переходить полностью из базового стандарта.

Важной особенностью стандарта ISO 19115 является то, что он не только определяет и структурирует элементы метаданных, но и указывает, какие типы данных должны использоваться для записи значений и какие это могут быть значения. Делается это с помощью списков значений кодов, указания допустимого диапазона значений и ссылок на другие стандарты, определяющие представление координат, даты, кодировки символов и т.д. Такая детализация усложняет применение ISO 19115, поскольку для этого требуются приобретение других стандартов и включение их в профиль стандартов метаданных. Использование профиля стандартов упрощает реализацию схемы данных (ISO 19139) и практическое применение стандарта ISO 19115 при построении каталогов метаданных, использующихся для поиска данных по запросам пользователей.

Стандарты метаданных США (серия документов FGDC-STD CSDGMD) представлены в табл.6. К базовому стандарту метаданных FGDC-STD 001-1998 CSDGMD разработаны специальные и тематические профили: профиль биологических данных; расширение для данных дистанционного зондирования; профиль метаданных береговой линии. Во многих странах стандарты FGDC используются в качестве основы национальных стандартов.

Таблица 7 - Список стандартов Федерального комитета по географическим данным США

Номер стандарта FGDC STD

Оригинальное название

Русское название

001–1998

Content Standard for Digital Geospatial Metadata (CSDGMD)

Стандарт содержания цифровых геопространственных метаданных

001.1– 1999

CSDGMD Part 1: Biological Data Profile

Часть 1: Профиль биологических данных

002.5– 1999

002.6

002.7– 2000

Spatial Data Transfer Standard

Part 5: Raster Profile and Extensions.

Part 6: Point Profile

Part 7: CADD (Computer-Aided Drafting and Design), Profile

Стандарт передачи пространственных данных. Часть 5: Профиль и расширения для растровых данных

Часть 6: Профиль для точечных данных

Часть 7: Профиль CADD

005

Vegetation Classification Standard

Стандарт классификации растительности

006

Soil Geographic Data Standard

Стандарт географических данных о почвах

007– 1998

Geospatial Positioning Accuracy Standards

Стандарты точности определения геопространственных координат

008– 1999

Content Standards for Digital Orthoimagery

Стандарт содержания цифровых ортоизображений

009– 1999

Content Standard for Remote Sensing Swath Data

Стандарт содержания сканированных данных дистанционного зондирования

010– 2000

Utilities Data Content Standard

Стандарт содержания данных инженерных коммуникаций

011– 2001

United States National Grid

Разграфка США

012– 2002

Extensions for Remote Sensing Metadata

Расширения для данных дистанционного зондирования

Стандартом метаданных, принятым в России, является ГОСТ Р 51353–99 «Геоинформационное картографирование. Метаданные электронных карт. Состав и содержание». Стандарт перечисляет наиболее используемые элементы метаданных и дополнительную информацию, необходимую для применения метаданных. Стандарты серии ISO 19100 для России также являются основополагающими. Большое число стандартов для метаданных разработано на основе языка XML, табл.8.

Таблица 8 - Стандарты для описания метаданных на основе языка XML

Номер стандарта

Название, назначение

Состояние, год утверждения

Организация разработчик

DC (Dublin Core Metadata for Resource Discovery), ISO 15836

Набор основных семантических элементов, описывающий публикации. Семантика каждого элемента уточняются с помощью квалификаторов (параллельное заглавие, редакторы и т.п.).

2003, RFC 2413, RFC 2731

W3C, Technical Committees (TC) 46, ISO

CWM (Common Warehouse Metamodel)

Общая метамодель для обмена метаданными при использовании технологий Хранилищ данных

OMG XMI (Object Management Group XML Metadata Interchange)

Классы объектов, представляющие типы информационных ресурсов, атрибуты и отношения между различными типами ресурсов

Стандарт

METS (Metadata Encoding and Transmission Standard)

Кодирование и передача метаданных

Федерация электронных библиотек

DCML (Data Center Markup Language Framework Specification)

Описание центров обработки данных, способы «инвентаризации» компонентов центра (серверы, программная инфраструктура, сетевые устройства, системы хранения), описания их взаимодействия друг с другом

REC

W3C, другие компании.

Google Sitemaps Protocol

Протокол Карта сайта, призван улучшить индексацию сайтов. Описывает страницы сайта (дата обновления, частота обновлений и приоритеты индексации), https://www.google.com/webmasters/sitemaps/docs/en/protocol.html

2005

Google

LOM (Learning Object Metadata)

Описание информационных ресурсов в области образования, http://ltsc.ieee.org/wg12 

2002 P1484.12.1

IEEE

MDC OIM (Metadata Coalition Open Informational Model)

Описание моделей данных, реляционных схем, схем обмена данными

Стандарт

OAI (The Open Archives Initiative)

Protocol for Metadata Harvesting, http://www.openarchives.org/OAI/openarchivesprotocol.html 

Стандарт

OAMS (Open Archives Metadata Set)

Представление данных e-print 

OMG XMI (Object Management Group XML Metadata Interchange)

Описывает классы объектов, атрибуты и отношения между различными типами ресурсов. Используется для экспорта/импорта данных - представление для анализа и понимания информационной модели, создания объектного API к ресурсам; автоматизации проектирования с помощью case-средств

Стандарт

OMG

OWL (Web Ontology Language)

Описание предметных онтологий на основе RDFS http://ontology.com/ 

REC

W3C

RDF (Resource Description Framework)

Среда описания ресурсов с разной степенью формализации, http://www.w3.org/RDF/

REC

W3C

RDFS (Resource Definition Framework Schema)

Описание схемы классов и их свойств, с учетом их наследования, ограничений, http://www.w3.org/TR/REC-rdf-syntax/ 

REC, 1999

W3C

SensorML (The Sensor Model Language)

Модель описания датчиков, приборов и генерируемых ими потоков информации (http://vast.uah.edu/SensorML/)

Version 1.0

UNIDATA, Global Hydrology and Climate Centre

vCard

Электронная визитная карточка – описание персоны

Стандарт

SKOS Core (SKOS Mapping Vocabulary Specification)

Модель определения основной структуры и содержания схемы концепций тезауруса, классификационных схем, таксономий, «фолксономий» терминов и определений, глоссариев и других типов контролируемых словарей. http://www.w3.org/2004/02/skos/mapping/spec/, SKOS Core Vocabulary – http://www.w3.org/TR/swbp-skos-core-guide/

2004

W3C

UDDI (Universal Distribution, Discovery, and Integration)

Реестр web-сервисов. Универсальный метод описания, обнаружения и интеграции web-сервисов. Предоставляет средства, с помощью которых любые приложения или услуги, описанные в терминах web-сервисов, могли быть распознаны другими приложениями. На первом уровне — информация об участниках электронной коммерции и описание того, какими продуктами, стандартами, протоколами и процедурами они пользуются. На втором — описание продукции (www.uddi.org)

REC

OASIS, IBM, Ariba, Microsoft

TML (Transducer Markup Language)

Интеграция информационно – измерительных систем, обмена сообщениями между сенсорами и компьютером, http://www.opengeospatial.org/legal

Стандарт, 2005

OpenGIS

WSDL (Web Services Description Language)

Язык описания web-сервисов http://www.w3.org/TR/wsdl/, http://www.msdn.microsoft.com/xml/general/wsdl.asp/

REC

W3C

Примечание. RFC- Request For Comments documents, RECRecommendations

Каждый стандарт предлагает собственную модель данных, часто и собственный синтаксис для записи информации. Создание профиля заключается в использовании для обмена метаданными единой модели, объединяющей стандарты всех объектов метаданных. При этом семантика атрибутов берется из соответствующих стандартов. Если найти подходящий элемент в стандартах пространства имен не удается, можно создать собственное пространство, определив его посредством URI, и добавлять в него элементы с требуемой семантикой. Такой подход значительно упрощает взаимодействие между различными стандартами.

Организация хранения метаданных

Во многих СУБД имеются службы метаданных. Создание и работа с этими метаданными обеспечиваются механизмами используемых СУБД. Для решения локальных задач в большинстве случаев этих метаданных будет достаточно.

Среда управления метаданными должна включать в себя [10, 12] источники метаданных, средства интеграции метаданных, базу метаданных, средства доставки, доступа и публикации метаданных. Источники метаданных – это информационные системы, которые включены в систему управления метаданными. Средства интеграции метаданных предназначены для извлечения метаданных из источников и размещения в базе метаданных База метаданных содержит бизнес-правила, определения, терминологию, глоссарий, происхождение данных и алгоритмы их обработки, описания таблиц и столбцов (атрибутов), включающие статистику работы приложений, данные для аудита. Средства управления метаданными обеспечивают определение прав, ответственности и управляемости. Средства доставки, доступа и публикации метаданных позволяют пользователям и информационным системам работать с метаданными наиболее удобным способом.

База метаданных может иметь централизованную, децентрализованную или распределенную архитектуру [11]. Централизованная архитектура предполагает наличие глобальной базы метаданных, который построен на основе единой модели метаданных и обслуживает все корпоративные системы. Необходимость доступа систем к единой централизованной базе метаданных может привести к деградации производительности удаленных программно-аппаратных комплексов из-за возможных проблем связи. В распределенной архитектуре глобальная база метаданных содержит корпоративные метаданные для централизованных информационных систем, а локальные базы метаданных, содержащие подмножество метаданных, обслуживают периферийные системы. Децентрализованная архитектура предполагает, что центральная база метаданных содержит только ссылки на локальные базы метаданных, которые ведутся независимо в локальных базах метаднных. Отсутствие затрат на согласование терминов и понятий значительно сокращает стоимость разработки, но приводит к множественным и разнообразным моделям, несовместимых друг с другом. Применимость этой архитектуры ограничена случаем, когда интегрируются системы внутри непересекающихся направлений производственной деятельности компании. Выбор между централизованной и распределенной архитектурой основан на том, что все системы расположены в центральном офисе, и проблем с устойчивой связью нет. К сожалению, такие ситуации встречаются очень редко. Таким образом, наиболее приемлемой является централизованно-распределенная архитектура базы метаданных. Интеграция данных, метаданных и НСИ должна выполняться одновременно.

Для централизованной базы метаданных предлагается создание единой модели метаданных включающей тематические (существующие и развиваемые новые) объекты метаданных.

Для хранения и обеспечения доступа к метаданным разрабатываются схемы баз метаданных, включающие описание данных, структур таблиц с метаданными и т.п., позволяющие без дублирования организовать их хранение. Для управления метаданными необходимо:

  1.  описание объектов управления данными (технологий, массивов, платформ, приборов, проектов, программных средств и т.п.) для прямого информирования конечного пользователя;
  2.  описание функциональных элементов интерфейса для технологических приложений (контроль, слияние массивов, удаление дублей и другие) и приложений конечного пользователя (предоставление сведений о наличии данных, выборка данных и др.).

Основной вход в систему поиска исходных данных должен начинаться с общих сведений о БД, позволяющий по логическим характеристикам БД (имя, метод получения, пространственно-временной масштаб представления, тип данных – текст, фактография, пространственные данные) и условиям поиска (географический район, период наблюдений) получить либо физические адреса хранения данных (имя таблицы), либо имя приложения для вычисления значений этого параметра или его статистических характеристик).

В условиях развития интегрированных технологий роль метаданных существенно возрастает и даже становится определяющей и связана со следующими положениями:

  1.  метаданные должны сопровождать данные и нужны, как для поиска и получения детальной информации о данных (методах, сетях наблюдений и др.), так и мониторинга жизненного цикла данных;
  2.  метаданные должны обеспечить поддержку механизма и логики работы системы распределенных данных;
  3.  метаданные и данные должны использовать единые лингвистические средства (классификаторы, коды, словари и др.).

Список связей объектов метаданных представлен в табл.9. Экземпляр одного объекта метаданных может быть связан с любым количеством экземпляров других объектов. Метаданные представляют множество связанных различными отношениями экземпляров, описывающих различные стороны сведений о данных, например, сведения о массивах и БД имеют связи практически со всеми объектами метаданных. Между двумя экземплярами разных объектов могут быть заданы прямые и обратные отношения. Для обеспечения навигации устанавливается связь для обратных отношений путем гиперссылок.

Для использования отдельных объектов метаданных в нескольких других объектах метаданных, необходимо использовать атрибут «Роль». Этот атрибут может применяться для таких объектов метаданных как организации, персона, проект, др. Например, эксперт может быть разработчиком БД, формата данных, прибора, программного средства, руководителем экспедиции; организация - судовладельцем, автором БД, хранителем данных, др.

При создании различных объектов метаданных широко используются классификаторы, табл.10.

Таблица 9 - Связи между различными объектами метаданных

Название объекта

Объекты связи

Организации

Эксперты

Проекты

Форматы

Приборы

Платформы

Программные средства

Параметры

НИС

Массивы данных

Методы

Наблюдательные сети

Воздействия

Описания массивов и баз данных

+

+

+

+

+

+

+

+

Мореведческие организации

+

Форматы данных

+

+

+

Проекты и программы

+

+

+

Эксперты

+

Модели, программные средства

+

+

+

+

Наблюдательные сети

+

+

Рейсы НИС

+

+

+

+

+

Методы

+

+

+

+

НИС

+

Спутники

+

+

+

Приборы

+

+

+

Сведения о прибрежных станциях

+

+

 

+

Web-ресурсы (ссылки на сайты)

+

+

+

Оснащение приборами морской сети и приборный парк организаций

+

+

Таблица 10 - Использование кодификаторов в различных объектах метаданных

Кодификаторы

Массивы

Формат

Методы

Проекты

Программы

НМД

Приборы

Организации

Эксперты

Набл. сети

Суда

Рейсы НИС

Прибрежные станции

Спутники

Информационные ресурсы

Карты

Параметры

  1. Страны

+

=

+

+

+

+

+

+

+

+

+

+

+

+

+

+

  1. Учреждения

+

=

+

+

+

+

+

+

+

+

+

+

+

+

+

+

  1. Временное разрешение

+

+

+

+

+

  1. Пространственное разрешение

+

+

+

+

+

  1. Носитель

+

+

  1. Логическая  единица данных

+

  1. Контроль данных

+

+

  1. Тип данных

+

+

  1. Используемый язык

+

+

  1. Ограничения на доступ

+

+

+

  1. Вид наблюдений, дисциплины

+

+

+

+

+

+

+

+

+

+

+

  1. Типы платформ

+

+

+

+

+

+

+

+

+

  1. Географические районы

+

+

+

+

+

+

+

+

+

+

+

+

+

+

  1. Проекты

+

+

+

+

+

  1. Параметры

+

+

+

+

+

+

+

  1. Уровень стандартизации

+

+

+

+

  1. Тип кодировки текста

+

+

  1. Метод

+

+

+

  1. Единицы измерения

+

+

+

  1. Рубрикатор

+

=

+

+

+

+

+

+

+

+

+

+

+

+

+

+

  1. Судно

+

+

  1. Спутник

+

  1. Прибрежные станции

+

  1. Приборы

+

+

+

+

+

+

+

  1.  Роль организации, эксперта

+

+

+

+

+

Существует большая потребность в комплексной системе поиска метаданных, единой для любой предметной области. Модель метаданных должна позволять легко добавлять новые объекты метаданных без изменения имеющейся структуры. Для создания модели базы метаданных необходимо решить следующие задачи:

  1.  выбрать модель хранения метаданных в БД;
  2.  определить методы доступа к объектам метаданных (только чтение или чтение и запись);
  3.  решить вопросы использования объектов метаданных – они будут использоваться вместе с другими объектами или отдельно.

Существует несколько способов выбора модели базы метаданных:

  1.  создание специальной (собственной) модели для работы с метаданными;
  2.  оснащение доступной базы метаданных инструментами, позволяющими использовать ее как источник метаданных;
  3.  использование имеющихся стандартных моделей.

Создание собственной модели метаданных реализуется в случае решения частной задачи, когда не требуется взаимодействие с другими системами. Для создания единой модели метаданных важно иметь корректные определения объектов, их атрибуты и связи с другими объектами. Такая модель данных должна основываться на общедоступных стандартах W3C, ISO, др. организаций:

  1.  ISO 19115, GML - базовые для многих объектов метаданных;
  2.  vCard – эксперт;
  3.  CERIF или EDMERP – научные проекты;
  4.  Dublin Core – библиография (НМД, НПД, др.);
  5.  RDF, E2EDM – описание информационных ресурсов;
  6.  TML –датчики, приборы.

После выбора модели метаданных можно приступать к созданию метаданных. При этом надо обеспечить:

  1.  возможность обеспечения 90% полноты источников метаданных;
  2.  физическую организацию метаданных (реляционная база данных, система файлов или репозиторий XML);
  3.  вопросы безопасности (кто управляет; кто имеет право читать или обновлять информацию);
  4.  механизмы создания, чтения и добавления объектов и экземпляров метаданных;
  5.  мониторинг и отчетность по метаданным.

Для ведения метаданных создается техническая и организационная инфраструктура поддержки и обновления метаданных. Служба метаданных должна иметь регламенты и комплект инструкций. Большой объем работы приходится на обработку кодов, на их классификацию, кодирование. Классификатор позволяет оперативно и точно осуществлять поиск необходимых пользователю кодификаторов, получить достоверные данные, централизовать управление процессом ведения метаданных.

Для получения метаданных разрабатываются программные средства для удаленного ввода сведений о массивах данных, организациях, наблюдательных проектах, экспертах, сетях наблюдений; получения метаданных из самих данных путем выборки и/или агрегации значений ключевых атрибутов данных.

Пользователь для поиска метаданных должен:

  1.  изучить имеющиеся поисковые стратегии,
  2.  сформировать поисковые требования,
  3.  осуществить доступ к объекту метаданных,
  4.  оценить экземпляр (ы) метаданных (качество, полноту),
  5.  использовать метаданные (чтение, просмотр, рассылка, повторное использование, трансформация).

Программное обеспечение должно поддерживать следующие возможности поиска:

  1.  быстрый поиск слов и фраз в полях название, аннотация, ключевые слова, др.;
  2.  поиск по всему каталогу;
  3.  расширенный многокритериальный поиск (по организации, сфере, категории данных, др.).

Роли различных участников процессов создания и эксплуатации баз метаданных представлены в табл. 11.

Таблица 11 – Роли различных участников процесса создания и эксплуатации баз метаданных

Руководитель

Аналитик

Разработчик ПС

Администратор БД

Оператор

Пользователь

Этап «Проектирование метаданных»

Организует обследование существующей ИС

Выполняет анализ ИС и создает классификацию

Создает спецификации потоков данных от источника до пользователя.

Создает правила оценки данных.

Выявляет, моделирует ресурсы.

Создает логическую и физическую модели данных.

Программирует логику обработки данных.

Разрабатывает процедуры стандартизации, преобразования и передачи данных пользователю.

Создает сервисы.

Сообщает требования к метаданным

Готовит тестовые описания метаданных

Сообщает требования к метаданным

Этап «Эксплуатация базы метаданных»

Назначение операторов.

Анализ воздействий изменений.

Выявление противоречий в метаданных.

Достижение наблюдаемости данных.

Обновляет классификацию.

Поддерживает понимание смысла данных

Создает средства работы с метаданными.

Управляет ИР

Управляет полномочиями участников работ по эксплуатации базы метаданных.

Устраняет противоречия в метаданных.

Готовит отчеты о состоянии метаданных

Вводит новые и редактирует  описания метаданных

Сообщает замечания по метаданным

Доступ к данным

Агрегация и аналитика для метаданных

Кроме получения справочных сведений в том виде, как они были введены в компьютер, на основе метаданных можно выполнять аналитические запросы и получать агрегированные характеристики, т.е. проводить анализ поступления данных и метаданных от различных организаций [13]. Для эффективного управления данными необходимо знать состояние информационных ресурсов, которое можно отразить:

  1.  состоянием сетей наблюдений, с которых получаются данные (количество платформ по владельцам, географическим районам, видам выполняемых наблюдений, др.);
  2.  количеством организаций, платформ по ведомствам, регионам, др.;
  3.  числом БД, параметров по центрам и рубрикатору;
  4.  обобщенными характеристиками пополняемых БД;
  5.  количеством массивов и БД по организациям, регионам;
  6.  характеристиками потоков информации (количество источников данных, буев, станций, объем - число наблюдений, прирост объемов данных за квартал).

Агрегированные характеристики, получаемые по таким объектам метаданных как сведения о массивах данных, проектах, могут характеризовать научный потенциал страны в рассматриваемой области [7]. На основе объектов метаданных можно получать агрегированные характеристики на этапе:

  1.  производства измерений – число станций с наблюдениями определенных видов, параметров, наличие приборов на различных платформах;
  2.  сбора данных - количество источников информации (НИС, прибрежных станций, буев и др.), объемы получаемой информации от одного источника;
  3.  объединения информации в пространстве - количество станций, рейсов по территории, бассейну, региону;
  4.  обработки, накопления и хранения данных - объем обрабатываемой информации, время обработки информации;
  5.  обслуживания - объем выходной информации, периодичность представления (срок, сутки, неделя, декада, месяц, квартал, год); пространственное объединение данных (регион, бассейн, акватория).

Агрегированные характеристики можно получать по таким атрибутам поиска как (даты, параметры, география и др.) для объектов метаданных, отображаемых через:

  1.  количество экземпляров для центров, проектов, направлений деятельности проекта, периода, тематики (рубрики, параметры);
  2.  содержание элементов поиска (географический район);
  3.  категорию информации - содержание и уровень ее обработанности (производство наблюдений; обобщение - аналитика за длительный период измерений или деятельности; диагноз - аналитика за текущий период; прогноз процесса и др.).

Агрегированные характеристики разделяются в зависимости от уровня их представления (использования):

  1.  общие сведения о работе системы (отчеты в министерства);
  2.  сведения для управления системой «Характеристики деятельности»;
  3.  детальные сведения - характеристика ресурсов системы;
  4.  общие сведения о ресурсах системы - агрегированные характеристики для научных исследований.

Общие сведения о работе системы включают:

  1.  состояние внедрения технологий и ресурсов системы (процент);
  2.  количество действующих поставщиков информации;
  3.  количество параметров состояния, включенных в систему;
  4.  количество единиц информационных ресурсов, предоставляемых пользователям (по организациям, категориям, времени обновления, др.);
  5.  количество единиц программных комплексов по обслуживанию пользователей, количество пользователей всех категорий (количество обращений в систему).

Сведения для управления системой включают:

  1.  сведения о системе измерений;
  2.  количество пользователей (всего, постоянных, случайных) – получается по числу регулярных посещений;
  3.  показатели работы системы (количество, технологий массивов и БД по ведомствам, за весь период или за определенный интервал времени - квартал, год);
  4.  общее количество массивов информации (всего), общий объем с годовым приростом.

Сведения для управления системой на примере ЕСИМО (http://www.esimo.ru) включают состояние метаданных, табл.12; количество БД по рубрикатору, рис.9; справку о состоянии ресурсов, табл.13.

Таблица 12 - Состояние метаданных ЕСИМО

Объекты метаданных

Количество записей

Рейсы НИС

33940

Морские прибрежные станции и посты

753

Информационные ресурсы

563

Сведения об организациях

1940

Сведения о судах

10073

Сети наблюдений

33

Приборы и измерительные комплексы

12

Проекты и программы исследований Мирового океана

203

Массивы и БД

563

Эксперты

365

Интернет- ссылки

325

Программные средства

74

Виды наблюдений и параметры

1170

Кодификаторы

292

Таблица 13 - Справка о серийных информационных ресурсах ЕСИМО
(количество экземпляров)

Название ИР

Организация

Дата первой записи

Дата последней записи

Всего

Карты волнения

ВНИИГМИ-МЦД

2003-08-06

2010-01-31

6262

Карты температуры поверхности Тихого океана

ВНИИГМИ-МЦД

2003-08-06

2010-01-26

237

Кольцевая синоптическая карта

ВНИИГМИ-МЦД

2003-08-06

2010-01-31

10105

Рисунок 9 - Количество БД по рубрикатору

Получение агрегированных характеристик для научных исследований опирается на возможности расчета количества экземпляров для всех объектов метаданных по различным атрибутам. Выбор атрибутов обосновывается выбранной (поставленной) целью (гипотезой) анализа результатов, поэтому список поисковых атрибутов генерируется для каждого запроса, а не фиксируется заранее. Возможными вариантами агрегации могут быть:

  1.  распределение количества массивов по видам наблюдений (рис.10), наблюдательным платформам в % (рис.11), географическим районам;
  2.  количество национальных и международных проектов, таб.14;
  3.  количество международных проектов и экспедиций с участием России за период с 1991 по 2005 г., табл.15;
  4.  распределение международных проектов по географическим районам, рис.12;
  5.  распределение международных проектов по направлениям исследований, источникам финансирования, рис.13;
  6.  участие российских организаций в международных проектах;
  7.  организации – лидеры международных проектов, табл.13;
  8.  распределение национальных российских проектов по географическим районам исследований;
  9.  участие ведомств в российских проектах;
  10.  лидерство ведомств в российских проектах.

Таблица 14 - Количество национальных и международных проектов

Международные, закончившиеся к 1991 г. с участием России

Национальные, закончившиеся к 1991г.

Международные с 1991 г. без участия России

Национальные зарубежных стран с 1990 г.

35

46

5

6

Таблица 15 - Международные проекты и экспедиции с участием России
за период 1991 – 2005 гг.

Начавшиеся до 1991

1991- 1995

1996-1999

2000 – 2005

7

13

10

16

Рисунок 10 - Распределение количества массивов по видам наблюдений (в %)

Рисунок 11 - Распределение количества массивов по платформам наблюдений (в %)

Рисунок 12 - Распределение международных проектов по географическим районам

Рисунок 13 - Распределение международных проектов по источникам финансирования

Выводы

Метаданные являются эффективным средством управления данными. Это мощное средство, которое может существенно улучшить качество анализа данных и информационное обслуживание.

Ясно, что сведения о массивах данных нужны, не тем, кто занимается созданием и использованием БД. Об их существовании и характеристиках знает большинство разработчиков. Метаданные нужны тем, кто работает в других смежных сферах наук и не знает, что имеется в интересующих их областях знаний. Заинтересованными сторонами являются также те, кто занимаются моделированием данных, разработкой приложений. Помимо этого, метаданные нужны для работы с данными и подготовки отчетов. Например, для консолидации метаданных требуется информация о том, кто и какие именно данные использует.

Каждое приложение, СУБД или другой инструмент должны вступать в контакт с метаданными с помощью XML схемы. Совместное использование метаданных из нескольких источников в распределенной архитектуре – это стратегическое направление развития метаданных.

Система ведения метаданных включает комплекс средств ввода, поиска, хранения, обработки и распространения метаданных, методы их ведения, поддержания в актуальном состоянии, а также совокупность организационно-распорядительных документов и регламентов, регулирующих использование и ведение метаданных.

Ведение метаданных характеризуется следующими признаками: предпочтительно централизованно распределенным хранением метаданных; применением международных стандартов, наличием широкого комплекса метаданных; обеспечением доступа к метаданным всем конечным пользователям; постоянной актуализацией метаданных; автоматизацией процесса ведения метаданных, обслуживанием запросов пользователей и мониторингом состояния метаданных.

Базы метаданных позволяют пользователям и разработчикам говорить на одном языке. Пользователи получают инструмент поиска и навигации, а эксперты – средства управления метаданными. Чем полнее базы метаданных, тем они эффективнее могут быть использованы для поиска сведений о данных.

Управление метаданными устраняет рассогласование данных, повышает эффективность интеграции бизнес – процессов и устраняет препятствия для разработки корпоративного хранилища данных. Поэтому одновременно с интеграцией данных необходимо интегрировать метаданные и НСИ. К сожалению, в большинстве проектов производится только интеграция данных.

Список литературы

  1.  Алексеенко Е.А., Вязилов Е.Д., Рогачев А.Е. Проектирование БД справочной океанографической информации. - М. Гидрометеоиздат. 1986. – 40 c.
  2. Андрианов В.Ю. Метаданные пространственных данных. Технические регламенты и стандарты создания и обмена пространственными данными // [Электронный ресурс]. Режим доступа: http://www.gisa.ru/22567.html. 
  3. Бездушный А.Н., Серебряков А.М., Филиппова А.А., Лопатенко А.С.. Метаданные ИСИР: определение и использование // Электронная конвергенция: новые технологии в музеях, галереях, библиотеках и архивах. [Электронный ресурс]. Доклад конференции EVA-2000. http://www.a-z.ru/eva/4/12.ram.
  4.  Вязилов Е.Д. Информационные ресурсы по окружающей среде. - М.: Эдиториал. 2001. – 311с.
  5.  Вязилов Е.Д. Метаданные как основа управления глобальными и локальными базами данных // [Электронный ресурс]. Журнал «Новости ЕСИМО». 2001. Вып.7. Режим доступа: http://www.oceaninfo.ru/news/newsl7.htm
  6.  Вязилов Е.Д. Консолидация метаданных в области наук об окружающей среде // Журнал "Вычислительные технологии" Т. 10, Спецвыпуск. СВ-Томск, 2005. - С.30-38.
  7.  Вязилова Н.А. Агрегированные характеристики некоторых объектов метаданных на портале ЕСИМО // [Электронный ресурс]. Новости ЕСИМО. 2005. Вып. 23. Режим доступа: http://data.oceaninfo.ru/info/publications/magazine.jsp 
  8.  ГОСТ Р ИСО 15489-1-2007 "Система стандартов по информации, библиотечному и издательскому делу. Управление документами. Общие требования"
  9.  ГОСТ Р ИСО 23081-1-2008 "Система стандартов по информации, библиотечному и издательскому делу. Процессы управления документами. Метаданные для документов. Часть 1. Принципы".
  10. Гулько Д. Мастер-данные: найден кратчайший путь к СОА. [Электронный ресурс]. Режим доступа: http://www.cnews.ru/reviews/index.shtml?2006/12/21/229368_1, свободный.
  11.  Метаданные и их место в Хранилище. Представление метаданных с помощью XML. [Электронный ресурс]. Апрель 2006 Подготовлено: по материалам зарубежных сайтов Перевод: Intersoft Lab. Режим доступа: http://www.iso.ru/journal/articles/450.html 
  12.  Муралидхар Прабхакаран. Управление метаданными в корпорации. [Электронный ресурс]. 15.07.2005. Перевод: Intersoft Lab. Режим доступа: http://www.iso.ru/journal/articles/416.html 
  13.  РД 115.005-200 «Информационные технологии. Мониторинг информатизации России. Основные положения мониторинга». Портал министерства информационных технологий и связи. [Электронный ресурс]. – Режим доступа: http://allru.org/BPravo/DocumShow_DocumID_84596.html, свободный. – Загл. с экрана.
  14.  Эмброзио Джоанна. Следующая ступень в развитии метаданных: интеграция приложений. [Электронный ресурс]. 01.02.2004 Перевод: Intersoft Lab. Режим доступа: http://www.iso.ru/journal/articles/themes/17/2 
  15.  Geospatial Metadata Pilot Project Report for the Joint Committee on Oceanography and Marine Meteorology (JCOMM) // Expert Team for Data Management Practices. International Oceanographic Data and Information Exchange (IODE). Intergovernmental Oceanographic Commission (IOC) of UNESCO. 20-February-2005. 50 p.
  16.  Marco D., Jennings M. Universal Meta Data Models, Wiley, 2004. (перевод Асадуллаев C. Управление метаданными средствами IBM Information Server. 2008). https://www.ibm.com/developerworks/mydeveloperworks/blogs/Sabir/entry/21r?lang=en

Перечень вопросов для самопроверки

  1.  Как быстро можно найти данные в ИС?
  2.  Каким образом можно быстро разобраться в составе и структуре файлов и БД?
  3.  Где находятся источники метаданных?
  4. Назовите методы и средства документирования массивов и БД.

8


 

А также другие работы, которые могут Вас заинтересовать

6786. Екологічні і техногенні проблеми в перетворювальній діяльності людини 229.08 KB
  Екологічні і техногенні проблеми в перетворювальній діяльності людини Проблеми загальносвітового рівня - демографічні, екологічні, енергетичні. Техногенні проблеми в суспільстві. Інформаційна система спостереження та аналізу стану природи...
6787. Економічний аналіз проекту. Загальне поняття про економічну систему, продуктивні сили, засоби виробництва, три основних питання економіки 49.94 KB
  Економічний аналіз проекту Загальне поняття про економічну систему, продуктивні сили, засоби виробництва, три основних питання економіки продуктивність праці та основні її показники (норма часу, норма продуктивності). Прибуток і рен...
6788. Шляхи економії матеріальних ресурсів проекту (підвищення якості об’єктів проектування, зменшення ваги, багаторазове використання деяких матеріалів тощо) 37.17 KB
  Шляхи економії матеріальних ресурсів проекту (підвищення якості об’єктів проектування, зменшення ваги, багаторазове використання деяких матеріалів тощо). 2.Поняття маркетингу як дослідження ринку певного регіону. 3.Дослідження потреб ринку. 1.Ш...
6789. Проектування професійного успіху 44.46 KB
  Проектування професійного успіху Основні функції професійної діяльності. Професійна діяльність та професійне самовизначення. Основні поняття: культура праці, професійне становлення особистості, професійна кар’єра. Основні функції профес...
6790. Суть та призначення портфоліо в професійній та в освітній діяльності людини 27.29 KB
  Суть та призначення портфоліо в професійній та в освітній діяльності людини. 2.Основні частини портфоліо в залежності від майбутньої професії. 1.Суть та призначення портфоліо в професійній та в освітній діяльності людини. Портфо...
6791. Компонування портфоліо. Фактори, що впливають на професійну кар’єру (особистісні, службові, виробничі, соціально-економічні тощо) 42.89 KB
  Компонування портфоліо. Фактори, що впливають на професійну кар’єру (особистісні, службові, виробничі, соціально-економічні тощо). 1.Компонування портфоліо. За характером і структурою репрезентованих у портфо...
6792. Изучение методов вывода иллюстраций, создания битовых образов, создания движущихся и изменяющихся рисунков 70 KB
  Цель работы: Изучение методов вывода иллюстраций, создания битовых образов, создания движущихся и изменяющихся рисунков. Приобретение навыков создания программ  мультипликации. Постановка задачи:Изобразить на экране прямоугольник, враща...
6793. ВЫПРЯМИТЕЛЬ СО СГЛАЖИВАЮЩИМИ ФИЛЬТРАМИ 160.5 KB
  ВЫПРЯМИТЕЛЬ СО СГЛАЖИВАЮЩИМИ ФИЛЬТРАМИ Цель работы - изучение принципа действия и экспериментальные исследования однофазного маломощного выпрямителя с простейшими сглаживающими фильтрами. 1.1 Основные положения Для питания постоянным током разл...
6794. УПРАВЛЯЕМЫЙ ВЫПРЯМИТЕЛЬ 139 KB
  УПРАВЛЯЕМЫЙ ВЫПРЯМИТЕЛЬ Цель работы - ознакомление с принципом работы и экспериментальное исследование характеристик однофазного управляемого выпрямителя на тиристорах при различных видах нагрузки. 2.1 Основные положения Для регулирования выпря...