63436

ДОСТОВЕРНОСТЬ И КАЧЕСТВО ДАННЫХ

Лекция

Информатика, кибернетика и программирование

Проблема качества данных Метрики оценки качества БД Источники ошибок Методы контроля данных Оформление результатов контроля данных Организация работ по повышению качества данных. Проблема качества данных Надежная БД должна обеспечивать высокую вероятность...

Русский

2014-06-20

318.5 KB

22 чел.

PAGE  317

Оперативность (своевременность)

Полезность

Своевременность

Устойчивость к дефектам

Точность

Сертифицированность

Ценность

Ретроспективность

Пригодность

Оперативность

Доступность (готовность)

Динамичность

Востребованность

Полнота

Мобильность

Практичность

Используемость

Надежность

Защищенность

Достоверность

Сопровождаемость

Конструктивные

Функциональные

Характеристики качества информации

Объем

Идентичность

Актуальность

Согласованность

  1.  

XV. ДОСТОВЕРНОСТЬ И КАЧЕСТВО ДАННЫХ

Проблема качества данных

Метрики оценки качества БД

Источники ошибок

Методы контроля данных

Оформление результатов контроля данных

Организация работ по повышению качества данных.

Проблема качества данных

Надежная БД должна обеспечивать высокую вероятность работоспособности, быстрое реагирование на потерю или искажение данных, восстановление их достоверности и работоспособности БД. Для любого потребителя информации существует допустимое время отсутствия данных, при котором их значения, изменяясь по инерции, достигают предельного отклонения от того, которое должно было быть рассчитано. Это допустимое отклонение результатов после перерыва функционирования БД зависит, в основном, от динамических характеристик источников и потребителей информации. Необходимо эффективно использовать средства СУБД, которые позволяют восстановить случайно или преднамеренно удаленные записи (сведения о клиентах, продукции и т.п.).

Качество данных второй по важности после безопасности вопрос для компаний, использующих БД. Несмотря на то, что этой проблеме начали уделять большое внимание еще 20 с лишним лет назад [1, 2], она до сих пор не решена, а даже еще больше усугубилась [3,4,6-8,10-12]. Большинство организаций еще только предполагают внедрять какие-либо сложные процедуры оценки качества данных. Если мы хотим, чтобы информация помогала строить конструктивные отношения с партнерами и принимать обоснованные решения, необходимо следить за качеством и повышать достоверность данных. От 15 до 40% бюджета организации расходуется неэффективно из-за низкого качества данных, рис.1. Настала пора решать эту проблему.

Рисунок 1 - Экономика качества данных [4]

Устаревание данных неизбежно. Имена, адреса, номера телефонов, занимаемые должности — все это меняется. Каждый год 20% населения меняет адрес. Ежегодно около четверти записей в базе данных контактов устаревает. Программным способом можно обнаружить лишь 80% несоответствий. А остальные 20% должны проверяться вручную. В результате возникают проблемы. Например, одна компания посылала клиенту коробку товара каждый день в течение месяца, в то время как тот заказал и оплатил лишь одну коробку.

Типичные признаки «грязных данных» — дублирующиеся записи, неправильная информация, неверно скомпонованные поля и несоответствие почтовым требованиям. Ухудшение качества данных - устаревшая или неверная информация о клиентах, которые меняют адреса, переходят на другую работу и т. д., приводят к потере прибыли. Американский институт хранилищ данных (The Data Warehouse Institute) подсчитал, что низкое качество данных обходится американскому бизнесу примерно в 600 млрд. долларов ежегодно. Неструктурированные данные приводят к неправильному выставлению счетов, неудовлетворенности клиентов, невозможности принимать правильные бизнес-решения. Компаниям необходима точная информация о своих клиентах: где они делают покупки, что покупают, чем занимаются, как легче всего с ними связаться и т.д. Качественная информация о клиентах позволяет, опираясь на данные, строить прогнозные модели своих маркетинговых кампаний. Бизнес тратит ежегодно миллиарды долларов на очистку данных.

Многие компании сталкиваются с ситуацией, когда у них есть масса разрозненной информации и большое количество приложений, которые с ней работают. Проблемой является огромное количество структур хранения данных, плохая нормализация некоторых БД, большой объем неструктурированных данных, масса копий данных, различных версий документов, недостаточно подробное описание структур данных, использование нестандартизованных классификаторов.

Точность представления атрибутов может сильно отличаться от приложения к приложению. При интеграции происходит объединение данных из разных источников, степень надежности которых различна. Во многих случаях просто сложно понять даже то, какая именно информация хранится в организации, т.к. нет метаданных. Следовательно, необходимы методы для оценки достоверности полученной таким образом информации. Нужны также средства для анализа происхождения данных.

Важным представляется вопрос о полноте национальных массивов, получаемых посредством обмена через Мировые центры данных. Определение "качество данных" необходимо использовать не только как характеристику достоверности координат измерения, собственно измеренного значения параметра, но и как их пригодность для решения для тех или иных задач. Чем более тонкая проводится обработка, тем более точная и полная нужна информация. Например, исследование изменений климата невозможно без длиннопериодных временных рядов. Чем длиннее временной ряд, тем на больший срок и с большей заблаговременностью можно сделать прогноз. Чем меньше систематических ошибок значениях временного ряда, тем точнее будет прогноз. Например, ранее при измерении уровня моря не учитывались естественные колебания земли.

Несмотря на то, что приведение массивов данных в порядок всегда будет долгом производителей данных, многие центры установили свои собственные стандарты и там, где они считают необходимым, делают пометки об ошибках и несоответствиях. Большинство центров данных стараются оставлять массивы данных как можно ближе к оригинальному состоянию. Однако чтобы получить более ценные массивы, необходимо ввести определенные поправки или смещения в значениях параметров для некоторых атрибутов.

Проблемы сравнимости и надежности данных имеют весьма существенное значение также для измерений температуры воды ртутными и электрическими термометрами, неконтактными методами со спутников (данные дистанционного зондирования) при разном наклоне сканирующего луча и времени сканирования; солености, определяемой аргентометрированием и измерением электропроводности; измерений течений механическими вертушками и по напряжению электрического поля в движущейся токопроводящей жидкости и др.

Существует два аспекта качества данных. Первый - это точность, достигаемая производителями данных в зависимости от используемых методов измерений, приборов и второй - это требования, предъявляемые последующим пользователем. Введение в эксплуатацию автоматических и автоматизированных систем занесения данных на носитель измеряемых значений параметров непосредственно через сигнал датчиков существенно снижает случайные ошибки, но не уничтожает их совсем, так как часть призначных характеристик заносится вручную. Так как, например, на судне до сих пор не интегрированы в одну систему приборы для определения местоположения судна, глубины места, (эхолот), скорости судна и гидрометеорологических параметров.

Как от наблюдателя, так и от потребителя данных требуется разумный подход к калибровке инструментов. Данные являются настолько хорошими, насколько хороши датчики и обрабатывающее оборудование, и без адекватного знания рабочих характеристик датчика может в результате пострадать качество данных. Оценка и стандартизация алгоритмов контроля качества данных должна производиться не только по измеряемым параметрам, но и методам их измерений.

Многочисленные переменные измеряются широким диапазоном серийных и специально сконструированных приборов, каждый из которых характеризуется своими проблемами и качеством в отношении чувствительных элементов, точности, разрешения, скорости реакции, частоты измерений, объема данных, телеметрии данных, предварительной обработки данных и т.д. Что касается международных программ, большая часть данных по определенной территории собирается не только различными странами, но и различными приборами и методами. Подготовка информационной продукции хорошего качества на основе данных, полученных из разных источников, требует четких сведений о них. Иначе возможно искажение основного массива данных, а значит и ошибки в последующей информационной продукции. Поэтому когда данные отправляются в национальный или международный центр, необходимо чтобы производитель снабжал их полной документацией, касающейся используемого прибора, его калибровки и установки; для химических измерений - используемого аналитического метода; для спутниковых данных - протяженности наземной калибровки, а также степени и характера обработки данных. Данные подвержены временной изменчивости, поэтому данные должны оцениваться как с точки зрения качества, так и репрезентативности пробоотбора.

Очевидно, что использование национальных данных из различных стран в виде их простой суммы может привести к неверным выводам и результатам, а вслед за этим и неверному прогнозу. Отсюда вытекает необходимость международной интеркалибрации приборов и стандартизации алгоритмов и приемов, применяемых для контроля качества данных.

Еще одна проблема - это дублирование данных. Данные предварительно обрабатываются различными способами и доходят до центров различными путями. В результате этого появляется многократное дублирование.

Недостатки БД обусловлены тем, что разработчики программных продуктов, подходят к разработке БД поверхностно, в отрыве от насущных и весьма разнообразных информационных потребностей пользователей. Это объясняется тем, что разработкой БД занимаются, в основном, программисты, имеющие поверхностные знания по специфике информационного обеспечения. Работе по контролю БД в общем проекте создания БД уделяется очень мало внимания.

Убытки из-за некачественных данных уменьшаются по мере повышения уровня автоматизации методов контроля данных (уменьшение вероятности ошибки).

Метрики оценки качества данных

От современных БД требуется высокая достоверность данных, наличие возможности оценки их качества, надежность работы БД – вероятность отказов при обслуживании пользователей. Качество данных можно определить как совокупность свойств, обуславливающих возможность ее использования для удовлетворения определенных в соответствии с ее назначением потребностей. Принципы и методы оценки качества данных даны в стандартах ISO 19113:2002 (ГОСТ Р ИСО 19113-2003), ISO 19114:2003.

Набор характеристик и атрибутов стандарта ISO 9126 «Качество программных средств» [9] в той или иной мере может использоваться для повышения качества данных. Характеристики качества информации делятся на функциональные и конструктивные, рис.2.

Важнейшими характеристиками качества являются требования к функциональной пригодности процессов формирования и изменения информационного наполнения БД, а также доступа к данным посредством представления результатов пользователям.

Функциональные характеристики качества БД представляет собой систему измерения и оценки соответствия требованиям к БД реальных значений атрибутов качества. Мерой качества функциональной пригодности может стать степень покрытия целей, назначения и функций баз данных, доступной пользовательской информацией. Функциональные характеристики, определяются функциональными, структурными и эксплуатационными требованиями и отражают следующие показатели.

Объем — число, характеризующее количество данных, доступных для хранения и обработки, может быть оценен в физических и логических единицах. Объем получаемой информации от одного источника оценивается посрочно, ежедневно, еженедельно, ежедекадно, ежемесячно, ежеквартально, за год. Физический объем данных – количество данных в байтах. Логический объем данных – количество единиц обработки данных – станций, квадратов, сроков и др.;

Полнота БД — относительное число записей описаний объектов или документов, доступных для хранения и обработки, по сравнению с полным числом реальных объектов во внешней среде (от возможного или необходимого), или % занесения данных по отношению к исходному (как правило, бумажному) носителю. Полнота позволяет ответить на вопрос, все ли данные присутствуют в БД. Следует различать количественную и семантическую полноту данных. Обычно под полнотой понимают именно количественную полноту данных - соотношение между числом объектов предметной области, описания которых присутствуют в БД и реальным количеством объектов данной предметной области. Оценку семантической полноты принято сводить к оценке наличия пропусков данных, т.к. практически всегда априори известен объем данных, который должен в них присутствовать. Полнота может оцениваться в отношении заполненных полей (атрибутов) описания к общему числу атрибутов. Отказы в обслуживании, обусловленные количественной неполнотой БД, будут возникать даже при безотказной работе техники и программного обеспечения.

Рисунок 2 - Характеристики качества информации

Идентичность – относительно число описаний объектов, не содержащих дефекты или ошибки, к общему числу документов об объектах в базе данных.

Актуальность – относительное число устаревших данных об объектах в ресурсах к общему числу накопленных и обрабатываемых данных (данные отредактированы и пополнены в соответствии с регламентом).

Согласованность - является ли представление данных однородным (типы, форматы, ключи, коды, значения хранятся в нужном формате), нет ли дубликатов, данных с пересекающимися или конфликтующими определениями.

В зависимости от области применения, приоритет при оценке качества БД может отдаваться различным конструктивным характеристикам: надежности и защищенности применения, удобству использования малоквалифицированными пользователями, эффективности использования ресурсов. К числу конструктивных характеристик качества информации относят следующие показатели.

Востребованность данных пользователями - оценивается по числу обращений пользователей.

Динамичность — относительное число изменяемых описаний объектов к общему числу записей в базе данных за некоторый интервал времени, определяемый периодичностью издания версий базы.

Достоверность - это степень соответствия данных об объектах в БД реальным значениям свойств объектов в данный момент времени, определяющиеся изменениями самих объектов, некорректностями записей об их состоянии или некорректностями расчетов их характеристик. Определяется из отношения числа допущенных ошибок к числу зарегистрированных символов. Определяется как вероятность ошибки. Реально достижимая вероятность ошибок без применения специальных средств контроля данных 10 -4 – 10 -5. .

Доступность (или готовность) данных — свойство данных быть в состоянии полностью выполнять требуемую функцию в данный момент времени и при заданных условиях ее использования; возможность поиска данных и получения их в приемлемой форме. Доступность может оцениваться относительным временем, в течение которого БД находится в работоспособном состоянии, в пропорции к общему времени ее применения. Обобщение характеристик отказов и восстановления производится через коэффициент готовности, отражающий вероятность работать с нормальными данными в произвольный момент времени. Нижние границы шкал атрибутов надежности могут быть отражены значениям, при которых резко уменьшается функциональная пригодность БД, а использование конкретной БД становится неудобным и опасным.

Оперативность — степень соответствия динамики изменения данных состояниям реальных объектов, относительное число изменяемых описаний объектов к общему числу записей в БД за некоторый интервал времени, определяемый периодичностью издания версий БД.

Пригодность восприятия данных в программе доступа к данным (процент пригодности ресурсов).

Ретроспектива – интервал времени от даты выпуска и / или записи в базу данных самого раннего документа до настоящего времени.

Своевременностью ввода в БД (актуально ли хранимое значение) - возможность в любой момент иметь данные на последний срок наблюдений или готовность БД к доступу в любое время – 24/7/365, оценивается по времени простоя.

Сертифицированность методов сбора и обработки - совокупность действий и процедур с целью подтверждения того, что данные соответствует принятым в системе ведомственным, национальным и международным стандартам в тематической части ресурса, включает сертификацию методов подготовки ресурсов, должна обеспечить и сертификацию качества использованных в данных.

Сопровождаемость информации отражается удобством и эффективностью исправления, усовершенствования или адаптации структуры и содержания описаний данных в зависимости от изменений во внешней среде применения, а также в требованиях и функциональных спецификациях заказчика. Качество сопровождаемости БД можно оценивать потребностью данных для ее обеспечения и для реализации. Возможные затраты на развитие и совершенствование качества БД зависят не только от внутренних свойств данных, но также от запросов и потребностей пользователей и от готовности заказчика и разработчика удовлетворить эти потребности.

Точность - соответствие реальности (совпадение хранимых и фактических значений) - данные удовлетворяют цели исследований или их можно применить для поддержки решений.

Устойчивость к дефектам и ошибкам — свойство данных автоматически поддерживать заданный уровень качества в случаях проявления дефектов и ошибок или нарушения установленного интерфейса с внешней средой. Высокая устойчивость достигается использованием репрезентативных методов измерений и приборов.

Ценность – количество информации в сообщении с учетом содержания сведений и на основе вероятностей наступления отражаемых им событий и ситуаций, определяется эффективностью использования собранных данных, получением прибыли. Ценность информации определяется актуальностью информации для конкретного объекта; надежностью (оправдываемостью для прогнозов и достоверностью для измеренных и обобщенных данных); заблаговременностью ее получения; правильным выбором критических значений параметров для нормального функционирования различных объектов (необходимостью и достаточностью информации для принятия решений); степенью восприятия информации пользователем, которая зависит от формы представления, времени, которым располагает пользователь от момента получения до момента принятия решения, полезностью информации; количеством предоставляемой пользователю информации, релевантностью, своевременностью получения пользователем данных. Характеристиками ценности информации являются качество, количество, релевантность, надежность, своевременность. Ценность информации, как мера эффективности ее использования, например, при несвоевременном поступлении ценность информации падает. Если прогноз погоды поздно дошел до пользователя, то и выгода от него будет меньше. Ценность информации определяется следующими объективными факторами:

  •  актуальностью информации для конкретного объекта;
  •  качеством данных – надежностью (оправдываемость для прогнозов и достоверностью для климатических и исходных данных);
  •  заблаговременностью ее получения;
  •  необходимостью и достаточностью информации для принятия решений;
  •  правильным выбором критических значений параметров для нормального функционирования различных объектов;
  •  степенью восприятия информации пользователем, которая зависит от формы представления, времени, которым располагает пользователь от момента получения до момента, принятия решения.

Полезность информации можно исследовать с различных точек зрения. Например подойти к этой проблеме число экономически – сопоставить затраты на получение информации с ее полезным эффектом. Можно рассчитать потенциальные убытки и прибыль для различных явлений и объектов экономики в разные сезоны.

Требование оперативности и своевременности доведения данных до пользователя очень важно для многих пользователей. Несвоевременность поступления данных вызывает запаздывание в принятии решений.

Требование оперативности и своевременности доведения данных до пользователя очень важно для многих пользователей. Несвоевременность поступления данных вызывает запаздывание в принятии решений. При несвоевременном поступлении ценность информации падает. Если прогноз погоды поздно дошел до пользователя, то и выгода от него будет меньше.

Полнота и точность выдачи (релевантность), время поиска информации, которые определяются информационно-поисковым языком, способом организации массивов и стратегией поиска. Основными причинами, которые не позволяют осуществить поиск со 100 % полнотой и точностью, является неоднозначность интерпретации смыслового содержания документов при их индексировании и формулировке запросов.

Коэффициент полноты вычисляется по формуле:

 а

Кп = ---- 100,                                                    (1.1)

а+с

Под коэффициентом точности понимается степень удовлетворения полученной информации сформулированным информационным потребностям и он равен:

а

Кт = ---- 100,                                                     (1.2)

а+в

где а – число релевантных документов при выдаче, с – число релевантных документов в базе данных и не выданных при поиске, в - число не релевантных документов, выданных системой.

Полезность информации можно исследовать с различных точек зрения. Например подойти к этой проблеме число экономически – сопоставить затраты на получение информации с ее полезным эффектом. Можно рассчитать потенциальные убытки и прибыль для различных явлений и объектов экономики в разные сезоны.

Стандартом ISO 9126 рекомендуется анализировать и учитывать надежность комплексов программ (СУБД) следующими характеристиками.

Восстанавливаемость — свойство БД в случае отказа возобновлять требуемый уровень качества информации и корректировать поврежденные данные. После отказа БД бывает неработоспособна в течение какого-то времени, продолжительность которого определяется восстанавливаемостью БД. Для этого необходимы вычислительные ресурсы и время на выявление неработоспособного состояния, диагностику причин отказа, а также на реализацию процессов восстановления. Основными показателями процесса восстановления данных являются его длительность и вероятностный характер. Восстанавливаемость характеризуется также полнотой восстановления нормального содержания.

Завершенность — способность БД не попадать в состояния отказов вследствие потерь, искажений, ошибок и дефектов в данных. На эту характеристику влияют потери работоспособности, которые могут быть обусловлены не полным тестовым покрытием при испытаниях компонентов и системы в целом, а также недостаточной завершенностью их тестирования и защищенностью от искажений.

Устойчивость к дефектам и ошибкам — свойство БД автоматически поддерживать заданный уровень качества данных в случаях проявления дефектов и ошибок или нарушения установленного интерфейса с внешней средой. Для этого в базу должна вводиться временная и информационная избыточность, реализующая оперативное обнаружение дефектов и ошибок информации, их идентификацию и автоматическое восстановление нормального функционирования. Относительная доля вычислительных ресурсов, используемых непосредственно для быстрой ликвидации последствий отказов и оперативного восстановления данных, отражается на повышении надежности и определяет значение устойчивости.

Эффективность использования ресурсов компьютера при реальном функционировании отражается временными характеристиками взаимодействия конечных пользователей и администраторов БД. Эти характеристики зависят от возможностей СУБД, а также от объема, структуры и показателей качества используемой информации. Для БД важнейшим ресурсом является память компьютера, занимаемая информацией, а также ее используемость. Эти показатели качества влияют на время реакции системы на разные виды запросов пользователей и на пропускную способность БД.

Надежность БД может основываться на применении теории методов надежности, которая позволяет получить ряд четких, хорошо измеряемых интегральных показателей. Надежная БД должна, прежде всего, обеспечивать низкую вероятность потери работоспособности. Быстрое реагирование на потерю или искажение данных и восстановление их достоверности и работоспособности за время меньшее, чем порог между сбоем и отказом, обеспечивает высокую надежность.

Практичность (применимость) – понятие, определяющее функциональную пригодность и полезность применения БД для определенных пользователей. Оценка практичности зависит не только от собственных характеристик БД, но также от организации и адекватности документирования процессов их эксплуатации:

  •  понятность зависит от качества документирования и субъективности впечатлений потенциальных пользователей; ее можно описать качественно четкостью функциональной концепции, полнотой описания, комплектностью и наглядностью представления в документации возможных функций и особенностей реализации данных;
  •  простота использования – возможность удобно и комфортно эксплуатировать базу данных и манипулировать данными; она соответствует управляемости, согласованности с ожиданиями и навыками пользователей, некоторые атрибуты этой характеристики можно оценить количественно, например, изменения трудозатрат и длительности соответствующих процессов подготовки и обучения квалифицированных пользователей;
  •  изучаемость – может определяться трудоемкостью и длительностью подготовки пользователя, качество изучаемости зависит от внутренних свойств и структуры самой БД, а также квалификации пользователей.

Сопровождаемость информации может отражаться удобством и эффективностью исправления, усовершенствования или адаптации структуры содержания описаний в зависимости от изменения во внешней среде применения. Обобщенно качество сопровождаемости БД можно оценить потребностью ресурсов для ее обеспечения и реализации. Возможные затраты ресурсов на развитие и совершенствование качества БД зависят не только от внутренних свойств данных, но также от запросов и потребностей пользователей, готовности заказчика и разработчика удовлетворить эти потребности. Можно выделить следующий набор характеристик сопровождаемости БД;

  •  анализируемость БД зависит от стройности архитектуры, унифицированности интерфейсов, полноты и корректности технологической и эксплуатационной документации;
  •  изменяемость состоит в приспособленности структуры и содержания данных к реализации специфицированных изменений и к управлению конфигурацией данных; изменяемость зависит не только от внутренних свойств БД, но также от организации и инструментальной оснащенности процессов сопровождения;
  •  тестируемость зависит от величины области влияния изменения, которые необходимо тестировать при модификациях структуры и содержания данных.

Характеристики изменяемости и тестируемости данных доступны для количественного оценивания по величине трудоемкости и длительности реализации этих функций при типовых операциях с данными при применении различных методов и средств автоматизации.

Мобильность БД можно характеризовать длительностью и трудоемкостью их инсталляции, адаптации и замещаемости при переносе на другие платформы (аппаратные или операционные). Информация о процессах, происходящих во внешней среде, может иметь большие объемы и иметь большую трудоемкость первичного накопления, что требует тщательности хранения и регламентированного изменения. Сложность перехода, трудоемкость и длительность этой процедуры требуют серьезных работ по планированию и организации работ; одновременно должна быть обеспечена сохранность или повышение качества функционирования БД на новой платформе. Для оценки качества и определения требований к мобильности БД следует решать задачу сравнения достигаемого эффекта и затрат для методов переноса или повторной разработки компонентов и наполнения БД в конкретных условиях с учетом всех перечисленных факторов и затрат. Эти задачи значительно упрощаются при применении идеологии открытости систем, поддержанных комплексом международных стандартов, а также современных версий СУБД, ОС.

Особенности и трудоемкость перехода на новые платформы зависят от характеристик совместимости архитектур и содержания переносимой между платформами информации. Характеристики совместимости архитектур и содержания переносимой между платформами информации являются:

  •  форматная совместимость характеризуется степенью соответствия данных требованиям стандартов на форматы представления данных для документальных, фактографических, словарных и иных БД;
  •  лингвистическая совместимость определяется степенью использования в рассматриваемых БД единых лингвистических средств (классификаторов, рубрикаторов, словарей), формализованных соответствующими стандартами этих платформ;
  •  физическая совместимость заключается в степени соответствия кодировки информации одинаковым стандартам на машиночитаемые носители

Динамика функционирования компонентов БД определяется длительностью выполнения функций БД и ожидания результатов в средних и/или наихудших случаях, с учетом приоритетов задач. Она зависит от объема, структуры и скорости обработки данных, влияющих непосредственно на интервал времени завершения конкретного вычислительного процесса, и от пропускной способности, т.е. от числа заданий, которые можно реализовать на данном компьютере в заданном интервале времени.

Использование стандартизированных характеристик качества информации БД позволяет упорядочить выбор требований к ним и оценивание достигнутого качества.

Источники ошибок

Под ошибками понимается замена одних символов другими, пропуски (выпадения), добавления (вставки) и перестановки символов.

В зависимости от характера и степени влияния на конечные результаты обработки данных, а также исходя из причин и источников возникновения неточностей, допускаемых в процессе наблюдения, выделяют ошибки регистрации и ошибки репрезентативности (представительности).

Ошибки регистрации возникают вследствие неправильного установления фактов в процессе наблюдения или неправильной их записи. Эти ошибки подразделяются на случайные и систематические.

Случайные ошибки — это, как правило, ошибки регистрации, которые могут быть допущены недостаточной квалификацией оператора при заполнении форм ввода. Например, записывается цифра не в то поле или вместо возраста 28 лет записывается 38 лет.

Систематические ошибки могут быть преднамеренными и непреднамеренными. Преднамеренные ошибки получаются в результате того, что наблюдатель записывает не наблюденные, а предполагаемые данные. Нередки случаи преднамеренного искажения в отчетах сведений об объеме выпущенной продукции, об остатках дефицитного сырья, материалов и т.д. Непреднамеренные ошибки вызываются различными случайными причинами, чаще всего обусловленные, например, неправильно используемым методом и прибором измерений.

Ошибки репрезентативности возникают в результате того, что состав отобранной для обследования части единиц совокупности недостаточно полно отображает состав всей изучаемой совокупности, хотя регистрация сведений по каждой отобранной для обследования единице была проведена точно. Ошибки репрезентативности могут быть тоже случайными и систематическими.

Случайные ошибки репрезентативности — это отклонения, возникающие при не сплошном измерении из-за того, что совокупность отобранных единиц измерений неполно воспроизводит всю совокупность в целом. Величина случайной ошибки репрезентативности может быть оценена с помощью соответствующих математических методов. Например, на основе случайных измерений в пространстве проводится интерполяция в узлы сетки, при этом любое ошибочное измерение вносит ошибки на большую площадь.

Систематические ошибки репрезентативности — отклонения, возникающие вследствие нарушения принципов случайного отбора единиц изучаемой совокупности. Размеры систематической ошибки репрезентативности не поддаются количественной оценке. Вследствие имеющихся различий в используемых методах и технических характеристиках приборов, результаты измерений в разных странах существенно отличаются по точности, временным и пространственным масштабам измерений, а из-за разной надежности приборов и технологий первичной обработки данных наблюдений - по качеству массивов данных. Например, температура воды, измеренная со спутников в семидесятых, восьмидесятых и девяностых годах разными типами датчиков привела к завышению измеренных значений температуры в восьмидесятых годах.

Наиболее многочисленные ошибки происходят в процессе эксплуатации технологий обработки данных. При перенесении результатов наблюдений и ключевых характеристик с бумажных источников на технические носители к ошибкам первичных данных добавляются ошибки от неправильного занесения цифровых значений в соответствующие поля форматов. В результате появляются данные, не принадлежащие источнику, ошибочные значения координат места, перепутанная последовательность наблюдений, ошибки в значениях параметров.

В стандартном процессе обработки данных имеется ряд источников ошибок:

  •  ошибки в первичных данных (ошибки измерений, сбои информационно – измерительных систем) - намеренный ввод неправильных сведений в оперативном режиме, сокращение текста при вводе данных операторами, ошибки в данных, полученных путем обмена, ввод ошибочных данных клиентами, использование различных форматов данных в разных системах;
  •  ошибки, возникающие в процессе эксплуатации технологий обработки данных;
  •  ошибки, связанные со сбоями вычислительной техники, программных средств.

Ошибки вычислительной техники на несколько порядков менее вероятны, чем ошибки при занесении данных на носитель. Ошибки в первичных данных возникают из-за несовершенства измерительных систем, средств регистрации и передачи информации. В результате могут появиться значения параметров, выходящие за физически допустимые пределы, ошибки в кодировании значений ключевых характеристик, появление двух одинаковых экземпляров свойств объекта и др.

Можно выделить четыре категории ошибок (http://www.dwinfocenter.org/errors.html): неполные данные, неправильные данные, непонятные данные, непоследовательные данные.

Неполные данные – т.е. в них имеются отсутствующие записи. Чаще всего возникает по причине сбоев в системах сбора данных. Сюда же относятся отсутствующие поля – задача сбора данных решалась частным образом – хотелось как можно быстрее создать БД, при этом не думали о будущем. Записи или поля которые при проектировании не предусматривались, то есть это был  небрежный проект, без предварительного исследования источников данных и информационных потребностей пользователей.

Неправильные данные - то есть данные, имеющие ошибки, связаны с:

  •  неправильным применением кодов - это обычно происходит, когда используются старые протоколы обработки данных, исторические данные;
  •  неправильными расчетами, агрегацией - эта ситуация возникает при загрузке уже ранее вычисленных данных (необходимо иметь исходные данные для проверки результатов расчетов);
  •  ошибочным вводом информации в источнике данных – это связано с плохими формами ввода (последовательность записи года, месяца, дня в дате, плохое качество бумажного источника, др.), здесь необходимы более жесткие системы контроля ввода данных.

Непонятные данные связаны с:

  •  неправильным парсингом кодов – это плохо составленный алгоритм конвертирования кодов или плохое соответствие двух классификаторов;
  •  хранением значений атрибутов в разных полях - это ситуация, где источник передает данные по различным каналам связи, на различных носителях и форматах;
  •  дупликацией данных - возникает в пределах одной системы, а особенно при объединении разных источников информации;
  •  непродуманным использованием схем форматирования, чтобы уменьшить использование памяти, например, можно хранить число в виде 4 байт, а можно сохранить в виде двух байт, но при этом это число не может превышать значение 32000, другой пример, хранение цифровых данных сначала в символьном виде, а затем в виде числа – при преобразовании могут исчезнуть значащие нули;
  •  применением неизвестных кодов – при анализе БД, можно найти неизвестные значения кодов – это или ошибка при вводе данных или ошибка в алгоритме конвертирования – включен не тот код;
  •  ошибками несовместимости – эта категория охватывает наиболее широкий диапазон проблем, это связано с единицами измерения, ошибками в представлении даты и времени, непоследовательном использовании различных кодов, др.;
  •  различными кодами с одним тем же значением атрибута – используются два разных классификатора для одного объекта;
  •  непоследовательными именами и адресами - это случай различных кодов с одним и тем же значением, например, при изменении названия организации можно вести новый код, а можно создать таблицу «Жизненный цикл изменения кодов».

Непоследовательные данные связаны с:

  •  непоследовательными правилами получения вычисленных характеристик – это когда значения поля вычисляются неодинаково по разным формулам, в зависимости от района, метода;
  •  непоследовательной агрегацией данных - это случай использования различных правил при вычислении одних и тех же статистических характеристик  в различных ситуациях, например, в области исследования климата принят одинаковый период обобщения данных (30 лет, каждые 5 лет производится пересчет);
  •  использованием неодинаковых атомарных единиц представления данных – это бывает при использовании разных моделей данных;
  •  разными единицами оценки объемов данных в логических единицах - это случай разного использования единиц хранения атомарной информации;
  •  непоследовательным использованием атрибута – например, можно в поле адрес хранить всю информацию о клиенте, а можно отдельно улицу, дом, почтовый индекс, город, регион, страна, второй случай более правильный;
  •  непоследовательной датой - это случай непоследовательного использования атрибута, когда сливаются данные из двух систем, в которых различная политика использования дат (дата ввода измерения, дата ввода в систему, дата передачи);
  •  непоследовательным использованием пространства памяти, пустых значений и так далее, например, чтобы отмечать отсутствующие измерения, забракованные или вычисленные значения, необходимо иметь признак качества для каждого такого значения атрибута;
  •  отсутствием ссылочной целостности - может привести к ошибкам в значениях одних и тех же атрибутов в разных таблицах;
  •  не синхронизированной агрегацией - некоторая суммарная информация может быть получена независимо в различных таблицах, например, среднемесячное значение можно получить путем агрегации срочных значений, а можно на основе среднесуточных значений;
  •  сложностью ведения хранилища данных - увеличивается геометрически со временем – уходят специалисты, которые знали данные, алгоритмы и проблемы БД.

БД представляют сложные человеко-машинные системы, реальная достоверность сбора первичной информации в которых определяется как надежность работы технических систем, так и ошибками, вносимыми операторами. Основными причинами искажений в процессе создания БД являются:

  •  отсутствие или неточность инструкции и стандартов работы;
  •  несовершенство или отсутствие макетов таблиц – документов, нечеткость заполнения первичных документов, смятие или загрязненность первичных (машинных) документов;
  •  сложность применяемых классификаторов и форм занесения данных, несоответствие макета первичного документа форме ввода данных на компьютере;
  •  недостаточная квалификация оператора, недобросовестное отношение к работе – небрежность, невнимательность, халатность;
  •  неточность в документации;
  •  плохая организация хранения и учета носителей информации;
  •  преднамеренное искажение информации в корыстных целях;
  •  недостаточная сознательность, безразличие и безответственность в работе;
  •  организационные недостатки в работе оператора – отсутствие постоянного закрепленного рабочего места, совместительство, нарушения или отсутствие графика работы, отвлечение на другие работы;
  •  обезличка в работе и отсутствие контроля;
  •  отсутствие морального и материального стимулирования хорошей работы;
  •  низкая трудовая дисциплина;
  •  неритмичность в работе (много потерь времени на этап врабатываемости);
  •  завышенный темп работы, усталость, возбужденное или угнетенное состояние оператора;
  •  недостатки в организации рабочего места (плохое освещение, шум), неудобная конструкция рабочего места, плохая регулировка и настройка (где лежит документ и клавиатура);
  •  недостаточная автоматизация ввода данных;
  •  сбои измерительной системы (неправильная работа датчика – погрешность измерения, приближенная запись) и ЭВМ при вводе данных (залипание клавиш; некачественность, физический износ и старение технического носителя; нарушение работоспособности из-за климатических и механических воздействий, флуктуации напряжения питающей сети);
  •  сбои аппаратуры при обработке данных (ошибочное вычисление значения);
  •  искажения в процессе передачи данных по каналам связи (наводки и помехи атмосферного и производственного характера, шум и частотные искажения в каналах связи);
  •  ошибки в алгоритмах и программах;
  •  форматные ошибки (изменение формата атрибута, количества байт, добавление или пропуск символа, появление запрещенных символов в атрибуте, сдвиг атрибутов, нарушающих шаблон сообщения, пропуск или появление дополнительных служебных символов, изменение количества реквизитов).

Средняя вероятность ошибки при вводе информации с клавиатуры находится в диапазоне (0.5-1.5) 10 -3 ошибок / символ.

Методы контроля данных

Процесс управления качеством данных можно разделить на следующие этапы:

– определение качества исходных данных;

– определение правил обеспечения качества этих данных;

– разработка процессов очистки данных;

– внедрение этих процессов;

– контроль данных.

Для этапа исследования можно использовать средства профилирования – они осуществляют быстрый анализ данных во всех исходных системах, выдавая заключение и предлагая инструкции по построению обработки данных. Определение и построение правил обеспечения качества данных крайне важно для стандартизации, сравнения и консолидации данных.

Проверка качества данных становится отдельным этапом работ при загрузке БД. Обеспечение качества данных – нетривиальная задача. Основными методами контроля являются:

  •  самоконтроль;
  •  дублирование операций (или части операций) при вводе информации (двойной ввод);
  •  применение помехоустойчивых кодов, базирующихся на использовании признаков делимости чисел (четность, нечетность) запрещении использования некоторых символов, введение избыточной информации в передаваемые данные;
  •  осуществление программно-логического контроля (совместимость, непротиворечивость, нахождение в некотором заданном интервале значений, дополнение атрибутов до заданного формата поля, контроль существования значения атрибута, сравнение из различных источников).

Для сведения к минимуму потерь от случайных искажений требуется создавать или использовать уже готовые программы:

  •  ведения системного журнала СУБД, подробно фиксирующего каждую операцию над БД (описание транзакции, адреса компьютера, пользователя, время, тип и адрес изменения данных, значение данных до и после выполнения транзакции);
  •  контроля достоверности, использующие соответствующие методы контроля данных;
  •  отката, создания контрольных точек и повторного исполнения транзакции, вызвавшей искажение БД.

Учитывая характер наиболее массовых ошибок, целесообразно предусматривать три категории алгоритмов качества данных на каждом этапе преобразования информации:

  •  контроль соблюдения форматов записи данных на носитель (синтаксический контроль);
  •  контроль числовых значений параметров и ключевых характеристик измерений при вводе данных (семантический контроль);
  •  контроль выходной информации из БД (прагматический контроль).

Синтаксический – это по существу контроль достоверности данных, не затрагивающий содержательного смыслового аспекта информации. Предметом этого контроля являются контроль форматов представления данных, шаблонов и масок ввода данных, наличия атрибутов (их номенклатуры), порядка следования, наличие служебных признаков в структуре сообщения, упорядоченности данных, появления запрещенных символов, комбинаций, полноты поступления первичной информации и сопровождающих ее метаданных.

Семантический контроль оценивает смысловое содержание информации, его логичность, непротиворечивость, диапазон возможных значений параметров (предельные значения, область значений), динамику их изменения, возможных отклонений. Примером семантического контроля могут служить переписные листы населения, где двухлетний мальчик показан женатым, а девятилетний ребенок — грамотным.

Прагматический контроль определяет потребительскую ценность (полезность) информации для пользователя, своевременность и актуальность данных, их полноту и доступность. Реализуется экспертной и социологической оценкой данных.

При создании БД очень часто используют средства очистки. К сожалению, такой подход, позволяет удалить только ошибочные данные. Средства очистки данных выполняют базовые функции контроля данных:

  •  проверка значений атрибутов БД на пределы допустимого диапазона;
  •  проверка орфографии;
  •  проверка стандартных сокращений;
  •  поиск неверных кодов.

По назначению контроль различается на профилактический, рабочий и генезисный. Профилактический – тестовый контроль надо проводить как можно чаще, включать во все этапы переработки. Рабочий контроль - диагностический (проверка работоспособности системы) устанавливает места и причины неисправности. Генезисный контроль проводится для выяснения технического состояния системы в прошлые моменты времени с целью определения причин сбоев и отказов системы, имевших место в прошлом, сбор статистических данных об ошибках, их характере – типах ошибок, величине, последствиях этих ошибок для пользователя.

По способу реализации контроль может быть организационный, программный, аппаратный и комбинированный.

Организационный контроль представляет собой комплекс мероприятий, предназначенный для выявления ошибок на всех этапах переработки данных с участием человека. Методами организационного контроля являются разработка нормативных документов, обучение, выборочная проверка, контроль комплектности документов, сроков и условий передачи документов, условий и длительности хранения технических носителей данных, кондиционности бланков (носителей) и качества их заполнения и визуальный осмотр. Необходимо обеспечить правильный подбор и обучение персонала, на который будут возложены проведение наблюдения, систематический контроль за ходом наблюдений, широкая разъяснительная работа. Следует предусмотреть соответствующие меры во избежание сознательного искажения фактов, приписок и т.д., что является не только нарушением государственной дисциплины, но и прямым преступлением, наносящим вред интересам дела.

Программный контроль основан на программировании логических методов проверки достоверности данных. Примерами логического контроля являются:

  •  наличие связей между отдельными измеряемыми показателями, например, влажность, измеренная и вычисленная по значениям сухого и смоченного термометра;
  •  сравнение с измеренными параметрами на соседнем приборе, станции;
  •  экстраполяция значений во времени, статистический прогноз;
  •  интерполяция данных между двумя измеренными значениями во времени или пространстве;
  •  счетный контроль заключается в проверке точности арифметических расчетов, применявшихся при составлении отчетности или путем сравнения полученных данных с другими источниками по этому же вопросу.

Аппаратный контроль – контроль значений параметров на этапе измерений, включается в платы, служащие для преобразования данных из физических значений в натуральные (сопротивление в температуру, электропроводность в соленость воды, и т.д.).

По степени выявления и корректировки ошибок контроль делится на:

  •  обнаруживающий, фиксирующий только сам факт наличия или отсутствия ошибки;
  •  локализующий, позволяющий определить и место ошибки, например, искаженный символ, атрибут, др.;
  •  исправляющий, выполняющий функции обнаружения, локализации и исправления ошибки.

Примерами исправляющих методов являются:

  •  анализ текста свободного формата для выявления в данных имен и адресов позволяет идентифицировать компонент имени, должности, организации и адреса даже в случае непоследовательно введенных данных (стандартизация слов, связанных с описанием организации, позволяет программе полностью проверить данные об организации, включая сокращения, и стандартизировать описание организации в едином согласованном формате);
  •  стандартизация представления значений некоторых полей - данные имен и адресов могут вводиться в различных форматах, многие из которых вполне грамматически корректны. Например, "Улица", "Ул." и "Ул" обозначают одно и то же очевидное понятие в составе адреса, существуют и другие стандарты для этих и других подобных случаев, программы стандартизации трансформируют такие поля в согласованный набор обозначений;
  •  проверка допустимости - средства распознавания допустимых международных и национальных адресов, проверяют допустимость адресных данных.

Оформление результатов контроля данных

Данные наблюдения считаются принятыми, если они прошли контроль и, если потребовалось, в них внесены исправления. Основными показателями качества контроля данных являются:

  •  экономические – материальные, трудовые и временные затраты на контроль;
  •  технико–эксплуатационные – алгоритмическая сложность контроля, вид и величина получаемой избыточности, точность и надежность контроля, универсальность - возможность использовать на различных этапах технологического процесса переработки данных, при решении различных задач, обработки различных видов данных;
  •  системные – удобство работы, наглядность и форма представления результатов, требования к квалификации и количеству операторов, конфигурация компьютера, необходимое программное обеспечение.

С целью унификации и стандартизации методов контроля данных для международного обмена данными разрабатываются Руководства по алгоритмам и процедурам контроля данных, представляемых в систему международного обмена данными. В них рассматриваются алгоритмы и процедуры "базового" или общего контроля, которые в максимальной степени беспристрастны и опираются на общеизвестные физические законы и не допускающие множества толкований логических категорий.

Как бы тщательно ни был составлен инструментарий наблюдения, проведен инструктаж исполнителей, материалы измерения всегда нуждаются в контроле. Прежде всего, проверяется полнота охвата наблюдениями. С этой целью производится сверка данных по спискам, пересчитываются заполненные документы. Одновременно на этой стадии проверяется полнота заполнения форм отчетности, анкет и т.д.

Содержанием контроля данных является выполнение комплекса проверок, позволяющих убедиться в общей пригодности данных для решения различных научных и производственных задач.

Проблема контроля данных очень сложная и требует отдельного рассмотрения в зависимости от специфики конкретного вида данных. Контроль данных на технических носителях состоит из трех этапов:

  •  контроль сопроводительных документов и форматов записи (тестирование носителя данных, получение контрольных распечаток);
  •  проверка соответствия полноты и содержания массивов программе наблюдений;
  •  контроль значений физических параметров и характеристик пространственно-временного размещения наблюдений (проверка упорядоченности данных, полноты наблюдений, реальности данных, соблюдения физических законов, проверка на статистические критерии, закономерностей изменения данных в пространстве и во времени).

Подготовка данных к обмену представляет собой передачу сведений о контроле и калибровке измерительных приборов, о массиве данных, об оценке его качества. Выполнение всех этих этапов контроля позволяет повысить качество обмениваемых комплектов данных.

Данные, представляемые в обмен, должны быть снабжены сопроводительной документацией, содержащей описание структуры данных, сведения об источниках данных. Ключевые характеристики в БД должны содержать сведения о пространственно – временных координатах каждого измерения, типе платформ, размерностях параметров, используемых методах измерений, типах приборов, а сами результаты измерений и определений должны быть исправлены инструментальными поправками. Значения параметров должны быть приведены с точностью, соответствующей паспортным характеристикам измерительных систем и возможностям аналитических методов определений.

Каждому измеренному, определенному или вычисленному параметру после контроля должен быть присвоен признак качества, не менее трех градаций – значение достоверно, сомнительно и забраковано. Для данных о природной среде используются следующие градации:

0 – величина не вызывают сомнений;

1 – величина восстановлена;

2 – величина сомнительна;

3 – величина забракована;

4 - наблюдения не проводились;

5 – явление отсутствует;

6 – величина сомнительна по применяемым алгоритмам контроля;

7-8 –резерв;

9 – контроль качества не проводился.

На основе анализа статистики этих признаков качества делается вывод о качестве всего массива данных. Для обозначения качества БД рекомендуется использовать следующие коды:

0         все данные не вызывают сомнений;

  1.  небольшая часть данных сомнительна (0-10%), но может быть использована;
  2.  существенная часть данных сомнительна (10-50%), но может быть использована;
  3.  более половины данных сомнительны (50-80%), но могут быть использованы;
  4.  почти все данные сомнительны (80-100%), но могут быть использованы;
  5.  небольшая часть данных сомнительна (0-10%), но не может быть использована;
  6.  существенная часть данных сомнительна (10-50%), но не может быть использована;
  7.  более половины данных сомнительны (50-80%), но не могут быть использованы;
  8.  резерв;
  9.  информация о качестве массива данных отсутствует.

Организация работ по повышению качества данных

Для осуществления контроля данных рекомендуются следующие шаги.

Сделайте задачу по повышению качества данных приоритетной на ранних этапах осуществления проекта. Определите время и процессы, необходимые для проверки данных, и убедитесь в работоспособности бизнес-правил.

Создайте команду по управлению качеством данных. Работа этой группы сосредоточивается на поддержке и обновлении данных. Она также установит и отрегулирует бизнес-правила для сбора и применения информации.

Ответственность за качество данных возлагается не на ИТ -службу, а на соответствующие бизнес-подразделения должна рассматриваться как централизованная маркетинговая функция. ИТ-специалисты играют решающую роль в поддержке данных после выполнения бизнес-правил, они эксперты по качеству данных.

Заполняйте пробелы в данных, объединяйте и сопоставляйте несравнимые данные и уничтожайте повторяющуюся информацию. Принципы организации работ по улучшению качества БД:

  •  повышение культуры производства;
  •  постоянное повышение качества достигается только на основе проведения контроля на всех этапах обработки данных;
  •  постоянное совершенствование системы ввода данных и обслуживания;
  •  обучение руководства пониманию проблем качества данных;
  •  разрушение барьеров между подразделениями;
  •  отказ от количественных показателей;
  •  поощрение образования и совершенствования.

Чтобы достигнуть высокого качества данных необходимо управлять качеством, т.е.:

  •  проводить контроль качества массива данных, как финального продукта;
  •  отслеживать качество данных на всех этапах обработки данных (жизненного цикла данных).

Заключение

Практически все СУБД предусматривают правила верификации и фильтры, предотвращающие ввод неверных данных.

Необходимо заниматься мониторингом и очисткой любой поступающей информации, как внутренней, так и внешней. Главная задача любого учреждения состоит в обеспечении качественных данных путем создания соответствующих методов контроля данных в системах сбора данных.

Везде, где это возможно применяйте стандарты для контроля данных. Создавайте репозиторий проконтролированных данных системы обработки данных и последующего получения отчетов из этих данных.

Все существующие подходы будут малоэффективны, если не существует, во-первых, заинтересованности разработчиков в качестве БД, а, во-вторых, если не предусмотрена финансовая поддержка процессов сопровождения и оценки БД.

Список литературы

  1.  Бройдо В.Л. Достоверность экономической информации в АСУ. Л. Изд-во ЛГУ. 1984. -200с.
  2.  Гавришин А.И. Оценка и контроль качества геохимической информации. М. Недра. 1980. 287 с.
  3.  Джудит Кинкейд. Из плохих данных следуют плохие решения // Издательство "Открытые системы”. Журнал "Директор ИС", №10, 2003.. http://www.osp.ru/cio/2003/10/035.htm 
  4.  Заварзин А. Экономика качества данных // "Открытые системы”. Журнал «Директор информационной службы», 2011. № 08. http://www.osp.ru/cio/2011/08_11/13010037/
  5.  Ким, Три основных недостатка современных хранилищ данных // Журнал "Открытые системы", 2003, №2.
  6.  Кожемякин Н.В. Данные решают все // "САПР и графика", 2000, № 7.
  7.  Кузнецов С.. Проблема качества БД // Издательство "Открытые системы". Журнал "Открытые системы", 2004. №06, http://www.osp.ru/os/2004/06/078.htm
  8.  Смирнов Н. На одном языке // Издательство "Открытые системы", Журнал «Директор информационной службы» Еженедельник "Computerworld", 2005. №21, http://www.osp.ru/cw/2005/21/044_1.htm
  9.  Стандарт ИСО 9126 (ГОСТ Р ИСО 9126-93) Оценка программной продукции характеристики качества и руководства по их применению. [Электронный ресурс]. – Режим доступа: http://www.klubok.net/Downloads-index-req-viewdownloaddetails-lid-289.html, свободный. – Загл. с экрана.
  10.  Сэбьясачи Бардолой. Оценка операционных рисков: проблемы данных. Май 2006. Перевод: Intersoft Lab [Электронный ресурс]. – Режим доступа: http://demo5.park.su/rus/document6154.phtml, свободный. – Загл. с экрана.
  11.  Фицджеральд М. Информационная свалка // Директор ИС, 2005. №10. http://www.osp.ru/cio/2005/10/379636/
  12.  Форино Р. Электронное качество данных: скрытая перспектива очистки данных. [Электронный ресурс]. – Режим доступа: http://www.olap.ru/basic/el_data_quality.asp, свободный. – Загл. с экрана.

Перечень вопросов для самопроверки

  1.  Назовите метрики для оценки качества БД.
  2.  Назовите источники ошибок.
  3.  Какие существуют методы контроля данных?
  4.  Как оформляются результаты контроля данных?


 

А также другие работы, которые могут Вас заинтересовать

77257. Вегетативная НС. Ее отличия от анимальной НС 2.28 MB
  ВНС Центральный отдел Периферический отдел надсегментарные центры: вегетативные нервные волокна ядра гипоталамуса ретикулярная вегетативные ганглии формация мозжечок лимбическая вегетативные сплетения система кора полушарий...
77258. Симпатическая нервная система. Отделы, ядра, узлы, нервы 691.91 KB
  Каждый из этих двух симпатических стволов слагается из ряда нервных узлов первого порядка соединяющихся между собой посредством продольных межузловых ветвей rmi intergnglionres состоящих из нервных волокон. Кроме узлов симпатических стволов gngli trunci sympthici в состав симпатической системы входят указанные выше gngli intermedi. От узлов симпатического ствола или от промежуточных узлов отходят безмиелиновые волокна постганглионарного пути. В его состав входят 1012 узлов более или менее треугольной формы.
77259. Симпатический ствол, его отделы, строение, связи. Чревные нервы 14.65 KB
  Симпатический ствол образуют паравертебральные ганглии и межузловые ветви. От узлов отходят постганглионарные волокна которые следуют либо в состав спинномозгового нерва rmi communicntes grisei либо образуют паравазальные сплетения по ходу сосудов. Периферические ветви от 69 узлов образуют n.
77260. Парасимпатическая нервная система, ее отделы. Ядра, узлы, нервы, содержащие парасимпатические волокна 13.71 KB
  В составе парасимпатической нервной системы выделяют центральный и периферический отделы. Центральный представлен парасимпатическими ядрами III VII IX X пар черепных нервов краниальный отдел и парасимпатическими крестцовыми ядрами. В краниальном отделе различают мезенцефалический отдел содержащий nuclei ccessorii n.
77263. Плечевое сплетение. Нервы его подключичной части 15.59 KB
  Нервы его подключичной части В межлестничном промежутке выше подключичной артерии демонстрируют плечевое сплетение pi. brchilis которое образовано передними ветвями четырех нижних шейных и частично первого грудного спинномозговых нервов. Из этих пучков происходят длинные нервы иннервирующие кожу и мышцы свободного отдела верхней конечности. Из латерального пучка происходят: 1 мышечнокожный нерв п.
77264. Формирование спинномозгового нерва, его ветви, состав волокон. Межреберные нервы 14.99 KB
  СМН он отдает 4 ветви: менингеальную заднюю переднюю и белую соединительную. Передняя и задняя ветви r. При этом менингеальная и задняя ветви имеют сегментарный принцип иннервации передние ветви участвуют в образовании сплетений шейного плечевого поясничного и крестцового.