63376

ИСТОРИЯ И СОСТОЯНИЕ РАЗВИТИЯ БД

Лекция

Информатика, кибернетика и программирование

Вопросы информатизации Краткая история развития технических средств для хранения и ввода данных в ЭВМ Развитие средств хранения Развитие концепции БД Современные информационные технологии...

Русский

2014-06-19

363.5 KB

1 чел.

PAGE  20


EMBED Word.Picture.8  

EMBED Word.Picture.8  

  1.  

I. ИСТОРИЯ И СОСТОЯНИЕ РАЗВИТИЯ БД

Вопросы информатизации

Краткая история развития технических средств для хранения и ввода данных в ЭВМ

Развитие средств хранения

Развитие концепции БД

Современные информационные технологии

Характеристики БД

Если в течение 40 лет наиболее значимым сырьевым ресурсом была нефть, то сейчас таким сырьем становится информация.

Бывший премьер-министр Великобритании Энтони Блэр

Вопросы информатизации

Современные информационные технологии (ИТ) формируют новую экономику. В обиход вошли такие понятия как "электронный бизнес", " электронное правительство", "виртуальный офис". Скорость появления и внедрения новых "прорывных" ИТ неуклонно возрастает. Основным капиталом любого предприятия становятся информационные ресурсы. Возникли новые отрасли бизнеса - электронная индустрия развлечений, электронная торговля, дистанционное обучение, аутсорсинг, офшорное программирование. Выиграет только тот, кто выдвигает новые идеи, кто подготовлен к обработке огромных потоков информации, кто готов к постоянным изменениям, кто активно использует полученную информацию для принятия решений. На наших глазах рождается новый "средний класс": место традиционных посредников (дилеров, дистрибьюторов, реселлеров, агентов) занимают "информационные посредники" - люди, организующие движение потоков данных, информации, знаний.

По мере нарастания потоков данных человечество предпринимает все более энергичные меры, чтобы уберечь мир от информационного хаоса. В результате на сегодняшний день потребитель информации располагает большим арсеналом средств, позволяющих эффективно ориентироваться в потоках информации. Одно из них БД.

Развитие БД требует поддержки и поиска объектных файлов, распределенного хранения данных, разработки приложений для доступа к данным через Web, управления потоками данных, мониторинга работы БД, простоты управления данными и их использования. В последние годы появилась целая плеяда современных СУБД, поддерживающих XML и способных реализовать преимущества современных аппаратных средств.

Поток информации на различных носителях возрастает все быстрее. Рост объемов информации так велик, что его часто называют информационным взрывом. Объем накопленной на планете цифровой информации в 2010-м преодолел порог в зеттабайт (Збайт - миллиард терабайтов). Этот объем стабильно увеличивается на порядок каждые пять лет. 90% этой информации приходится на неструктурированную информацию (файлы, видео, почта), что существенно усложняет ее обработку и учет. К 2015 г. человечество накопит 7,9 Збайт. Гбайт "реальных" данных косвенно порождает петабайт временных данных (например, цифровое ТВ). 75% данных генерируется индивидуальными пользователями.

Рост числа документов носит экспоненциальный характер. При этом ежегодный прирост потоков данных составляет 15-20%. Кривая роста объемов данных может быть описана экспонентой вида [1]:

y = Aekt

где y – объем данных в Мбайтах, е – основание натуральных логарифмов (е = 2,718...), t – индекс времени (годы); A – объем данных в начале отсчета (при t = 0), K – коэффициент, характеризующий скорость роста объемов данных.

Приведем основные определения, взятые из различных источников [3,4,7,8]:

Сведения (факты) - это набор сигналов физических процессов воспринимаемых субъектом через органы его чувств. Субъектом может быть человек или машина, которая предназначена для восприятия сигналов.

Данные - это сведения, полученные путём измерения, наблюдения, логических или арифметических операций представленные в форме, пригодной для хранения, передачи и обработки.

Информация – это сведения, независимо от формы их представления, усваиваемые субъектом в форме знаний.

Передача данных  - обмен данными любого характера между различными устройствами по каналам связи.

Формат данныххарактеристика данных, способствующая  оптимальному их использованию и определяющая структуру и способ их  хранения, диапазон возможных значений и допустимые операции, которые можно выполнять над этими данными. (графический документ, электронный формат и т.д.).

Структура данных – это организационная схема, в соответствии с которой данные упорядочены с тем, чтобы их можно было максимально эффективно интерпретировать или выполнять над ними различные операции.

Атрибуты – характеристики, которые должен содержать документ для хранения свойств его значений.

Документ – это материальный объект с зафиксированной на нем информацией, предназначенный для  передачи во времени и пространстве в целях хранения и общественного использования, содержащий реквизит.

Документ в электронной форме – это документ, представленный в форме набора состояний элементов вычислительной техники или  иных средств обработки, хранения, передачи  информации, допускающий преобразования в форму, пригодную для однозначного восприятия человека.

Информационный продукт – это документированная информация, подготовленная в соответствии с потребностями пользователей и представленная в форме товара. Основные особенности информационного продукта, отличающие информацию от других товаров [3]:

  •  информация не исчезает при потреблении и может быть использована многократно;
  •  информационный продукт в большинстве случаев со временем теряет актуальность (за исключением данных о погоде и климате) несмотря на появление более новых копий;
  •  разным потребителям даются различные способы потребления (восприятия) информационного продукта (экран, распечатка, на которых может быть представлены таблица, график, карта, текст, мультимедиа) в зависимости от адресности информации;
  •  производство информации в отличие от производства материальных товаров требует значительных затрат по сравнению с затратами на тиражирование;
  •  информационная продукция быстро устаревает и дорого стоит.

Метаданные – данные о данных – сведения о наборах данных, организациях, приборах, платформах, рейсах, проектах, ученых, др.

Собственные свойства информации [3]:

  •  неаддитивность - прибавление информации к уже имеющейся не увеличивает ее суммарное количество на величину прибавленной информации;
  •  независимость содержания информации от формы и способов ее представления;
  •  устаревание во времени.

Потребительские свойства информации:

  •  неэквивалентность количества и качества информации - ценность полученной человеком информации определяется не количеством снимаемой ею неопределенности, а потребностью человека в данной информации, подготовленностью человека к восприятию информации и ее использованию.
  •  неисчезаемость информации после ее использования (потребления).
  •  независимость ценности информации от количества затрат на ее получение.

Информационная инфраструктура – это информационные технологии в виде вычислительных комплексов, оргтехники, средств и каналов связи, управляемая и поддерживаемая в рабочем состоянии с помощью программных средств и определенных организационных мероприятий. Основными частями информационной инфраструктуры являются:

  •  вычислительная техника;
  •  организационная техника;
  •  носители для хранения информации (жесткий диск, магнитная лента);
  •  средства связи (радио и телевещание);
  •  системы передачи данных (коммутаторы, маршрутизаторы, каналы связи).

Краткая история развития технических средств для хранения и  ввода данных в ЭВМ

Эволюция компьютерных систем представлена на рис.1. Предшествующие годы компьютерной истории можно разделить на пять этапов [9]. Сначала был централизованный период (мэйнфреймы и мини-ЭВМ), его сменил распределенный (персональный компьютер, клиент-сервер), далее началась эпоха Интернет, на ее основе получили развитие мобильные устройства, и предпоследний период, когда компьютеризация проникла во все области человеческой деятельности. А далее шестой этап — «революция встроенных систем», которая дает возможность для объединения независимых устройств в единые физические инфраструктуры.

Компьютерная техника быстро развивается, каждые два – три года происходит удвоение мощностей компьютера, табл.1.

1960

1970

1980

1990

2000

2010

Мэйнфреймы

Миникомпьютеры

Сервера

Персональные компьютеры

DOS

Windows

Пакетный режим

Режим разделения времени

Распределенные вычисления

Клиент-серверные системы

Сервисно – ориентированные системы, ГРИД системы

Централизованные системы

Децентрализованные системы

Глобальные системы  -Интернет системы

Рисунок 1 - Эволюция компьютерных систем

Производительность микропроцессоров Intel до сих пор возрастала за счет частоты. За 25 лет тактовая частота процессоров Intel возросла с 5 МГц до примерно 4 ГГц — то есть в 1000 раз. Надежды на продолжение этой закономерности в будущем не оправдываются. В Intel указывают на следующее - экспоненциальное повышение производительности связано с неэффективностью самого наращивания тактовой частоты; кроме того, нарастает проблема задержек в иерархии памяти.

Таблица 1 – Характеристики персональных ЭВМ

Год

Тип процессра

Тактовая частота, МГц

RAM, Мб

Диск, Мб

Внешняя память, Мб

Примечание

1971

Intel 4004 (8/8 Bit)

0.1

0.64

1

0.3

FD 8»

1974

Intel 8080 (8/8 Bit)

0.2

0.64

2

0.3

FD 8»

1978

Intel 8086 (16/8 Bit)

4-10

0.64

5

0.6

FD 5»

1982

Intel 286 (16/16 Bit)

10

0.64

10

1.2

FD 5»

1985

Intel 386 (32/16 Bit)

15

1.5

50

1.4

FD 3»

1989

Intel 486 (32/32 Bit)

16

16

100

640

CD

1993

Pentium (32/32 Bit)

200

32

500

100

Iomega ZIP

1995

Pentium Pro (32/32 Bit)

300

64

1000

1000

Iomega JAZ

1997

Pentium 2 (32/32 Bit)

500

128

6000

7000

Exabyte

2000

Pentium 3 (32/32 Bit)

1000

256

105

20000

DLT

2003

Pentium 4 (64/64 Bit)

3200

512

5*105

107

Сервер Variant V35

2010

Intel Core2

4000

104

106

107

Сменные диски

2015

Intel Core 2

10000

105

108

108

Сменные диски

Повсеместность коммуникаций и активность компьютерных систем способствуют общей тенденции увеличения объема данных, используемых как организациями, так и отдельными людьми. Данные надо передавать, хранить, структурировать и обрабатывать в реальном времени. Сегодня это — гигабайты фотографий, музыкальных записей, текста и видео. Скоро компьютер будет содержать терабайты данных и требовать производительности, измеряемой в Терафлопах. Для достижения такого уровня производительности быстродействие современного процессора персонального компьютера надо поднять более чем в 100 раз.

Обработка огромных потоков данных требует суперкомпьютерного уровня производительности от отдельных серверов, компьютеров и даже мобильных устройств и встроенных систем [5]. Основными приложениями будут системы поддержки решений, работающие в реальном времени, обработка изображений в реальном времени, интеллектуальный поиск, игры и др.

Необходимы меры по активизации исследований и разработке параллельных систем. Создатели компьютеров увеличивают производительность за счет мультиядерности, но для этого надо уметь распараллеливать код, и если новые системы худо-бедно создаются с прицелом на несколько ядер, то огромные объемы унаследованного кода перевести в параллельную архитектуру очень сложно. Но, тем не менее, это направление названо на сегодня единственным, которое позволит наращивать производительность без заметного увеличения стоимости и энергопотребления. Для этого требуются новые алгоритмы, программные модели, ОС и компьютерные архитектуры. Необходимо развивать программную инженерию применительно к параллельным задачам, открытым интерфейсам, средств и методов переноса нынешних последовательных систем на параллельные рельсы.

Web-технологии получат дальнейшее развитие. Регулярный доступ к данным становится насущной потребностью каждого индивидуума. БД и связанные с ними технологии здесь играют ключевую роль. Уже сегодня Web-мастера осознают себя фактически администраторами БД. На многих интернет-узлах начинают применять технологии БД, не видя другой возможности держать под контролем растущее число хранимых объектов. Многие вновь возникающие узлы представляют собой, в сущности, аналоги приложений БД по типу электронных каталогов, где Интернет играет роль инфраструктуры. Архитектура организации доступа к БД в интернет среде показана на рис.2.

Рисунок 2 - Архитектура современной организации доступа к БД

Развитие средств хранения

Данные стремительно стареют. По окончании жизненного цикла данные следует архивировать, а затем поддерживать в архивном формате. Данные могут быть востребованы через многие десятки лет, о чем свидетельствует действующая система бумажных архивов. Вероятность их повторного использования чрезвычайно низка, в определенных критических ситуациях они могут быть востребованы. Не важно, будут ли данные когда-либо использованы, важно, чтобы они были сохранены. Вечное хранение данных соответствующим образом меняет управление жизненным циклом данных, очевидно, они должны по мере старения мигрировать с устройств, обеспечивающих быстрый доступ, на устройства, обеспечивающие низкую удельную стоимость хранения (рис.3), но не могут быть потеряны или уничтожены.

Рисунок 3 – Вероятность повторного использования данных с зависимости от времени хранения данных [9]

Для хранения данных используются следующие носители: бумага, кинопленка, перфокарты, перфоленты, магнитные (видео, аудио, цифровые) и оптические (CD-ROM, DVD). Для физического хранения применяют шкафы, стеллажи, жесткие дисковые системы - винчестеры, флоппи диски, накопители типа Zip, флэш – память, сетевые системы файл-сервер, сервер БД, grid системы.

Перспективные технологии хранения данных, автоматические хранилища лент, устройства хранения прямого доступа, виртуальные ленточные библиотеки, программные средства управления ресурсами хранения, виртуализация памяти, сети хранения на базе IP, твердотельные диски, гибридные жесткие диски, диски на голографических носителях

Компания TDK достигла нового рекорда в плотности записи информации на носитель формата Blu-Ray — теперь компактные диски способны вмещать 200 Гбайт информации.

Магнитные ленты остаются самыми экономичным в плане энергопотребления решением хранения данных, не требующим питания и охлаждения. НМЛ отличаются невысокой стоимостью за терабайт данных и способны выдерживать экстремальные условия. НМЛ HP StorageWorks LTO4 Ultrium1840 для крупных и средних предприятий предлагает максимальный объем, высокую производительность и наибольшую защиту резервных копий, потребляя меньше ватт на гигабайт. Встроенные аппаратные технологии гарантируют защиту данных при утере картриджа. Программное обеспечение НP Data Protector Express Single Server Edition поддерживает аппаратную защиту данных.

Программное обеспечение, разработанное компанией NEC и японским институтом науки и технологий Нара (NAIST, Nara Institute of Science and Technology), позволяет с помощью мобильников с цифровыми камерами (камерофонов) сканировать текст газет и журналов «на ходу», просто проводя им над страницей, а затем распознать весь документ целиком. Программа автоматически отделяет картинки от текста и распознает последний, сохраняя цифровой текст и все содержащиеся в документе изображения.

Хранилища данных. В хранилище данных накапливаются данные из одной или более БД. Существует множество потенциальных применений, а также подходов к организации хранилищ данных. Так, крупный магазин может поддерживать хранилище данных о кассовых операциях для целей добычи данных. Хранилища создаются также для защиты от потерь. Некоторые задачи, касающиеся хранилищ данных, совпадают с теми, которые характерны для интеграции данных в целом, но есть и некоторые специфические проблемы, касающиеся разработки:

  •  инструментов для создания насосов данных, т.е. модулей, функционирующих над средой источников данных и поставляющих в хранилище те изменения, которые существенны с точки зрения хранилища; при этом данные должны транслироваться в соответствии с глобальной моделью и схемой хранилища.
  •  методов "чистки данных", которые обеспечивают согласование данных, удаление элементов, соответствующих разным представлениям одного и того же объекта, а также удаление неправдоподобных значений.
  •  средств для создания и поддержания словарей, информирование пользователей о способах получения данных.

Репозитарии. Класс приложений, называемых репозитариями, можно охарактеризовать как класс систем для хранения и обработки данных и метаданных, т. е. информации о структуре данных. Примеры репозитариев - БД для поддержки компьютерного проектирования, включая CASE (системы проектирования программного обеспечения), а также системы управления документами. Отличительная черта этих систем - изменения метаданных, характерные для любой среды проектирования. В репозитарии необходимо поддерживать множество представлений одной и той же или схожей информации. Например, программный модуль имеет представление в виде исходного кода, объектного кода, промежуточного кода, готовой программы, таблиц использований/определений, документации. Связи между всеми этими представлениями должны отслеживаться репозитарием так, чтобы изменения в одном из них автоматически распространялись на остальные представления того же объекта. Репозитарий должен поддерживать понятие версий (состояний объекта в разные моменты времени) и конфигураций (согласованных коллекций версий). Так, различные релизы программной системы будут формироваться как конфигурации из определенных версий файлов исходного кода. Репозитарий должен поддерживать эволюцию структуры информации и ее метаданных таким образом, чтобы при добавлении новых свойств данных или новых связей не требовалась полная перекомпиляция.

Устройства массовой памяти: В течение 50 лет развития компьютерной техники использовались следующие носители: перфокарты, киноленты, перфоленты, магнитные ленты, дискеты, магнитные картриджи, СD-ROM (увеличение ёмкости носителя до 1,2 Гб против 640 Мб и повышение скорости записи в12 раз), CD-RW, DVD диски, съемные винчестеры, серверы БД. В настоящее время наблюдается устойчивая тенденция роста ёмкости винчестеров, а также снижение удельной стоимости хранения единицы информации. Плотность записи постоянно увеличивается и на настоящий момент составляет более 1 Тб/дюйм2. Цена хранения одного Мб информации продолжает снижаться и в настоящее время составляет менее 0,1 доллара.

Флэш-память – переносное устройство от 32 Гбайт.

Компания Audavi предлагает систему хранения HardTape, в качестве носителей в которой используются 2,5-дюймовые жесткие диски, заключенные в специальные картриджи размером 30x80x17 мм. Картриджи с жесткими дисками выдерживают падение на твердую поверхность с высоты 60 см. Картриджи предлагаются в модификациях емкостью 20, 30, 40, 60 и 80 Гбайт; они устанавливаются в шасси HardTape Bay, которое можно подключить к компьютеру по интерфейсам FireWire, USB или PCMCIA. Система хранения предлагается в качестве альтернативы ленточным накопителям для резервирования информации на случай бедствия, а также для хранения медицинских данных и записей с камер видеонаблюдения [6].

В настоящее время ленты формата 3580 могут хранить до 400 Гбайт несжатой информации. Исследователи полагают, что с помощью так называемых «наношаблонов», предложенных инженерами подразделения микропроцессоров, им удастся создать картриджи, в которых можно будет хранить до 100 терабайт данных.

В компании Iomega разработан накопитель на магнитных дисках величиной с большую монету (около 5 см2), емкость 1,5 Гбайт. Система Digital Capture Technology (DCT) находится в стадии прототипа. Накопитель предназначен для применения в портативных мультимедиа-устройствах.

HandyDrive – внешний винчестер - комплект для быстрого копирования и переноса больших объёмов информации.

CD-R диски имеют высокую емкость и относительно высокую надёжность по сравнению с дискетами.

Иерархия устройств и систем хранения данных. Для решения проблем хранения данных необходимо [10]:

  •  организовать недорогой и при этом надежный массив хранения с кросс-платформенным доступом и возможностью масштабируемости по мере роста объема данных;
  •  организовать эффективное резервирование данных;
  •  обеспечить территориальную распределенность массива хранения и его копий;
  •  организовать глобальный, защищенный доступ к БД;
  •  синхронизировать существующие БД.

Запоминающие устройства можно представить как трехзвенную систему: устройства и системы для активно используемых данных (дисковые системы), периодически используемых данных (CD/MO/DVD устройства) и данных долговременного хранения (ленточные библиотеки). Быстрые или оперативные устройства с произвольным доступом хранения служат для работы с данными, в которых пользователи для выполнения своей работы нуждаются постоянно. Это - жесткие диски, дисковые системы и RAID системы. Они имеют небольшое время доступа и самую высокую частоту обращения.

Данные появляются и попадают в систему хранения на транзакционных дисках. Затем они переходят на промежуточные архивные диски, чтобы потом перекочевать на ленты. Это — трехуровневая система хранения. Однако между лентами и дисками может располагаться еще один уровень — уровень виртуальных ленточных библиотек, и тогда система будет четырехуровневой.

Принципиальное отличие систем 1-го и 2-го уровня от систем 3-го уровня заключается в том, что первые две - это системы произвольного доступа, а последние - последовательного доступа. Такое разделение четко определяет области их использования. При этом основные отличия систем 1-го и 2-го состоит в емкости и скорости доступа.

Файлы с высокопроизводительных дисков автоматически переносятся на другой, более дешевый носитель в соответствии с заранее определенными критериями (правилами), к которым относятся, например, возраст файла, дата создания, размер или тип файла. После успешной миграции остается лишь один метафайл, содержащий ссылку на новое месторасположение данных. В большинстве случаев речь идет о магнитных лентах или жестких дисках.

В системах массового хранения данных используют носители на несколько порядков более медленные, чем на вторичном, но зато гораздо более емкие. Это накопители типа стоек с компакт-дисками или магнитными лентами, где для установки нужной кассеты или ленты используется механическая рука. В сущности, доступ к этой памяти осуществляется путем буферизации выбранных элементов данных на вторичных носителях, подобно тому, как доступ к вторичной памяти осуществляется путем буферизации дисковых блоков в оперативной памяти. Здесь приходится учитывать не только то, что скорость считывания данных с ленты (секунды) на три порядка ниже, чем с диска (миллисекунды), но и то, что нахождение нужных данных в середине кассеты может увеличить время доступа еще на 1-2 порядка.

Восстановление данных после крупной катастрофы должно происходить быстро и автоматически. Хотя у части компаний есть системы восстановления данных, время от времени они их тестируют, очень часто случается, что в нужную минуту эти системы оказываются неспособны действовать в соответствии с намеченным планом. Процедура восстановления данных в большинстве случаев сложна. Известно, что предприятия, на долгое время выведенные из строя в результате краха инфраструктуры ИТ, шансы на выживание невысоки, так что ответственность здесь очень велика. Предприятия, чьи ИТ-инфраструктуры оказываются выведенными из строя на десять и более дней в результате катастрофы, ожидает банкротство не позже, чем через год после бедствия.

В большинстве организаций резервные копии данных создаются, но нет аналогичной защиты для приложений, сетевых ресурсов, облачных сервисов и всего прочего, что связано с резервируемыми данными. Надо иметь полноценный, настоящий план восстановления данных. Восстановление данных требуется в следующих случаях:

  •  длительное отключение электроснабжения (приходится восстанавливать репликацию данных, пополнение ресурсов, др.);
  •  отказ отдельного сервера (или даже целой серверной стойки);
  •  сбои в различных приложениях;
  •  человеческие ошибки, связанные либо с обеспечением электропитания, либо собственно с объектами ИТ.

Основные принципы восстановления данных:

  •  создавайте регулярные копии дисковых данных;
  •  проводите репликацию данных на основе удаленного хранилища;
  •  создайте запасной удаленный центр, имеющий зеркальное отображение основных серверов;
  •  регулярно проводите тестирование средств восстановления данных.

ИКТ-инфраструктура платежной системы ЦБ РФ имеет восьмикратное резервирование всех компонентов. На самом верхнем уровне оно обеспечивается двумя Коллективными центрами обработки информации, расположенными в Санкт-Петербурге и Нижнем Новгороде, которые способны обеспечить восстановление работоспособности системы после крупномасштабных катастроф. Наряду с выполнением в каждом центре операций платежной системы между ними раз в сутки осуществляется полная взаимная репликация данных. Кроме того, оба центра помимо основной площадки имеют в своем составе удаленный на десятки километров резервный дата-центр, полностью идентичный по набору оборудования и программного обеспечения с основным. Штат резервного дата-центра составляет примерно 10% от численности сотрудников основного: предполагается, что при переключении нагрузки на резервный центр нужные специалисты будут перемещены туда с основной площадки. На самом нижнем уровне резервирование обеспечивается дублированием всего оборудования.

Для повышения скорости обработки крупных БД необходимо применять кластерные системы повышенной надежности. Основная задача системы повышенной надежности - обеспечение бесперебойной и надежной работы вычислительного комплекса и всех решаемых им задач. Общие характеристики системы надежности:

  •  единая система, действующая, как одно целое;
  •  обеспечение высокой надежности;
  •  централизованное управление всеми ресурсами;
  •  общая файловая система;
  •  обеспечение гибкости конфигурации;
  •  обеспечение легкости в наращивании ресурсов.

Основные функции систем хранения данных:

  •  организация системы резервирования с использованием специализированного программного обеспечения
  •  автоматическое управление библиотекой
  •  возможность классификации на группы по типам данных и критичности данных
  •  возможность применения плана резервирования для поддержки уровня надежности и релевантности данных
  •  возможность вручную осуществить восстановление или резервирование данных

Общий уровень управления обеспечивает также снижение расходов за счет устранения излишнего копирования данных, более эффективного использования устройств и решения проблем поддержки оборудования разных производителей. Автоматизированная миграция редко используемых данных на более дешевые носители повышает эффективность загрузки корпоративных ресурсов хранения и устраняет необходимость приобретения дополнительного оборудования.

Таблица 2 – Характеристики средств копирования данных

Метод

Носитель

Процент использования

Использование сжатия данных

Преимущества

Полное резервное копирование

Магнитная лента

100

Да

Простота

Выборочное резервное копирование

Магнитная лента

Меньше 100

Да

Экономия времени

Зеркалирование

Диск

100

Нет

Простота и скорость

Мгновенные снимки

Диск

Часть данных

Нет

Очень высокая скорость

Постоянное копирование

Диск

Часть данных

Нет

Экономное использование носителя

Технологии ввода данных начинались с непосредственного ввода в ЭВМ, затем были созданы отдельные устройства перфорации, занесения с экрана в персональном варианте (с использованием и без СУБД), через web, с приборов с микропроцнссорами, сканирование бумажных документов - распознавание документов, с голоса. Самые большие изменения в пользовательском интерфейсе связаны с появлением планшетного персонального компьютера, позволяющего рисовать, писать что-то ручкой, словно чернилами, и даже преобразовывать этот рукописный текст в обычный текстовый вид. Имеются также средства преобразования в текст произнесенной речи.

Развитие концепции БД

Формами организации информации являются файлы данных, персональные БД, интегрированные БД, базы пространственных данных для использования в ГИС, распределенные БД.

Эволюцию развития БД - от файлов данных до многомерных БД можно представить в виде следующих этапов:

60-е годы – первые массивы данных на перфокартах;

70-е годы – массивы данных на магнитных лентах;

80-е годы – банки данных, иерархические и сетевые БД;

90-е годы – реляционные БД (сети ЭВМ);

21 век – доступ к БД через web-интерфейс, многомерные БД.

Файловые системы. Недостатком их является недостаточные возможности управления данными, большие затраты труда программистов, дублирование разработок.

БД это множество взаимосвязанных единиц данных, которые могут обрабатываться одной или несколькими прикладными системами. Преимуществами БД являются:

  •  наличие метаданных,
  •  поддержка целостности БД (все изменения в различных таблицах производятся в соответствии с установленными правилами);
  •  одновременный доступ к данным нескольких пользователей;
  •  ориентированные на пользователя запросы и отчеты;
  •  представление сложных структур информации, когда объектом хранения являются не только данные, но описания структур данных;
  •  сокращение дублирования информации;
  •  независимость прикладных программ от изменений описаний данных и наоборот;
  •  сокращение затрат на обслуживание БД;
  •  возможности создания интегрированных баз данных;
  •  множество пользователей и прикладных программных приложений;
  •  индексация по основным ключам путем автоматической рубрикации;
  •  возможности поиска данных по любому логическому выражению (для нескольких атрибутов), полнотекстовый поиск (с учетом близости слов), комбинированный (по словам и атрибутам);
  •  экспорт – импорт данных в другие СУБД, ASCII и XML файлы, HTML, PDF, rtf-документы.

Основные компоненты информационной системы (банка данных) включают БД, СУБД, оборудование, организационно - методическое обеспечение. СУБД включает язык описания данных (ЯОД), язык манипулирования данными (ЯМД), одним из наиболее распространенных и стандартизированных вариантов которого является структурированный язык запросов - SQL, резидентный модуль СУБД.

БД по структуре их хранения можно разделить на две части:

  •  классические БД в виде таблиц;
  •  документальные системы, представляющие метаданные во входных или выходных формах системы в виде "ключевое слово: значение". На этом подходе построен язык JSON.

Базы знаний это системы искусственного интеллекта основанные на правилах. На рис.4 дано отличие в представлении данных (фактов) и знаний.

В простейшем случае информационная система, использующая СУБД, состоит из двух основных компонентов: сервера БД, управляющего данными и выполняющего запросы, самих клиентских приложений, обеспечивающих интерфейс пользователя и посылающих запросы к серверу. Именно сервер БД манипулирует файлами, в которых хранятся данные, выполняет пользовательские запросы, поддерживает ссылочную целостность данных, обеспечивает доступ к ним, осуществляет резервное копирование данных и протоколирует операции, связанные с их изменением.

Результатом работ многих направлений развития вычислительной техники, информатизации, программирования является создание безбумажной технологии использования информации за счет широкого использования Web, e-mail, электронной подписи и различных внешних устройств.

Рисунок 4 - Сравнение представления данных и знаний в ЭВМ

Современные информационные технологии

Главными и наиболее интересными и перспективными подходами при создании и использовании БД являются следующие направления:

  •  децентрализация системы создания, хранения, поиска, обработки и распространения данных с широким применением Web-технологий в Интернет, Интранет инфраструктуре,
  •  создание баз метаданных,
  •  широкое использование методов управления данными,
  •  интеграция данных,
  •  развитие ГИС, создание СППР, электронных справочных пособий.

Управление данными (на организационном и физическом уровнях). Для эффективного сбора и обработки данных необходимо организовать управление данными на уровнях выполнения научной программы (эксперимента), проекта, центра, а также на физическом уровне в хранилище данных и БД. Информационной основой управления данными являются базы метаданных. Список объектов метаданных включает сведения об организациях, массивах фактографических и пространственных данных, исследовательских проектах, экспертах, информационных ресурсах, имеющиеся в Интернет, источниках информации, методах обработки, форматах данных, кодификаторы. При этом предлагается три уровня организации поиска данных и метаданных (поиск общих сведений о данных на сайтах со статической организацией информации, поиск на сайте с использованием СУБД для динамического представления данных и информации, и поиск с помощью СУБД на корпоративном уровне).

Интеграция данных. Крупные информационные системы подразумевают взаимодействие информационных ресурсов, в основе которых лежат самые разные форматы и модели представления данных. При интеграции данных в качестве центрального звена создается модель интегрированной БД. Каждый источник данных описан и имеются возможности транслирования данных между частным представлением и глобальным представлением. Необходимо обеспечить интеграцию различных видов данных (географических, экономических, технических и др.), типов физического представления данных (фактографических, текстовых, пространственных, графических) в рамках одной СУБД за счет нормализации данных, типизации ключей и создания многомерных БД.

Case технологии. Огромный объем данных, участие больших коллективов разработчиков из различных организаций, требуют применения современных средств проектирования информационных систем.

ГИС типа ArcInfo, MapInfo, RADS и др. используются для представления картографической основы, тематических объектов (демографических, макроэкономических и др. показателей). ГИС используются для представления значений данных на карте. Электронные справочные пособия предназначены для улучшения поиска и доступа к статистическим данным. Целью создания таких справочников является объединение всех статистических характеристик в рамках одной программной среды. Бумажными аналогами таких пособий являются статистические отчеты. Данные в справочниках представляются в виде карт, текста, графиков, таблиц, могут сопровождаться звуком, анимацией и др. Средствами создания таких справочников являются ГИС, СУБД, модели, приложения по вычислению новых характеристик и представлению данных. Информационная база справочника включает средние характеристики за последний год, по месяцам, в сравнении с предыдущим годом, временные ряды, картографические данные. Часть данных справочника может пополняться и при этом в справочнике должны автоматически отобразиться эти изменения.

Системы поддержки принятия решений (СППР) предназначены для улучшения использования информации, уменьшения убытков. Основная идея создания СППР заключается в следующем. Зная ситуацию на экономическом объекте, можно заранее определить перечень возможных последствий на объекте экономики. Зная перечень последствий, можно составить перечень рекомендаций по уменьшению или предотвращению этого воздействия. Средствами реализации системы являются экспертные системы и базы знаний. Информационной базой системы являются матрицы влияния, рекомендации, базы знаний в виде правил.

Для обеспечения эффективного принятия решений полной, оперативной и удобной для использования информацией первоочередной задачей является создание и поддержка единого информационного пространства организации, интегрирующего по возможности, всю корпоративную информацию, и позволяющего представлять ее в удобном для использования виде. К этому же классу задач относится уменьшение зависимости компании от конкретных персоналий, что требует максимально возможного отчуждения существенной информации и знаний. А это возможно только при создании БД.

Децентрализация сбора и обработки данных, создание распределенных БД позволит улучшить обслуживание пользователей, ускорить доступ к данным. Достижения в этом направлении приведут к:

  •  распределенному проектированию систем;
  •  безбумажной технологии использования данных на всех уровнях принятия решений;
  •  отмиранию переносных технических носителей – практически вся информация будет доступна в сети;
  •  в любое время, где бы ни было ЛПР, появится возможность получить любую информацию, включая рекомендации для принятия решений. В случае какого - либо инцидента компьютер сам напомнит о том, что объект находится в зоне инцидента и что надлежит сделать, чтобы обезопасить себя и предприятие.

Характеристики БД

Характеристиками БД и потоков данных являются:

  •  объем данных в логических и физических единицах;
  •  объем потока данных в единицу времени;
  •  доступность данных 24*7*365;
  •  оперативность поступления данных;
  •  полнота БД в % — относительное число объектов или документов, имеющихся в БД, к общему числу объектов по данной тематике или по отношению к числу объектов в аналогичных БД;
  •  актуальность - устаревание во времени — относительное число устаревших данных об объектах в БД к общему числу накопленных и обрабатываемых данных, определяется скоростью ввода в БД;
  •  оперативность доведения - время в течение которого данные становятся доступны пользователям.
  •  качество (достоверность) данных - вероятность ошибки (управление 10-4 10-5; планирование - 10-5 , статистика -10-5 , бухучет - 10-6 -10-7). Обеспечение вероятности ошибок выше, чем 10-4 требует увеличения капитальных и эксплуатационных затрат до 50%, времени программирования до 50%, времени работы программ, персонала;
  •  идентичность — относительное число описаний объектов, не содержащих дефекты и ошибки, к общему числу документов об объектах в БД;
  •  ценность полученной информации определяется потребностью человека в этой информации и его подготовленностью к ее восприятию и использованию;
  •  точность определения атрибутов;
  •  формы представления (таблицы, графики, карты, тексты, мультимедиа).

Влияние характеристик БД на затраты, связанные с получением и ценностью данных, табл.3.

Таблица 3 - Влияние характеристик БД на затраты, связанные с ее получением и ценностью данных

Характеристика БД

Влияние на затраты по получению информации

Влияние на ценность информации

Доступность

Затраты на поиск

Увеличение доступности увеличивает полезность данных

Объем данных

Увеличиваются затраты на ведение БД

Рост объемов увеличивает потенциальную полезность

Актуальность

Требует затрат на разработку соответствующих технологи и их эксплуатацию

Чем быстрее данные будут доступны, тем быстрее пользователь может их увидеть

Оперативность доведения

Требует затрат на разработку и эксплуатацию соответствующей технологии

Чем быстрее данные будут доступны, тем лучше будет решение

Полнота БД

Достижение 100% полноты сопряжено с трудностями реализации и связано со значительными затратами

Очень важна

Качество данных

Требует затрат на разработку

Чрезвычайно важна

Точность определения атрибутов

Обходится все дороже и дороже

Не столь полезна, как об этом принято думать, т.к. случайные наблюдения в океане в пространстве и во времени дают большую ошибку при вычислении климатических характеристик

Форма представления

Требует затрат на разработку соответствующих приложений

Очень важна

Выводы

За минувшие шесть десятилетий компьютер превратился в универсальный инструмент для работы с данными. Первое поколение компьютеров было построено на лампах, второе — на дискретных полупроводниковых элементах, третье — на микросхемах, четвертое — на микропроцессорах, пятое поколение - на кристаллах. Деление на поколения отражает только ту часть эволюционного процесса, которую зафиксировал Гордон Мур, а именно уплотнение числа транзисторов на кристалле с интервалом полтора-два года.

Не меньшую роль в становлении современных ИТ играют сети связи и средства для интерактивного взаимодействия человека с компьютером. По «закону Меткалфа» значение сетей возрастает пропорционально квадрату числа узлов сети. Закон Гилдера утверждает, что пропускная способность коммуникационных систем возрастает втрое каждые двенадцать месяцев, то есть сети развиваются быстрее, чем процессор.

Современная эра информатизации ориентирована на распределенные ресурсы (информационные, вычислительные, сетевые). Всё возрастающая сложность систем приведёт к тому, что они будут состоять из сотен тысяч или даже из миллионов различных компонент, приложений, служб, сенсоров, работающих на различном оборудовании, написанных разными производителями. И трудно будет найти эксперта, который бы знал, как это всё работает. На первый план выходят надежность работы, адаптируемость, масштабируемость, персонализация - настройка программных компонент под пользователя. Появилась острая необходимость в самонастраивающихся, самовосстанавливающихся после сбоев программных средствах, способных к самопроверке и различной реакции на ошибки.

Список литературы

  1.  Вязилов Е.Д. Базы данных. - Учебное пособие. Обнинск, ИАТЭ, 2004. - 107 с.
  2.  Вязилов Е.Д. Лабораторный практикум по курсу «Базы данных». - Обнинск, ИАТЭ, 2005- 49 с.
  3.  Гиляревский Р.С. Основы информатики: Курс лекций, М.: Экзамен, 2003. - 320 с.
  4.  Дейт К. Введение в системы БД / Пер. с англ. - М.: Вильямс, 2006. — 1328 с.
  5.  Кузьминский М. Платформа-2015 // Издательство «Открытые системы». Computerworld, 2005. Вып.15.
  6.  Макмиллан Роберт. Ленточный накопитель емкостью 100 Тбайт // Журнал «Computerworld», 2005. Вып.3.
  7.  Мартин Дж. Организация БД в вычислительных системах. - М.: Мир, 1978.
  8.  Хансен Гэри, Хансен Джеймс. БД: разработка и управление: Пер. с англ. - М.: ЗАО "Издательство БИНОМ", 1999. - 704 с.
  9.  Черняк Л. Навстречу системам хранения неструктурированных данных. // Издательство «Открытые системы». Журнал «Открытые системы», № 03, 2004», 2004. Вып.3. http://www.osp.ru/os/2004/03/184057/#top.
  10.  ГОСТ Р /ISO/TR 15801:2009  Системы электронного документооборота. Управление документацией информация, сохраняемая в электронном виде: Рекомендации по обеспечению достоверности и надёжности. - М.- Стандартинформ. 2011. – 64 с.

Перечень вопросов для самопроверки

  1.  Назовите новые информационные технологии и выделите наиболее перспективные с Вашей точки зрения и объясните, почему Вы их выделяете.
  2.  Какие технические носители Вы знаете и перечислите их характеристики.
  3.  Как Вы понимаете создание безбумажной технологии для лиц, принимающих решение?
  4.  Какие формы организации данных и знаний Вы знаете?
  5.  Каковы проблемы управления хранением наиболее остры?


 

А также другие работы, которые могут Вас заинтересовать

40515. Былички 21.5 KB
  Былички. Былички – истории о покойниках леших домовых – память о древнеславянской мифологии. Былички – мифологические рассказы о духах природы и домашнего очага. По композиции былички: мемораты – воспоминания о встрече; фабулаты – есть сюжет повествование.
40516. ГЕНЕАЛОГИЧЕСКАЯ КЛАССИФИКАЦИЯ ЯЗЫКОВ 320 KB
  Шаповал ГЕНЕАЛОГИЧЕСКАЯ КЛАССИФИКАЦИЯ ЯЗЫКОВ Новосибирск 2002. ОСНОВНЫЕ ПОЛОЖЕНИЯ ГЕНЕАЛОГИЧЕСКОЙ КЛАССИФИКАЦИИ ЯЗЫКОВ Понятие генеалогической классификации Генеалогическая классификация основана на определении родственных отношений между языками. При этом доказывается общность происхождения родственных языков и демонстрируется их развитие из единого часто реконструируемого специальными способами языка который получает название праязык. При генеалогической классификации языков прежде всего выясняется степень их родственных отношений и...
40517. Классификация согласных по различным признакам 24 KB
  2 По способу образования по характеру преграды: смычные взрывные: чистые смычные например: [б] [г]. аффрикаты смычнощелевые например: [ц] [ч]. вибранты дрожащие например: [р] щелевые фрикативные однофокусные например: [j] [ф] [в] двухфокусные – сложные щелевые шипящие щель образуется в двух местах. 3 По месту образования по активному органу: губные: губногубные билабиальные например : [п] губнозубные лабиодентальные например: [ф] язычные: переднеязычные: зубные например: [т]...
40518. Линейное членение звукового потока. Суперсегментные фонетические явления 30 KB
  Слоговые подходы к выделению и определению. Членение речевого потока на слоги происходит во всех языках мира. Слог – минимальная произносительная единица речи состоит из одного или нескольких звуков. Методы выделения слога: Слог представляет звукосочетание за один выдох.
40520. Мёртвый язык 203.5 KB
  Обычно такое происходит когда один язык полностью заменяется другим языком как например коптский язык был заменён арабским а множество исконных американских языков были вытеснены английским французским испанским и португальским языками. Точная смерть языка также наступает в том случае когда язык претерпевает эволюцию и развивается в другой язык или даже в группу языков. Примером такого языка служит латинский язык мёртвый язык который является предком современных романских языков.
40521. Морфологическая классификация языков мира 22.5 KB
  Морфологическая классификация языков мира. выделял два типа языков: флективные – корни изменяются нефлективные агглютинирующие – механически связаны части слова.: предложил ввести третий тип языков: аморфные – без грамматической структуры разделил флективные на синтетические и аналитические. фон Гумбольдт – Учение о внутренней форме языка: ввел четвертый тип языков: инкорпорирующие полисинтетические уточнил понятие флективный язык: Шлегели – менялась внутренняя флексия Гумбольдт – включил фузионные аффиксальные языки ...
40522. Основные стадии развития письма 27.5 KB
  Письмо –знаковая система фиксации речи передает информацию на расстоянии и времени. Первый этап развития начертательного письма – письмо рисунками. Плюсы: в современных культурах пиктография – вспомогательное средство общения : комиксы эмблемы на документах обучение детей помогает при международном общении при общении с неграмотными Идеография логография – письмо понятиями – отображение содержания с помощью символов. Древнеегипетское шумерское письмо.
40523. Принципы классификации звуков речи. Гласные и согласные 20.5 KB
  Гласные и согласные. акустический Гласные состоят из тона согласные либо из шума либо из шума тона. артикуляторный 1 при образовании гласных напрягается весь речевой аппарат при образовании согласных напряжение локализовано 2 по силе выдыхаемой воздушной струи при образовании гласных голосовая струя слабее 3 Функционально различаются по роли в слоге гласные – слогообразующие согласные – примыкают к ним 4 По сочетаемости.