5217

Перетворення друкованих документів в електронну форму

Реферат

Информатика, кибернетика и программирование

Перетворення друкованих документів в електронну форму Способи подання інформації Основні різновиди природних даних, які здатний зберігати та обробляти комп'ютер, наступні: десяткові числа текст зображення звук. З м...

Украинкский

2012-12-04

31.47 KB

43 чел.

Перетворення друкованих документів в електронну форму

1. Способи подання інформації

Основні різновиди природних даних, які здатний зберігати та обробляти комп’ютер, наступні:

  1.  десяткові числа;
  2.  текст;
  3.  зображення;
  4.  звук.

З метою зберігання та обробки будь-які з цих даних попередньо мають бути представлені у вигляді двійкових чисел.

1.1. Способи подання десяткових чисел

Найпростішим способом можуть бути представлені цілі додатні десяткові числа. Розглянемо спосіб їх побудови.

Як відомо, ціле додатне десяткове число використовує 10 цифр від 0 до 9. Кожний його розряд має вагу, яка є степенем числа 10. Наприклад, будову 5-розрядного десяткового числа 38097 можна представити так:

Порядковий номер розряда

4

3

2

1

0

Вага розряда

104=10000

103=1000

102=100

101=10

100=1

Цифра розряда

3

8

0

9

7

Значення розряда

30000

8000

0

90

7

Сума значень розрядів дає значення числа тридцять вісім тисяч дев’яносто сім”.

По аналогії, ціле додатне двійкове число використовує дві цифри – нуль та одиницю. Кожний його розряд має вагу, яка є степенем двійки. Наприклад, будову 6-розрядного двійкового числа 101101 можна представити так:

Порядковий номер розряда

5

4

3

2

1

0

Вага розряда

25=32

24=16

23=8

22=4

21=2

20=1

Цифра розряда

1

0

1

1

0

1

Значення розряда

32

0

8

4

0

1

Сума значень розрядів двійкового числа 101101 дає значення його десяткового еквіваленту, тобто 1011012=32+8+4+1=4510.

1.2. Способи подання тексту

Будь-який текст складається із знаків. Ці знаки людина розрізняє за їх накресленням, і завдяки цьому може їх читати. Але комп’ютер розрізняти знаки тексту таким способом не здатний.

Тому для комп’ютерного подання використовується інший спосіб, а саме: кожний знак тексту позначають (кодують) певним числом. Саме в такому вигляді знаки і зберігаються, і обробляються. Але якщо виникає необхідність вивести текст на екран, то використовують спеціальні кодові таблиці, в яких кожному коду ставиться у відповідність зображення. І таким чином, на екран виводиться не код, а відповідне зображення знаку.

Будь-які кодові таблиці підпорядковані певним стандартам. Зокрема, тривалий час (з 1960-х років) в комп’ютерах використовувався розширений стандарт ASCII. У відповідності з цим стандартом для кодування кожного знаку потрібний 1 байт, тобто 8-розрядне двійкове число. Таким способом можна закодувати 256 знаків, коди яких мають значення від 0 до 255. Перші 128 знаків незмінні – це літери латинського алфавіту, цифри, розділові знаки, дужки тощо. Наступні 128 знаків – змінні і можуть належати різним національним алфавітам.

Код ASCII є 8-бітним (однобайтовим) і його основний недолік полягає в тому, що неможливо користуватись одночасно декількома мовами через малу кількість можливих кодів. Тому у 1993 році був розроблений новий 31-бітний стандарт кодування знаків Unicode. Кількість можливих кодів цього стандарту дуже велика і становить 231. На даний момент реальні потреби в кодах становлять менше 0,1% цього числа. Саме тому в сучасних комп’ютерах прийнято скорочену 16-бітову версію Unicode, в яку входять всі основні алфавіти світу.

1.3. Способи подання зображень

Для того, щоб неперервне зображення могло зберігатись та оброблятись в комп’ютері, воно попередньо має бути представлено у дискретній формі. Це означає, що все зображення розбивають на окремі невеликі елементи. При цьому вважається, що в межах кожного елементу зображення має один і той же колір. Такий спосіб подання зображення називається растровим. Елементи растру називаються пікселями. Вони надзвичайно малі і тому їх ототожнюють з точками.

В комп’ютерній графіці використовується прямокутний растр, в якому пікселі утворюють рядки та стовпчики прямокутної матриці. Кількість пікселів екрану називається його розподільчою здатністю і визначає якість зображення. Наприклад, розподільча здатність  1024х768 означає, що прямокутна матриця пікселів має 1024 стовпчики і 768 рядків.

Для позначення кольорів пікселів найчастіше використовується модель RGB. В цій моделі основними кольорами вважаються червоний (R), зелений (G) та синій (B). Суміш цих трьох кольорів з різною яскравістю дає можливість утворити будь-які інші кольори.

В залежності від обраної кількості рівнів яскравості кольорів розрізняють різні відеорежими. Наприклад, режим TrueColor передбачає, що кожний колір від найменшої до найбільшої своєї яскравості розбито на 256 рівнів. Таким чином, щоб указати номер рівня яскравості однієї кольорової складової, потрібний 1 байт, а всього для вказівки кольору точки потрібно 3 байти, що становить 24 розряди. Число 24 в даному прикладі називається глибиною кольоровості. Всього таким способом можна утворити 224=16777216 кольорів.

1.4. Способи подання звуку

Основні параметри звукових хвиль – частота та амплітуда коливань. Від частоти залежить тон звуку, а від амплітуди – сила звуку. З метою зберігання та обробки неперервного звуку у комп’ютері його необхідно попередньо представити у дискретній формі. Цей процес називається оцифровкою звуку.

Для оцифровки звуку значення його амплітуди записують через певні проміжки часу, що є дискретизацією звуку в часі. Кожне значення амплітуди указують наближено у вигляді певного рівня – це є квантуванням звуку. В цілому весь цей процес називають імпульсно-кодовою модуляцією. При цьому звук виявляється записаним у вигляді послідовності чисел, кожне з яких означає рівень амплітуди звуку в певний момент часу.          

2. Сканування та розпізнування документів

Перетворенням документу в електронну форму називається його автоматичне перенесення з паперового носія в пам’ять комп’ютера. При цьому може використовуватись або спосіб подання текстових даних, або спосіб подання зображень. За рахунок цього досягаються наступні цілі:

  1.  вдосконалення способу зберігання документу;
  2.  можливість передачі документу комп’ютерною мережею;
  3.  автоматизація перекладу документу на іншу мову;
  4.  спрощення створення копій документу;
  5.  можливість редагування документу.

Для перетворення документу в електронну форму слід виконати дві основні операції: сканування і розпізнування.

Внаслідок сканування створюється графічний образ паперового документу. Основний фізичний принцип сканування – документ освітлюється і відбите світло сприймається світлочутливими елементами. Кожний світлочутливий елемент утворює окрему точку у загальному зображенні документу. Таким чином утворюється растрове зображення документу.

Для сканування потрібний прилад, який називається сканером. Існують наступні різновиди сканерів:

1). Ручний сканер. Його переміщують вздовж документа вручну. Недоліки: потрібні декілька проходів, нерівномірний рух. Як наслідок – низька якість.

2). Листовий сканер. В процесі сканування паперовий документ протягується, як у принтері. Недолік: можна сканувати тільки окремі аркуші.

3). Планшетний сканер. При цьому документ кладуть під кришку, блок сканування переміщується автоматично.

Внаслідок розпізнування графічне подання документу перетворюється у текстове. Завдяки цьому значно зменшується обсяг даних. Сам документ при цьому стає доступним для автоматичного перекладу та редагування.

Для розпізнування використовується спеціальне програмне забезпечення. Найбільш популярною програмою на даний момент є програма FineReader розробки фірми ABBYY.

3. Робота з програмою FineReader

Програма FineReader є комплексною. Під її управлінням здійснюються чотири основні операції з перетворення друкованого документу в електронну форму:

  1.  сканування,
  2.  сегментування,
  3.  розпізнування,
  4.  перевірка.

В процесі сканування програма FineReader безпосередньо керує використовуваним сканером. Найбільш поширена схема управління сканером називається протоколом TWAIN32. Діалогове вікно управління процесом сканування залежить від типу сканера. В цьому вікні визначаються параметри сканування, зокрема область сканування, формат виведення, розподільча здатність тощо. Внаслідок сканування утворюється графічний образ документа.

Сегментація полягає у підготовці графічного образу до розпізнування. При цьому весь  графічний образ має бути розподілений на чотири види сегментів: текст, таблиця, зображення і штрих-код. Кожний з цих сегментів, за винятком зображень, розпізнається за своїм алгоритмом. Сегментація виконується у напівавтоматичному режимі. Це означає, що програма самостійно пропонує перший варіант сегментації, який надалі можна редагувати.

Процес розпізнування здійснюється автоматично і полягає у послідовному перегляді графічних образів та перетворенні їх у текстову форму подання. Попередньо має бути встановлена мова тексту. Слова тексту, які через дефекти документу розпізнати не вдалось, виділяються кольором.

В процесі перевірки аналізується правопис розпізнаного тексту. При цьому для слів, які не вдалось розпізнати однозначно пропонуються варіанти розпізнування.

Розпізнаний документ слід зберегти для того, щоб перенести його в інші програми з метою редагування (наприклад, у Word). Це пов’язано з тим, що документ практично ніколи не розпізнається ідеально і тому вимагає редагування.


 

А также другие работы, которые могут Вас заинтересовать

42965. Разработка информационной системы по предметной области спортивный комплекс 505.53 KB
  Информационнопоисковая система это система обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации индексе на основе информационнопоискового языка и соответствующих правил поиска.0 располагающей широкими возможностями по созданию приложений баз данных необходимым набором драйверов для доступа к самым известным форматам баз данных удобными и развитыми средствами для доступа к информации расположенной как на локальном диске так и на удаленном сервере а также большим коллекцией...
42966. Цифровая радиолиния КИМ-ЧМнФМ 4.95 MB
  Рязань 2012 Содержание Общая характеристика системы управления Расчет и выбор основных технических характеристик системы 2.5 Расчет энергетического потенциала 3Контур управления и его анализ 4Разработка функциональной схемы радиолинии Спектр сигнала КИМЧМнФМ Описание функциональной схемы передатчика Описание функциональной схемы приемника Конструкция бортового приемника Заключение Литература 1. Общая характеристика системы управления сигнал дискретизация квантование кодирование приемник Командное радиоуправление...
42967. КОМПЬЮТЕРНОЕ ПРОЕКТИРОВАНИЕ МИКРОВОЛНОВОГО ФИЛЬТРА НИЖНИХ ЧАСТОТ НА ОСНОВЕ МИКРОПОЛОСКОВОЙ ЛИНИИ 107.64 KB
  Целью работы является проектирование фильтра нижних частот на основе микрополосковой линии определение продольных и поперечных величин всех его элементов. Основной задачей будет нахождение наиболее оптимальной модели фильтра...
42968. Расчет оборудования для вакуум-кристаллизации галургического хлорида калия на БКПРУ- 1.03 MB
  Для охлаждения осветленного насыщенного щелока от 90 до 18–°C используется принцип самоиспарения, при котором испарение части растворителя – воды и охлаждение щелока достигается в результате кипения щелока под вакуумом. При этом растворный пар образуется за счет тепла самого щелока, температура которого понижается.
42969. Доходы и расходы организации 605.54 KB
  Новосибирск Проверил: преподаватель кафедры ЭУЗ Ершова Татьяна Валентиновна Новосибирск 2010 План курсовой работы: План курсовой работы Доходы организации общие положения Доходы от обычных видов деятельности Операционные доходы...
42970. Расчет оборудования для вакуум-кристаллизации галургического хлорида калия на БКПРУ-4 1.03 MB
  Количество испаренной воды в каждой ступени рассчитываем по уравнению теплового баланса где Gnколичество щелока поступающего в nую ступень ВКУ кг ч; Сщел теплоемкость щелока кДж кгС; tн tк перепад температур в nой ступени ВКУ С; rn удельная теплота парообразования на nой ступени ВКУ кДж кг. Сводная таблица материального баланса Состав Приход кг ч Расход кг ч KCl раствор 8455216 3578556 KCl твердый 487666 NCl раствор 7241179 7241179 NCl твердый H2O раствор 27354605 24168545 H2O испаренная ...
42971. Принципиальная схема высокоэффективного импульсного регулятора напряжения постоянного тока 1.34 MB
  Регуляторыстабилизаторы напряжения или других параметров электроэнергии в цепях постоянного тока выполняются преимущественно на основе полупроводниковых приборов. На выходное напряжение преобразователя электроэнергии влияют различные факторы: изменение входного напряжения и тока нагрузки температура окружающей среды и др. Поскольку они вызывают изменения выходного напряжения их в этом смысле называют возмущающими. Точность поддержания напряжения при воздействии различных возмущающих факторов характеризуется соответствующими параметрами...
42972. Разработка ремонтной мастерской с ремонтно-технологической документацией на ремонт узлов металлоконструкции автомобильного крана 1.23 MB
  Определение годового объема работ по ТО и Р ремонтной мастерской и распределение трудоемкости по видам работ 15 1. Определение суммарного объема работ по ТО и Р 15 1. Годовой объем работ по отдельным зонам ремонтной мастерской 16 1. Распределение трудоемкости ТО по видам работ 17 1.
42973. Проектирование консольно-фрезерного станка 155.12 KB
  Серийным называется такое производство, при котором изготовление изделий производится партиями или сериями, состоящими из одноименных, однотипных по конструкции и одинаковых по размерам изделий.