5217

Перетворення друкованих документів в електронну форму

Реферат

Информатика, кибернетика и программирование

Перетворення друкованих документів в електронну форму Способи подання інформації Основні різновиди природних даних, які здатний зберігати та обробляти комп'ютер, наступні: десяткові числа текст зображення звук. З м...

Украинкский

2012-12-04

31.47 KB

40 чел.

Перетворення друкованих документів в електронну форму

1. Способи подання інформації

Основні різновиди природних даних, які здатний зберігати та обробляти комп’ютер, наступні:

  1.  десяткові числа;
  2.  текст;
  3.  зображення;
  4.  звук.

З метою зберігання та обробки будь-які з цих даних попередньо мають бути представлені у вигляді двійкових чисел.

1.1. Способи подання десяткових чисел

Найпростішим способом можуть бути представлені цілі додатні десяткові числа. Розглянемо спосіб їх побудови.

Як відомо, ціле додатне десяткове число використовує 10 цифр від 0 до 9. Кожний його розряд має вагу, яка є степенем числа 10. Наприклад, будову 5-розрядного десяткового числа 38097 можна представити так:

Порядковий номер розряда

4

3

2

1

0

Вага розряда

104=10000

103=1000

102=100

101=10

100=1

Цифра розряда

3

8

0

9

7

Значення розряда

30000

8000

0

90

7

Сума значень розрядів дає значення числа тридцять вісім тисяч дев’яносто сім”.

По аналогії, ціле додатне двійкове число використовує дві цифри – нуль та одиницю. Кожний його розряд має вагу, яка є степенем двійки. Наприклад, будову 6-розрядного двійкового числа 101101 можна представити так:

Порядковий номер розряда

5

4

3

2

1

0

Вага розряда

25=32

24=16

23=8

22=4

21=2

20=1

Цифра розряда

1

0

1

1

0

1

Значення розряда

32

0

8

4

0

1

Сума значень розрядів двійкового числа 101101 дає значення його десяткового еквіваленту, тобто 1011012=32+8+4+1=4510.

1.2. Способи подання тексту

Будь-який текст складається із знаків. Ці знаки людина розрізняє за їх накресленням, і завдяки цьому може їх читати. Але комп’ютер розрізняти знаки тексту таким способом не здатний.

Тому для комп’ютерного подання використовується інший спосіб, а саме: кожний знак тексту позначають (кодують) певним числом. Саме в такому вигляді знаки і зберігаються, і обробляються. Але якщо виникає необхідність вивести текст на екран, то використовують спеціальні кодові таблиці, в яких кожному коду ставиться у відповідність зображення. І таким чином, на екран виводиться не код, а відповідне зображення знаку.

Будь-які кодові таблиці підпорядковані певним стандартам. Зокрема, тривалий час (з 1960-х років) в комп’ютерах використовувався розширений стандарт ASCII. У відповідності з цим стандартом для кодування кожного знаку потрібний 1 байт, тобто 8-розрядне двійкове число. Таким способом можна закодувати 256 знаків, коди яких мають значення від 0 до 255. Перші 128 знаків незмінні – це літери латинського алфавіту, цифри, розділові знаки, дужки тощо. Наступні 128 знаків – змінні і можуть належати різним національним алфавітам.

Код ASCII є 8-бітним (однобайтовим) і його основний недолік полягає в тому, що неможливо користуватись одночасно декількома мовами через малу кількість можливих кодів. Тому у 1993 році був розроблений новий 31-бітний стандарт кодування знаків Unicode. Кількість можливих кодів цього стандарту дуже велика і становить 231. На даний момент реальні потреби в кодах становлять менше 0,1% цього числа. Саме тому в сучасних комп’ютерах прийнято скорочену 16-бітову версію Unicode, в яку входять всі основні алфавіти світу.

1.3. Способи подання зображень

Для того, щоб неперервне зображення могло зберігатись та оброблятись в комп’ютері, воно попередньо має бути представлено у дискретній формі. Це означає, що все зображення розбивають на окремі невеликі елементи. При цьому вважається, що в межах кожного елементу зображення має один і той же колір. Такий спосіб подання зображення називається растровим. Елементи растру називаються пікселями. Вони надзвичайно малі і тому їх ототожнюють з точками.

В комп’ютерній графіці використовується прямокутний растр, в якому пікселі утворюють рядки та стовпчики прямокутної матриці. Кількість пікселів екрану називається його розподільчою здатністю і визначає якість зображення. Наприклад, розподільча здатність  1024х768 означає, що прямокутна матриця пікселів має 1024 стовпчики і 768 рядків.

Для позначення кольорів пікселів найчастіше використовується модель RGB. В цій моделі основними кольорами вважаються червоний (R), зелений (G) та синій (B). Суміш цих трьох кольорів з різною яскравістю дає можливість утворити будь-які інші кольори.

В залежності від обраної кількості рівнів яскравості кольорів розрізняють різні відеорежими. Наприклад, режим TrueColor передбачає, що кожний колір від найменшої до найбільшої своєї яскравості розбито на 256 рівнів. Таким чином, щоб указати номер рівня яскравості однієї кольорової складової, потрібний 1 байт, а всього для вказівки кольору точки потрібно 3 байти, що становить 24 розряди. Число 24 в даному прикладі називається глибиною кольоровості. Всього таким способом можна утворити 224=16777216 кольорів.

1.4. Способи подання звуку

Основні параметри звукових хвиль – частота та амплітуда коливань. Від частоти залежить тон звуку, а від амплітуди – сила звуку. З метою зберігання та обробки неперервного звуку у комп’ютері його необхідно попередньо представити у дискретній формі. Цей процес називається оцифровкою звуку.

Для оцифровки звуку значення його амплітуди записують через певні проміжки часу, що є дискретизацією звуку в часі. Кожне значення амплітуди указують наближено у вигляді певного рівня – це є квантуванням звуку. В цілому весь цей процес називають імпульсно-кодовою модуляцією. При цьому звук виявляється записаним у вигляді послідовності чисел, кожне з яких означає рівень амплітуди звуку в певний момент часу.          

2. Сканування та розпізнування документів

Перетворенням документу в електронну форму називається його автоматичне перенесення з паперового носія в пам’ять комп’ютера. При цьому може використовуватись або спосіб подання текстових даних, або спосіб подання зображень. За рахунок цього досягаються наступні цілі:

  1.  вдосконалення способу зберігання документу;
  2.  можливість передачі документу комп’ютерною мережею;
  3.  автоматизація перекладу документу на іншу мову;
  4.  спрощення створення копій документу;
  5.  можливість редагування документу.

Для перетворення документу в електронну форму слід виконати дві основні операції: сканування і розпізнування.

Внаслідок сканування створюється графічний образ паперового документу. Основний фізичний принцип сканування – документ освітлюється і відбите світло сприймається світлочутливими елементами. Кожний світлочутливий елемент утворює окрему точку у загальному зображенні документу. Таким чином утворюється растрове зображення документу.

Для сканування потрібний прилад, який називається сканером. Існують наступні різновиди сканерів:

1). Ручний сканер. Його переміщують вздовж документа вручну. Недоліки: потрібні декілька проходів, нерівномірний рух. Як наслідок – низька якість.

2). Листовий сканер. В процесі сканування паперовий документ протягується, як у принтері. Недолік: можна сканувати тільки окремі аркуші.

3). Планшетний сканер. При цьому документ кладуть під кришку, блок сканування переміщується автоматично.

Внаслідок розпізнування графічне подання документу перетворюється у текстове. Завдяки цьому значно зменшується обсяг даних. Сам документ при цьому стає доступним для автоматичного перекладу та редагування.

Для розпізнування використовується спеціальне програмне забезпечення. Найбільш популярною програмою на даний момент є програма FineReader розробки фірми ABBYY.

3. Робота з програмою FineReader

Програма FineReader є комплексною. Під її управлінням здійснюються чотири основні операції з перетворення друкованого документу в електронну форму:

  1.  сканування,
  2.  сегментування,
  3.  розпізнування,
  4.  перевірка.

В процесі сканування програма FineReader безпосередньо керує використовуваним сканером. Найбільш поширена схема управління сканером називається протоколом TWAIN32. Діалогове вікно управління процесом сканування залежить від типу сканера. В цьому вікні визначаються параметри сканування, зокрема область сканування, формат виведення, розподільча здатність тощо. Внаслідок сканування утворюється графічний образ документа.

Сегментація полягає у підготовці графічного образу до розпізнування. При цьому весь  графічний образ має бути розподілений на чотири види сегментів: текст, таблиця, зображення і штрих-код. Кожний з цих сегментів, за винятком зображень, розпізнається за своїм алгоритмом. Сегментація виконується у напівавтоматичному режимі. Це означає, що програма самостійно пропонує перший варіант сегментації, який надалі можна редагувати.

Процес розпізнування здійснюється автоматично і полягає у послідовному перегляді графічних образів та перетворенні їх у текстову форму подання. Попередньо має бути встановлена мова тексту. Слова тексту, які через дефекти документу розпізнати не вдалось, виділяються кольором.

В процесі перевірки аналізується правопис розпізнаного тексту. При цьому для слів, які не вдалось розпізнати однозначно пропонуються варіанти розпізнування.

Розпізнаний документ слід зберегти для того, щоб перенести його в інші програми з метою редагування (наприклад, у Word). Це пов’язано з тим, що документ практично ніколи не розпізнається ідеально і тому вимагає редагування.


 

А также другие работы, которые могут Вас заинтересовать

14231. Музыкальная ритмика 21.05 KB
  Музыкальная ритмика представлена в качестве приема работы по формированию и коррекции произносительной стороны речи слабослышащих детей. Цели которые определяют основные направления в занятиях по музыкальной ритмике заключаются в том чтобы: соединить работу
14232. Музыкальное искусство средневековья 23.73 KB
  Музыкальное искусство средневековья. Урсу Полина ДВЭ2 Средневековье – большая эпоха человеческой истории время господства феодального строя. Периодизация культуры: Раннее Средневековье – V X вв. Зрелое Средневековье – XI – XIV вв. В 395 г. Римская империя расп
14233. Музыкальный и литературный ряд на уроках изобразительного искусства 17.87 KB
  Конспект занятия по Методике преподавания изобразительного искусства в школе. Тема: Музыкальный и литературный ряд на уроках изобразительного искусства. Задачи: Знакомство с основными целями и задачами использования музыкального и литературного ряда на уроках ...
14234. Музыкальный импрессионизм и творчество Дебюсси 15.43 KB
  Музыкальный импрессионизм и творчество Дебюсси 1 Дебюсси вывел франц. музыку в лидеры Париж музыкальный центр. 2 Дебюсси основоположник антиромантизма отсутствие тем исповедальности борьбы одинокого героя отсутствие автобиографичности 3 Дебюсси первы...
14235. Музыкальный стиль 37.71 KB
  Музыкальный стиль Содержание Введение Становление понятия стильного исполнения Исполнительский стиль Пианист ХХI века: к новой духовности исполнителя Заключение Список литературы Введение Музыкальный стиль понимаемый в виде истор...
14236. Музыкальные хиты Сербии и Хорватии: зеркало мировоззрений двух наций 164 KB
  Музыкальные хиты Сербии и Хорватии: зеркало мировоззрений двух наций В пору бытности частями Югославии Сербия и Хорватия были самыми крупными и культурно значимыми странами на Балканском полуострове в которых национальная культура формировалась столетиями. Совреме...
14237. Экономико-географическая характеристика Центральной металлургической базы 76 KB
  Тема № 8 Экономикогеографическая характеристика Центральной металлургической базы. Содержание: Введение Экономикогеографическая характеристика Центральной металлургической базы. Основная характеристика и центры Курский территориальнопроизводс
14239. Народная песня в творчестве русских композиторов-классиков 25 KB
  1 Народная песня в творчестве русских композиторовклассиков Первые сборники народных песен появились в 18 веке. Это были сборники Трутовского Льва и Прача для домашнего музицирования. Они были обработаны на западный манер. Народная песня была очень ра