5217

Перетворення друкованих документів в електронну форму

Реферат

Информатика, кибернетика и программирование

Перетворення друкованих документів в електронну форму Способи подання інформації Основні різновиди природних даних, які здатний зберігати та обробляти комп'ютер, наступні: десяткові числа текст зображення звук. З м...

Украинкский

2012-12-04

31.47 KB

42 чел.

Перетворення друкованих документів в електронну форму

1. Способи подання інформації

Основні різновиди природних даних, які здатний зберігати та обробляти комп’ютер, наступні:

  1.  десяткові числа;
  2.  текст;
  3.  зображення;
  4.  звук.

З метою зберігання та обробки будь-які з цих даних попередньо мають бути представлені у вигляді двійкових чисел.

1.1. Способи подання десяткових чисел

Найпростішим способом можуть бути представлені цілі додатні десяткові числа. Розглянемо спосіб їх побудови.

Як відомо, ціле додатне десяткове число використовує 10 цифр від 0 до 9. Кожний його розряд має вагу, яка є степенем числа 10. Наприклад, будову 5-розрядного десяткового числа 38097 можна представити так:

Порядковий номер розряда

4

3

2

1

0

Вага розряда

104=10000

103=1000

102=100

101=10

100=1

Цифра розряда

3

8

0

9

7

Значення розряда

30000

8000

0

90

7

Сума значень розрядів дає значення числа тридцять вісім тисяч дев’яносто сім”.

По аналогії, ціле додатне двійкове число використовує дві цифри – нуль та одиницю. Кожний його розряд має вагу, яка є степенем двійки. Наприклад, будову 6-розрядного двійкового числа 101101 можна представити так:

Порядковий номер розряда

5

4

3

2

1

0

Вага розряда

25=32

24=16

23=8

22=4

21=2

20=1

Цифра розряда

1

0

1

1

0

1

Значення розряда

32

0

8

4

0

1

Сума значень розрядів двійкового числа 101101 дає значення його десяткового еквіваленту, тобто 1011012=32+8+4+1=4510.

1.2. Способи подання тексту

Будь-який текст складається із знаків. Ці знаки людина розрізняє за їх накресленням, і завдяки цьому може їх читати. Але комп’ютер розрізняти знаки тексту таким способом не здатний.

Тому для комп’ютерного подання використовується інший спосіб, а саме: кожний знак тексту позначають (кодують) певним числом. Саме в такому вигляді знаки і зберігаються, і обробляються. Але якщо виникає необхідність вивести текст на екран, то використовують спеціальні кодові таблиці, в яких кожному коду ставиться у відповідність зображення. І таким чином, на екран виводиться не код, а відповідне зображення знаку.

Будь-які кодові таблиці підпорядковані певним стандартам. Зокрема, тривалий час (з 1960-х років) в комп’ютерах використовувався розширений стандарт ASCII. У відповідності з цим стандартом для кодування кожного знаку потрібний 1 байт, тобто 8-розрядне двійкове число. Таким способом можна закодувати 256 знаків, коди яких мають значення від 0 до 255. Перші 128 знаків незмінні – це літери латинського алфавіту, цифри, розділові знаки, дужки тощо. Наступні 128 знаків – змінні і можуть належати різним національним алфавітам.

Код ASCII є 8-бітним (однобайтовим) і його основний недолік полягає в тому, що неможливо користуватись одночасно декількома мовами через малу кількість можливих кодів. Тому у 1993 році був розроблений новий 31-бітний стандарт кодування знаків Unicode. Кількість можливих кодів цього стандарту дуже велика і становить 231. На даний момент реальні потреби в кодах становлять менше 0,1% цього числа. Саме тому в сучасних комп’ютерах прийнято скорочену 16-бітову версію Unicode, в яку входять всі основні алфавіти світу.

1.3. Способи подання зображень

Для того, щоб неперервне зображення могло зберігатись та оброблятись в комп’ютері, воно попередньо має бути представлено у дискретній формі. Це означає, що все зображення розбивають на окремі невеликі елементи. При цьому вважається, що в межах кожного елементу зображення має один і той же колір. Такий спосіб подання зображення називається растровим. Елементи растру називаються пікселями. Вони надзвичайно малі і тому їх ототожнюють з точками.

В комп’ютерній графіці використовується прямокутний растр, в якому пікселі утворюють рядки та стовпчики прямокутної матриці. Кількість пікселів екрану називається його розподільчою здатністю і визначає якість зображення. Наприклад, розподільча здатність  1024х768 означає, що прямокутна матриця пікселів має 1024 стовпчики і 768 рядків.

Для позначення кольорів пікселів найчастіше використовується модель RGB. В цій моделі основними кольорами вважаються червоний (R), зелений (G) та синій (B). Суміш цих трьох кольорів з різною яскравістю дає можливість утворити будь-які інші кольори.

В залежності від обраної кількості рівнів яскравості кольорів розрізняють різні відеорежими. Наприклад, режим TrueColor передбачає, що кожний колір від найменшої до найбільшої своєї яскравості розбито на 256 рівнів. Таким чином, щоб указати номер рівня яскравості однієї кольорової складової, потрібний 1 байт, а всього для вказівки кольору точки потрібно 3 байти, що становить 24 розряди. Число 24 в даному прикладі називається глибиною кольоровості. Всього таким способом можна утворити 224=16777216 кольорів.

1.4. Способи подання звуку

Основні параметри звукових хвиль – частота та амплітуда коливань. Від частоти залежить тон звуку, а від амплітуди – сила звуку. З метою зберігання та обробки неперервного звуку у комп’ютері його необхідно попередньо представити у дискретній формі. Цей процес називається оцифровкою звуку.

Для оцифровки звуку значення його амплітуди записують через певні проміжки часу, що є дискретизацією звуку в часі. Кожне значення амплітуди указують наближено у вигляді певного рівня – це є квантуванням звуку. В цілому весь цей процес називають імпульсно-кодовою модуляцією. При цьому звук виявляється записаним у вигляді послідовності чисел, кожне з яких означає рівень амплітуди звуку в певний момент часу.          

2. Сканування та розпізнування документів

Перетворенням документу в електронну форму називається його автоматичне перенесення з паперового носія в пам’ять комп’ютера. При цьому може використовуватись або спосіб подання текстових даних, або спосіб подання зображень. За рахунок цього досягаються наступні цілі:

  1.  вдосконалення способу зберігання документу;
  2.  можливість передачі документу комп’ютерною мережею;
  3.  автоматизація перекладу документу на іншу мову;
  4.  спрощення створення копій документу;
  5.  можливість редагування документу.

Для перетворення документу в електронну форму слід виконати дві основні операції: сканування і розпізнування.

Внаслідок сканування створюється графічний образ паперового документу. Основний фізичний принцип сканування – документ освітлюється і відбите світло сприймається світлочутливими елементами. Кожний світлочутливий елемент утворює окрему точку у загальному зображенні документу. Таким чином утворюється растрове зображення документу.

Для сканування потрібний прилад, який називається сканером. Існують наступні різновиди сканерів:

1). Ручний сканер. Його переміщують вздовж документа вручну. Недоліки: потрібні декілька проходів, нерівномірний рух. Як наслідок – низька якість.

2). Листовий сканер. В процесі сканування паперовий документ протягується, як у принтері. Недолік: можна сканувати тільки окремі аркуші.

3). Планшетний сканер. При цьому документ кладуть під кришку, блок сканування переміщується автоматично.

Внаслідок розпізнування графічне подання документу перетворюється у текстове. Завдяки цьому значно зменшується обсяг даних. Сам документ при цьому стає доступним для автоматичного перекладу та редагування.

Для розпізнування використовується спеціальне програмне забезпечення. Найбільш популярною програмою на даний момент є програма FineReader розробки фірми ABBYY.

3. Робота з програмою FineReader

Програма FineReader є комплексною. Під її управлінням здійснюються чотири основні операції з перетворення друкованого документу в електронну форму:

  1.  сканування,
  2.  сегментування,
  3.  розпізнування,
  4.  перевірка.

В процесі сканування програма FineReader безпосередньо керує використовуваним сканером. Найбільш поширена схема управління сканером називається протоколом TWAIN32. Діалогове вікно управління процесом сканування залежить від типу сканера. В цьому вікні визначаються параметри сканування, зокрема область сканування, формат виведення, розподільча здатність тощо. Внаслідок сканування утворюється графічний образ документа.

Сегментація полягає у підготовці графічного образу до розпізнування. При цьому весь  графічний образ має бути розподілений на чотири види сегментів: текст, таблиця, зображення і штрих-код. Кожний з цих сегментів, за винятком зображень, розпізнається за своїм алгоритмом. Сегментація виконується у напівавтоматичному режимі. Це означає, що програма самостійно пропонує перший варіант сегментації, який надалі можна редагувати.

Процес розпізнування здійснюється автоматично і полягає у послідовному перегляді графічних образів та перетворенні їх у текстову форму подання. Попередньо має бути встановлена мова тексту. Слова тексту, які через дефекти документу розпізнати не вдалось, виділяються кольором.

В процесі перевірки аналізується правопис розпізнаного тексту. При цьому для слів, які не вдалось розпізнати однозначно пропонуються варіанти розпізнування.

Розпізнаний документ слід зберегти для того, щоб перенести його в інші програми з метою редагування (наприклад, у Word). Це пов’язано з тим, що документ практично ніколи не розпізнається ідеально і тому вимагає редагування.


 

А также другие работы, которые могут Вас заинтересовать

80379. ПРЕДМЕТ І МЕТОД ПОЛІТИЧНОЇ ЕКОНОМІЇ 136 KB
  Метою сьогоднішнього заняття є дослідити основні етапи розвитку та визначити предмет обєкт функції методи політекономії зясувати суть економічних категорій та законів а також визначити місце політичної економії в системі економічних наук. Політична економія як теоретикометодологічна база інших економічних наук. Oikonomi буквально мистецтво ведення домашнього господарства нині застосовують у чотирьох значеннях: народне господарство певної країни групи країн або всього світу; сфера господарської діяльності людини у якій...
80380. Виробництво матеріальних благ і послуг. Продукт і характер праці 138 KB
  Галузі виробництва. Основні фактори суспільного виробництва та їхній взаємозвязок. Соціальна і економічна ефективність виробництва. Метою сьогоднішнього заняття є дослідити процес суспільного виробництва фактори які впливають на процес виробництва; межу виробничих можливостей; продуктивні сили суспільства.
80381. ЕКОНОМІЧНІ ПОТРЕБИ ТА ЕКОНОМІЧНІ ІНТЕРЕСИ 157 KB
  Метою заняття є розкриття суті економічних потреб їх безмежності розгляд закону зростання потреб охарактеризувати корисність блага і суть економічних інтересів. План Економічні потреби суспільства їх сутність і класифікація. Безмежність потреб.
80382. Соціально-економічний устрій суспільства. Економічна система та закони її розвитку 165.5 KB
  Економічний зміст власності типи види форми. Економічний зміст та юридична форма власності. Типи види і форми власності. Наслідки процесів роздержавлення і приватизації власності в Україні.
80383. Правовий режим земель природно-заповідного фонду й іншого природоохоронного призначення 47.76 KB
  Землі природно-заповідного фонду — це ділянки суші і водного простору з природними комплексами та обєктами, що мають особливу природоохоронну, екологічну, наукову, естетичну, рекреаційну та іншу цінність, яким відповідно до закону надано статус територій
80384. Правовий режим земель оздоровчого та рекреаційного призначення 45.55 KB
  До земель оздоровчого призначення належать землі, що мають природні лікувальні властивості, що їх використовують або Вони можуть використовуватися для профілактики захворювань і лікування людей. Лікувально-оздоровчі властивості мають не самі землі
80385. Правовий режим земель історико-культурного призначення 50.46 KB
  емлі історико-культурного призначення можуть перебувати у державній, комунальній та приватній власності. При цьому Закон України «Про охорону культурної спадщини» передбачає особливості здійснення права власності на такі землі залежно
80386. Правове регулювання використання та охорони земель промисловості, транспорту, зв’язку, енергетики, оборони та іншого призначення 67.28 KB
  Правовий режим всіх видів (підкатегорій) зазначених земель базується на єдиних принципах: загальнодержавного та суспільного значення категорії земель, до складу якої вони входять; спеціальних завдань використання таких земель.
80387. Предмет, принципи і система земельного права 57.87 KB
  Цією лекцією з теми «Предмет, принципи і система земельного права » ми розпочинаємо вивчення навчальної дисципліни « Земельне право». Змістом цієї лекції є загальнотеоретичні положення галузі земельного права.