17132

Обробка текстової інформації. Етапи обробки

Лекция

Информатика, кибернетика и программирование

Лекція №8 Тема: Обробка текстової інформації. Етапи обробки. План Задачі обробки текстової інформації. Типи шрифтів. Формати текстових документів. Задачі обробки текстової інформації Виділимо декілька етапів обробки документів: введення тек

Украинкский

2013-06-29

75.5 KB

15 чел.

Лекція №8

Тема: Обробка текстової інформації. Етапи обробки.

План

  1.  Задачі обробки текстової інформації.
  2.  Типи шрифтів.
  3.  Формати текстових документів.

Задачі обробки текстової інформації

Виділимо декілька етапів обробки документів:

введення тексту;

редагування;

збереження документа;

публікація;

пошук і відкриття створеного документа;

переклад.

Введення тексту

На даному етапі розвитку наукової і технічної думки введення тексту може здійснюватися декількома різними способами:

набором тексту за допомогою клавіатури;

перекладом паперових документів в електронну форму;

голосовим введенням;

рукописним введенням.

Набір тексту за допомогою клавіатури. Цей спосіб в даний час є найпоширенішим. Він є, як правило, досить простим технологічно процесом, якщо, звичайно, не прагнути відразу додати документу остаточно оформлений вигляд, а зайнятися цим при редагуванні. Але у будь-якому випадку, залежно від побажань замовника і виду подальшої публікації складач повинен правильно вибрати шрифт, який він використовуватиме при наборі. Тому, кажучи про набір тексту, перш за все поговоримо про шрифти.

Шрифти в сучасному розумінні з'явилися результатом багатовікових розробок. Сучасне книгодрукування почало розвиватися приблизно з XV століття. У XV—XVI століттях багато художників займалися розробкою шрифтів. Вже у той час шрифти придбали цілком закінчений сучасний вигляд. Деякі шрифти того часу застосовуються дотепер. Прикладом може служити шрифт Клода Гарамона, на основі якого створена оцифрована і русифікована версія шрифту ITC Garamond.

Останнім часом для виготовлення шрифтів і представлення документів стали використовуватися комп'ютери. Першими по-справжньому комп'ютерними шрифтами можна рахувати векторні і растрові (або матричні) шрифти. Вони розрізняються за способом опису символів. Символи векторних шрифтів задаються у вигляді набору векторів, що визначають переміщення пір'я графічного пристрою по паперу або електронного променя в трубці векторного дисплея. Ці шрифти мали обмежений круг застосування, пов'язаний з вивідними пристроями векторного типу.

Растрові шрифти призначені, в основному, для висновку на екран і на досить-таки застарілі растрові пристрої, до яких відносяться, наприклад, матричні принтери. Для друку за допомогою лазерних принтерів або для електронних публікацій їх не застосовують з тієї простої причини, що, по-перше, на різних екранах вони виглядатимуть по-різному, по-друге, якість друку і електронний вид документа, як правило, залишають бажати багато кращого. Символи растрових шрифтів задаються як комбінації крапок в матриці заданого розміру (у растрі), що обумовлює ряд недоліків, і головний з них — непристосованість до трансформацій, таким як масштабування, поворот, нахил. Розміри растрових шрифтів можуть мати лише ряд фіксованих значень, оскільки вони визначаються розмірами матриці (растру), на базі якої побудовані символи. Зміна розміру або зображення шрифту відбувається шляхом заміни одного растру на іншій. З другого боку, перевагою растрових шрифтів може бути названо те, що для них програмна процедура висновку на друк є простішою і швидшою.

Контурні шрифти виявляють собою спробу зробити максимально зручні для користувачів шрифти на основі і ідеології векторних. У принципі, в літературі їх часто не розрізняють через принципово однакову організацію опису символів. Відмінність лише у тому, що тут символи задаються у вигляді набору відрізків і гладких кривих, що мають точний математичний опис. У контура набагато більше можливості для трансформацій, він легко масштабується.

Для висновку символів на растровий пристрій необхідна спеціальна програма — растерізатор. Зараз контурні шрифти застосовуються найбільш ширше, хоча і підтримуються не всіма платформами. Зручність їх у тому, що застосування їх при підготовці документів дозволяє більш менш реалізувати принцип WYSIWYG (What You See Is What You Get — «To, що ти бачиш, є те, що ти одержиш»). Це принцип одноманітного виду документа при наборі в даний момент і при будь-якій подальшій публікації.

Широке поширення контурні шрифти набули після 1985 р., коли фірма Adobe — визнаний світовий лідер у області виробництва програмного забезпечення для видавничої діяльності — випустила шрифти стандарту PostScript Type 1 разом з мовою опису сторінок PostScript. Інший поширений зараз стандарт контурних шрифтів — це TrueType, сумісна розробка фірм Apple і Microsoft. Шрифти TrueType можуть підтримувати до 65535 (216-1) символів. Основна відмінність їх від шрифтів Турe 1 у тому, що Adobe поклала в основу побудови контура криві третього порядку, а не другого. А якщо бути точнішим, то так звані криві Безье, що є, в певному значенні, спрощенням і удосконаленням кривих третього порядку.

З одного боку, це забезпечує шрифтам Турe 1 ряд переваг:

символи шрифтів Турe 1 є гладшими із за відсутність зламів в точках сполучення фрагментів;

для завдання контура з тим же або вищою якістю потрібна менша кількість крапок, що зменшує кількість інформації, що зберігається і передаваної.

З другого боку, оскільки нас як користувачів цікавить, в основному, операційна система Windows і відповідні їй платформи, то в цьому середовищі основними є шрифти стандарту TrueType, оскільки вони не потребують спеціальних перетворювачів і можуть застосовуватися в більшості додатків. На основі стандартів TrueType і Турe 1 різні фірми створюють конкретні види шрифтів.

Здійснювати настройку шрифтів, що йдуть в комплектації з OS Windows, можна таким чином: у головному меню Windows через Start (Пуск) виберіть команду Settings (Настройки) > Control Panel (Панель управління) і у вікні, що з'явилося, клацніть подвійним клацанням лівої кнопки миші на значку Fonts (Шрифти). У вікні списку шрифтів, з якого ви можете вибирати найбільш відповідні для роботи. У міру того, як ви вибираєте який-небудь з шрифтів, вам автоматично пропонується подивитися, як він виглядає на екрані, залежно від розміру. Ви можете ознайомитися з тим, як виглядають друкарські і прописні букви, цифри, розділові знаки, набираючі з використанням цього шрифту, а також взяти до уваги характеристики шрифту і те, до якого стандарту він відноситься. Ця інформація також може стати в нагоді для прогнозу можливої «поведінки» даного шрифту в рамках публікації, що готується. Її можна використовувати також при розробці власного, авторського шрифту. Проте на практиці до цього вдаються украй рідко, тим більше що набір шрифтів, що входять в стандартну комплектацію, достатньо широкий і різноманітний.

Взагалі кажучи, виробництво красивих і функціональних шрифтів — заняття досить трудомістке, творче і не дешеве. Контур символів — це ще не все. З одного набору контурів можна побудувати різні за якістю шрифти. Є маса параметрів, таких як кернінг, трекинг, хинти і т. п., про існування яких звичайний використовуючий шрифт людина навіть і не здогадується, але саме вони дозволяють набраному тексту виглядати рівно і красиво. В світі існує лише декілька фірм, що займаються цим видом діяльності, в Росії — одна. Останнім часом стало модним створення ексклюзивних шрифтів, під конкретного замовника. Деякі фірми — FontShop (Німеччина), «Параграф» (Росія), Signature Software (США) і ін. — пропонують своїм клієнтам послуги із створення персональних рукописних шрифтів. Звичайно клієнту пропонується бланк, на якому він пише як окремі букви, так і цілі фрази. Потім ці зображення скануються, вводяться в комп'ютер і з використанням професійних шрифтових програм перетворяться в комп'ютерний шрифт. Процес дорогий і трудомісткий, так що власний шрифт не кожному по кишені.

Редагування

Ми розумітимемо під редагуванням зміну набраного тексту і додання йому належного вигляду, будь то просте видалення помилкових символів, вставка текстових масивів або так зване форматування, пов'язане в основному із зміною параметрів шрифту і абзаців. Говорити про роботу з текстом безвідносно конкретного текстового процесора вельми нераціонально, тому розглянемо конкретні прийоми і засоби редагування стосовно Microsoft Word 2000 як додатку цікавить нас Microsoft Office 2000.

Збереження документа

Збереження в одному з багатоманітних існуючих форматів є завершальною стадією основної роботи по підготовці текстового документа.

Це обов'язковий і вельми відповідальний крок, не дивлячись на всю його уявну тривіальність. По-перше, тому що, мабуть, безглуздо виконувати яку-небудь роботу, не поклопотавшися про збереження результату. По-друге, тому що вибір формату документа, що зберігається, залежить від того, де і як ми збираємося далі з ним працювати. Насправді, найбільші проблеми виникають при відкритті документа, особливо на іншій платформі: раптом виявляється, що пропало все форматування, зникли малюнки, текст нечитаний і т.д. Для того, щоб максимально забезпечити себе або ділового партнера, від можливих неладів, і прагнуть зберігати документ в найбільш відповідному форматі. Тут все не так просто і очевидно, оскільки, по-перше, може виникнути необхідність роботи з ним в інших додатках, не в тих, які передбачалися спочатку. По-друге, різними текстовими процесорами підтримуються різні формати, і не завжди вони сумісні. У таких випадках необхідні конвертери з одного формату в іншій. Так, наприклад, в MS Word передбачені вбудовані конвертери в свій внутрішній формат DOC, які ми можемо підключити при інсталяції. Тоді при завершенні роботи з документом Word пропонує різні розширення для його збереження .

Та все ж загальне уявлення про існуючі формати текстових документів мати треба, тому, не заглиблюючись у все їх різноманіття і внутрішню структуру, опишемо основні особливості форматів, що найчастіше вживаються.

ASCII

Найзаслуженіший і давно існуючий формат — ASCII (American Standard Code for Information Interchange — американський стандартний код для обміну інформацією). Він має найпростішу організацію: наприклад, в англійському алфавіті (втім, як і в російському) одній букві відповідає один байт.

Щоб зрозуміти, чому поява в 1963 році коду ASCII зіграла таку значну роль, потрібно мати на увазі, що до цього різні комп'ютери попросту не могли взаємодіяти один з одним. Кожен виробник намагався по-своєму представити символи алфавіту, цифри і управляючі коди.

Код ASCII став спільним знаменником для комп'ютерів, які раніше не мали один з одним нічого спільного. Всім буквам, цифрам, розділовим знакам і іншим символам (управляючим кодам) були поставлені у відповідність стандартні числові значення. Наприклад, заголовна буква «А» позначалася числом 65.

Проте 60-е ще не відрізнялися високим рівнем стандартизації. У одних тільки апаратних засобах корпорації IBM використовувалося дев'ять різних наборів кодування символів.

Тим часом взаємодія між комп'ютерами стала настійною необхідністю. У 1961 році майбутній винахідник ASCII прийняв пропозицію представників Американського національного інституту стандартів (ANSI). Очолюваний віце-президентом компанії Teletype Джоном Аувертером комітет ANSI X3.4, в якому була представлена велика частина виробників комп'ютерів, приступив до роботи. Комітету знадобилося понад два роки, щоб проаналізувати позиції всіх сторін, знайти компроміс і завершити розробку універсального коду.

Сьогодні на основі коду ASCII випускається устаткування вартістю в мільярди доларів, більшість операційних систем також дотепер сумісна з ASCII. Причому в різних операційних системах (ОС) здійснена дещо різна реалізація цього формату. Цікавий приклад — кодування Перекладу рядка (ПС): у ОС сімейства UNIX це просто (ПС), в ОС MS-DOS і Windows — (ПС)+(ВК). В результаті можна спостерігати цікаву картину: створений під UNIX текст, що збережений у форматі ASCII, відкривається, наприклад, в Windows Notepad (через Start (Пуск), виберіть команду Programs > Accessories > Notepad (Програми > Стандартні > Блокнот)) або в іншому простому текстовому редакторі, весь виявиться склеєним в один рядок.

Проте, код ASCII залишився однією з небагатьох технологій, якій вдалося успішно пройти крізь десятиліття і дожити до наших днів.

RTF

RTF (Rich Text Format) — формат обміну документів між текстовими процесорами. Він був розроблений Microsoft в 1986 році і з тих пір існує, в певному значенні, паралель іншим. Поява його з'явилася черговою віхою в розробці засобів збереження і передачі тексту. Головна його гідність у тому, що його внутрішня організація передбачає передачу всіх елементів форматування: розміру і параметрів шрифту, параметрів абзаців і т.д. Він дуже добре специфікований, описаний документально, досить просто і строго організований і добре розпізнаваний практично всіма офісними додатками.

DOC

Мабуть, формат, що цікавить нас, — це формат DOC, який є, по суті, внутрішнім форматом MS Word. Необхідно враховувати, що MS Word 2000 і MS Word 97 повністю сумісні по формату, але раніші версії — ні, тому при збереженні документа, навіть якщо ми збираємося надалі працювати з ним виключно в MS Word, потрібно звернути особливу увагу на його версію. При збереженні документа в текстовому процесорі MS Word він пропонує за умовчанням саме формат DOC. Як правило, має сенс прийняти цю пропозицію, якщо, звичайно, немає яких-небудь особливих ідей щодо подальшої публікації або перенесення файлу в інші додатки.

HTML

Останній формат збереження текстових документів, про яке буде згадано тут, — формат HTML (Hypertext Markup Language). HTML — універсальна мова розмітки гіпертексту, вживаний в Інтернеті для розробки Web- сторінок. Основні характеристики його будуть описані на чолі 11, присвяченої глобальним обчислювальним мережам. Відзначимо лише, що для Word 2000 формат HTML є внутрішнім, рівноправним з відвічно «рідним» форматом DOC.

Публікація

Створивши і зберігши документ, ми виявляємося перед проблемою його публікації. Публікація документа є, в певному значенні, його візитною карткою. Це представлення документа в його остаточному, готовому вигляді. Залежно від типу представлення документа умовно виділимо три види публікації.

друк документа;

електронна публікація;

Web-документи.

Тут домовимося поки не виділяти публікацію Web-документів окремим пунктом, а включимо її в обговорення проблеми електронної публікації в контексті електронних книг.

Друк документа — це створення його твердої копії на папері або прозорих плівках. Необхідність створення друкарського виду документа виникає через низку обставин: для оформлення рекламних буклетів фірми, підготовки економічної документації, різних наукових праць, підручників, художньої літератури і ін. Друк здійснюється за допомогою принтерів, які є зовнішніми пристроями для комп'ютера і підключаються до нього через один з існуючих на даний момент інтерфейсів або під'єднуються безпосередньо в мережу, будучи самостійною одиницею в ній. Безпосереднє підключення може вироблятися в тому випадку, якщо принтер дуже могутній і високопродуктивний і призначений для роботи в корпоративній мережі. Інакше необхідне під'єднування його до комп'ютера. Найчастіше зараз підключення виробляється через паралельний порт CENTRONIX, інтерфейси USB, IrDA, BlueTooth. Залишимо технічну сторону справи і відзначимо лише, що істотною відмінністю перших двох інтерфейсів є те, що їх використовування припускає обов'язкову наявність фізичних елементів з'єднання комп'ютера з принтером, тоді як інші дозволяють роздруковувати текст з комп'ютера, просто піднісши його до принтера на достатньо близьку відстань.

Електронна публікація. Розумітимемо під електронною публікацією остаточне представлення документа в електронному вигляді з можливістю перенесення його в тому ж вигляді іншим користувачам і читання з екрану незалежно від способу перенесення. Ми можемо відправити створений документ іншому користувачу або замовнику різними способами:

по електронній пошті, якщо у нього є свій e-mail;

викласти його в Інтернет як Web-сторінку;

на гнучких носіях, наприклад на дискеті.

Література:

Симонович С.В. Информатика. Базовый курс, Харьков, 2001 – 640 с. [6], 249-278

Контрольні запитання:

  1.  Дайте коротку характеристику етапам обробки текстових документів.
  2.  Види публікацій.


 

А также другие работы, которые могут Вас заинтересовать

42879. Создания простейшей экспертной системы 69.17 KB
  Если реакция системы не понятна пользователю то он может потребовать объяснения: CLIPS Первоначально аббревиатура CLIPS была названием языка С Lnguge Integrted Production System язык С интегрированный с продукционными системами удобного для разработки баз знаний и макетов экспертных систем. Теперь CLIPS представляет собой современный инструмент предназначенный для создания экспертных систем expert system tool. CLIPS состоит из интерактивной среды экспертной оболочки со своим способом представления знаний гибкого и мощного...
42880. Состояния международного туризма на современном этапе 84.24 KB
  Туризм – явление, известное каждому. Во все времена нашу планету пересекали многочисленные путешественники и первопроходцы. Но лишь недавно туризм возник как специфическая форма деятельности людей. Каждый из нас представляет себе туризм как отрасль, более или менее известную, поскольку все мы куда-то ездили и проводили отпуска вдали от дома. Туризм - сравнительно молодой феномен, имеющий, однако, корни, уходящие в древние времена.
42881. Поняття туризму. Класифікація, види і форми туризму 59.48 KB
  Термін туризм (tourism) першим вжив В. Жекмо в 1830 р. Слово «туризм» походить від французького «tour», що означає «прогулянка». До недавнього часу в різних країнах поняття «туризм», «турист» розумілися неоднаково. З розвитком туризму в сучасному світі, особливо міжнародного і з створенням міжнародних туристичних організацій, стало необхідним дати загальноприйняте визначення поняття «турист» і відповідно «туризм».
42882. SMS-Flooder 284.94 KB
  При атаках автоматизированных систем достаточно сложно определить предсказать уровень ущерба и риска который они могут предоставить. На основе вышеизложенного рассмотрим момент риска по формуле: Отсюда среднее значение ущерба для кривой риска будет равно Далее получим центральный момент риска: Откуда мы можем выразить второй центральный момент риска: Тогда среднеквадратичное отклонение будет иметь вид: Также оно может быть найдено относительно моды риска . Она может выражаться через решение следующего уравнения: Чтобы оценить ассиметрию...
42883. Химическая металлизация печатных плат 1.32 MB
  И так как вытравливается только этот минимальный слой около 3 мкм то величина подтравов минимальна до 2 мкм что позволяет воспроизводить проводники малой ширины. Поэтому в методе необходимо применять фоторезист толщиной около 30 мкм. Затяжкой Тентинг метод с общей металлизацией поверхности заготовки Слои 1 2 3 4 5 18 мкм 18 мкм 18 мкм Фольга 3 мкм 6 мкм 35 мкм Общая металлизация поверхности 30 мкм 40 мкм 40 мкм 50 мкм Фоторезист 25 мкм 35 мкм 35 мкм Металлизация рисунка 15 мкм 15 мкм Металлорезист 3 мкм 18 мкм 24 мкм 53 мкм Глубина...
42884. Разработка программы для построения графика временной функции в реальном и машинном времени 439 KB
  Создание MS-DOS QuickBASIC (сокращенное обозначение – QB) в середине 80-х годов произвело настоящую революцию в мире BASIC, результатом которой было то, что впервые этот язык занял достаточно прочные позиции среди средств разработки серьезных прикладных систем. В QuickBASIC в достаточно полной мере реализованы идеи структурного и модульного программирования, возможности использования процедур и функций.
42885. Разработка обучающей программы по планированию перемещения артиллерии при заданных рубежах: готовности; начала перемещения; выхода в атаку 247.06 KB
  После запуска следует выбрать какие рубежи заданы Для примера в варианте расчета при заданном рубеже начала перемещения дана схема отображающая перемещения войск в зависимости от введенных данных.
42886. Поиск и индексация в Web. Интернет-каталоги 1004 KB
  Помимо глобального поиска в пространстве Интернет существует также проблема локального поиска, т.е. поиска в пределах одного сайта или портала. Существуют готовые решения, однако для поиска внутри сайта иногда требуется более точная настройка и свои, индивидуальные, алгоритмы, которые будут осуществлять более точный и быстрый поиск по тем данным, с которыми работает сайт. Одним из главных недостатком стандартных решений от Google или Яндекс, например, также является низкая скорость обновления информации о страницах, т.е. индексации.