17132

Обробка текстової інформації. Етапи обробки

Лекция

Информатика, кибернетика и программирование

Лекція №8 Тема: Обробка текстової інформації. Етапи обробки. План Задачі обробки текстової інформації. Типи шрифтів. Формати текстових документів. Задачі обробки текстової інформації Виділимо декілька етапів обробки документів: введення тек

Украинкский

2013-06-29

75.5 KB

15 чел.

Лекція №8

Тема: Обробка текстової інформації. Етапи обробки.

План

  1.  Задачі обробки текстової інформації.
  2.  Типи шрифтів.
  3.  Формати текстових документів.

Задачі обробки текстової інформації

Виділимо декілька етапів обробки документів:

введення тексту;

редагування;

збереження документа;

публікація;

пошук і відкриття створеного документа;

переклад.

Введення тексту

На даному етапі розвитку наукової і технічної думки введення тексту може здійснюватися декількома різними способами:

набором тексту за допомогою клавіатури;

перекладом паперових документів в електронну форму;

голосовим введенням;

рукописним введенням.

Набір тексту за допомогою клавіатури. Цей спосіб в даний час є найпоширенішим. Він є, як правило, досить простим технологічно процесом, якщо, звичайно, не прагнути відразу додати документу остаточно оформлений вигляд, а зайнятися цим при редагуванні. Але у будь-якому випадку, залежно від побажань замовника і виду подальшої публікації складач повинен правильно вибрати шрифт, який він використовуватиме при наборі. Тому, кажучи про набір тексту, перш за все поговоримо про шрифти.

Шрифти в сучасному розумінні з'явилися результатом багатовікових розробок. Сучасне книгодрукування почало розвиватися приблизно з XV століття. У XV—XVI століттях багато художників займалися розробкою шрифтів. Вже у той час шрифти придбали цілком закінчений сучасний вигляд. Деякі шрифти того часу застосовуються дотепер. Прикладом може служити шрифт Клода Гарамона, на основі якого створена оцифрована і русифікована версія шрифту ITC Garamond.

Останнім часом для виготовлення шрифтів і представлення документів стали використовуватися комп'ютери. Першими по-справжньому комп'ютерними шрифтами можна рахувати векторні і растрові (або матричні) шрифти. Вони розрізняються за способом опису символів. Символи векторних шрифтів задаються у вигляді набору векторів, що визначають переміщення пір'я графічного пристрою по паперу або електронного променя в трубці векторного дисплея. Ці шрифти мали обмежений круг застосування, пов'язаний з вивідними пристроями векторного типу.

Растрові шрифти призначені, в основному, для висновку на екран і на досить-таки застарілі растрові пристрої, до яких відносяться, наприклад, матричні принтери. Для друку за допомогою лазерних принтерів або для електронних публікацій їх не застосовують з тієї простої причини, що, по-перше, на різних екранах вони виглядатимуть по-різному, по-друге, якість друку і електронний вид документа, як правило, залишають бажати багато кращого. Символи растрових шрифтів задаються як комбінації крапок в матриці заданого розміру (у растрі), що обумовлює ряд недоліків, і головний з них — непристосованість до трансформацій, таким як масштабування, поворот, нахил. Розміри растрових шрифтів можуть мати лише ряд фіксованих значень, оскільки вони визначаються розмірами матриці (растру), на базі якої побудовані символи. Зміна розміру або зображення шрифту відбувається шляхом заміни одного растру на іншій. З другого боку, перевагою растрових шрифтів може бути названо те, що для них програмна процедура висновку на друк є простішою і швидшою.

Контурні шрифти виявляють собою спробу зробити максимально зручні для користувачів шрифти на основі і ідеології векторних. У принципі, в літературі їх часто не розрізняють через принципово однакову організацію опису символів. Відмінність лише у тому, що тут символи задаються у вигляді набору відрізків і гладких кривих, що мають точний математичний опис. У контура набагато більше можливості для трансформацій, він легко масштабується.

Для висновку символів на растровий пристрій необхідна спеціальна програма — растерізатор. Зараз контурні шрифти застосовуються найбільш ширше, хоча і підтримуються не всіма платформами. Зручність їх у тому, що застосування їх при підготовці документів дозволяє більш менш реалізувати принцип WYSIWYG (What You See Is What You Get — «To, що ти бачиш, є те, що ти одержиш»). Це принцип одноманітного виду документа при наборі в даний момент і при будь-якій подальшій публікації.

Широке поширення контурні шрифти набули після 1985 р., коли фірма Adobe — визнаний світовий лідер у області виробництва програмного забезпечення для видавничої діяльності — випустила шрифти стандарту PostScript Type 1 разом з мовою опису сторінок PostScript. Інший поширений зараз стандарт контурних шрифтів — це TrueType, сумісна розробка фірм Apple і Microsoft. Шрифти TrueType можуть підтримувати до 65535 (216-1) символів. Основна відмінність їх від шрифтів Турe 1 у тому, що Adobe поклала в основу побудови контура криві третього порядку, а не другого. А якщо бути точнішим, то так звані криві Безье, що є, в певному значенні, спрощенням і удосконаленням кривих третього порядку.

З одного боку, це забезпечує шрифтам Турe 1 ряд переваг:

символи шрифтів Турe 1 є гладшими із за відсутність зламів в точках сполучення фрагментів;

для завдання контура з тим же або вищою якістю потрібна менша кількість крапок, що зменшує кількість інформації, що зберігається і передаваної.

З другого боку, оскільки нас як користувачів цікавить, в основному, операційна система Windows і відповідні їй платформи, то в цьому середовищі основними є шрифти стандарту TrueType, оскільки вони не потребують спеціальних перетворювачів і можуть застосовуватися в більшості додатків. На основі стандартів TrueType і Турe 1 різні фірми створюють конкретні види шрифтів.

Здійснювати настройку шрифтів, що йдуть в комплектації з OS Windows, можна таким чином: у головному меню Windows через Start (Пуск) виберіть команду Settings (Настройки) > Control Panel (Панель управління) і у вікні, що з'явилося, клацніть подвійним клацанням лівої кнопки миші на значку Fonts (Шрифти). У вікні списку шрифтів, з якого ви можете вибирати найбільш відповідні для роботи. У міру того, як ви вибираєте який-небудь з шрифтів, вам автоматично пропонується подивитися, як він виглядає на екрані, залежно від розміру. Ви можете ознайомитися з тим, як виглядають друкарські і прописні букви, цифри, розділові знаки, набираючі з використанням цього шрифту, а також взяти до уваги характеристики шрифту і те, до якого стандарту він відноситься. Ця інформація також може стати в нагоді для прогнозу можливої «поведінки» даного шрифту в рамках публікації, що готується. Її можна використовувати також при розробці власного, авторського шрифту. Проте на практиці до цього вдаються украй рідко, тим більше що набір шрифтів, що входять в стандартну комплектацію, достатньо широкий і різноманітний.

Взагалі кажучи, виробництво красивих і функціональних шрифтів — заняття досить трудомістке, творче і не дешеве. Контур символів — це ще не все. З одного набору контурів можна побудувати різні за якістю шрифти. Є маса параметрів, таких як кернінг, трекинг, хинти і т. п., про існування яких звичайний використовуючий шрифт людина навіть і не здогадується, але саме вони дозволяють набраному тексту виглядати рівно і красиво. В світі існує лише декілька фірм, що займаються цим видом діяльності, в Росії — одна. Останнім часом стало модним створення ексклюзивних шрифтів, під конкретного замовника. Деякі фірми — FontShop (Німеччина), «Параграф» (Росія), Signature Software (США) і ін. — пропонують своїм клієнтам послуги із створення персональних рукописних шрифтів. Звичайно клієнту пропонується бланк, на якому він пише як окремі букви, так і цілі фрази. Потім ці зображення скануються, вводяться в комп'ютер і з використанням професійних шрифтових програм перетворяться в комп'ютерний шрифт. Процес дорогий і трудомісткий, так що власний шрифт не кожному по кишені.

Редагування

Ми розумітимемо під редагуванням зміну набраного тексту і додання йому належного вигляду, будь то просте видалення помилкових символів, вставка текстових масивів або так зване форматування, пов'язане в основному із зміною параметрів шрифту і абзаців. Говорити про роботу з текстом безвідносно конкретного текстового процесора вельми нераціонально, тому розглянемо конкретні прийоми і засоби редагування стосовно Microsoft Word 2000 як додатку цікавить нас Microsoft Office 2000.

Збереження документа

Збереження в одному з багатоманітних існуючих форматів є завершальною стадією основної роботи по підготовці текстового документа.

Це обов'язковий і вельми відповідальний крок, не дивлячись на всю його уявну тривіальність. По-перше, тому що, мабуть, безглуздо виконувати яку-небудь роботу, не поклопотавшися про збереження результату. По-друге, тому що вибір формату документа, що зберігається, залежить від того, де і як ми збираємося далі з ним працювати. Насправді, найбільші проблеми виникають при відкритті документа, особливо на іншій платформі: раптом виявляється, що пропало все форматування, зникли малюнки, текст нечитаний і т.д. Для того, щоб максимально забезпечити себе або ділового партнера, від можливих неладів, і прагнуть зберігати документ в найбільш відповідному форматі. Тут все не так просто і очевидно, оскільки, по-перше, може виникнути необхідність роботи з ним в інших додатках, не в тих, які передбачалися спочатку. По-друге, різними текстовими процесорами підтримуються різні формати, і не завжди вони сумісні. У таких випадках необхідні конвертери з одного формату в іншій. Так, наприклад, в MS Word передбачені вбудовані конвертери в свій внутрішній формат DOC, які ми можемо підключити при інсталяції. Тоді при завершенні роботи з документом Word пропонує різні розширення для його збереження .

Та все ж загальне уявлення про існуючі формати текстових документів мати треба, тому, не заглиблюючись у все їх різноманіття і внутрішню структуру, опишемо основні особливості форматів, що найчастіше вживаються.

ASCII

Найзаслуженіший і давно існуючий формат — ASCII (American Standard Code for Information Interchange — американський стандартний код для обміну інформацією). Він має найпростішу організацію: наприклад, в англійському алфавіті (втім, як і в російському) одній букві відповідає один байт.

Щоб зрозуміти, чому поява в 1963 році коду ASCII зіграла таку значну роль, потрібно мати на увазі, що до цього різні комп'ютери попросту не могли взаємодіяти один з одним. Кожен виробник намагався по-своєму представити символи алфавіту, цифри і управляючі коди.

Код ASCII став спільним знаменником для комп'ютерів, які раніше не мали один з одним нічого спільного. Всім буквам, цифрам, розділовим знакам і іншим символам (управляючим кодам) були поставлені у відповідність стандартні числові значення. Наприклад, заголовна буква «А» позначалася числом 65.

Проте 60-е ще не відрізнялися високим рівнем стандартизації. У одних тільки апаратних засобах корпорації IBM використовувалося дев'ять різних наборів кодування символів.

Тим часом взаємодія між комп'ютерами стала настійною необхідністю. У 1961 році майбутній винахідник ASCII прийняв пропозицію представників Американського національного інституту стандартів (ANSI). Очолюваний віце-президентом компанії Teletype Джоном Аувертером комітет ANSI X3.4, в якому була представлена велика частина виробників комп'ютерів, приступив до роботи. Комітету знадобилося понад два роки, щоб проаналізувати позиції всіх сторін, знайти компроміс і завершити розробку універсального коду.

Сьогодні на основі коду ASCII випускається устаткування вартістю в мільярди доларів, більшість операційних систем також дотепер сумісна з ASCII. Причому в різних операційних системах (ОС) здійснена дещо різна реалізація цього формату. Цікавий приклад — кодування Перекладу рядка (ПС): у ОС сімейства UNIX це просто (ПС), в ОС MS-DOS і Windows — (ПС)+(ВК). В результаті можна спостерігати цікаву картину: створений під UNIX текст, що збережений у форматі ASCII, відкривається, наприклад, в Windows Notepad (через Start (Пуск), виберіть команду Programs > Accessories > Notepad (Програми > Стандартні > Блокнот)) або в іншому простому текстовому редакторі, весь виявиться склеєним в один рядок.

Проте, код ASCII залишився однією з небагатьох технологій, якій вдалося успішно пройти крізь десятиліття і дожити до наших днів.

RTF

RTF (Rich Text Format) — формат обміну документів між текстовими процесорами. Він був розроблений Microsoft в 1986 році і з тих пір існує, в певному значенні, паралель іншим. Поява його з'явилася черговою віхою в розробці засобів збереження і передачі тексту. Головна його гідність у тому, що його внутрішня організація передбачає передачу всіх елементів форматування: розміру і параметрів шрифту, параметрів абзаців і т.д. Він дуже добре специфікований, описаний документально, досить просто і строго організований і добре розпізнаваний практично всіма офісними додатками.

DOC

Мабуть, формат, що цікавить нас, — це формат DOC, який є, по суті, внутрішнім форматом MS Word. Необхідно враховувати, що MS Word 2000 і MS Word 97 повністю сумісні по формату, але раніші версії — ні, тому при збереженні документа, навіть якщо ми збираємося надалі працювати з ним виключно в MS Word, потрібно звернути особливу увагу на його версію. При збереженні документа в текстовому процесорі MS Word він пропонує за умовчанням саме формат DOC. Як правило, має сенс прийняти цю пропозицію, якщо, звичайно, немає яких-небудь особливих ідей щодо подальшої публікації або перенесення файлу в інші додатки.

HTML

Останній формат збереження текстових документів, про яке буде згадано тут, — формат HTML (Hypertext Markup Language). HTML — універсальна мова розмітки гіпертексту, вживаний в Інтернеті для розробки Web- сторінок. Основні характеристики його будуть описані на чолі 11, присвяченої глобальним обчислювальним мережам. Відзначимо лише, що для Word 2000 формат HTML є внутрішнім, рівноправним з відвічно «рідним» форматом DOC.

Публікація

Створивши і зберігши документ, ми виявляємося перед проблемою його публікації. Публікація документа є, в певному значенні, його візитною карткою. Це представлення документа в його остаточному, готовому вигляді. Залежно від типу представлення документа умовно виділимо три види публікації.

друк документа;

електронна публікація;

Web-документи.

Тут домовимося поки не виділяти публікацію Web-документів окремим пунктом, а включимо її в обговорення проблеми електронної публікації в контексті електронних книг.

Друк документа — це створення його твердої копії на папері або прозорих плівках. Необхідність створення друкарського виду документа виникає через низку обставин: для оформлення рекламних буклетів фірми, підготовки економічної документації, різних наукових праць, підручників, художньої літератури і ін. Друк здійснюється за допомогою принтерів, які є зовнішніми пристроями для комп'ютера і підключаються до нього через один з існуючих на даний момент інтерфейсів або під'єднуються безпосередньо в мережу, будучи самостійною одиницею в ній. Безпосереднє підключення може вироблятися в тому випадку, якщо принтер дуже могутній і високопродуктивний і призначений для роботи в корпоративній мережі. Інакше необхідне під'єднування його до комп'ютера. Найчастіше зараз підключення виробляється через паралельний порт CENTRONIX, інтерфейси USB, IrDA, BlueTooth. Залишимо технічну сторону справи і відзначимо лише, що істотною відмінністю перших двох інтерфейсів є те, що їх використовування припускає обов'язкову наявність фізичних елементів з'єднання комп'ютера з принтером, тоді як інші дозволяють роздруковувати текст з комп'ютера, просто піднісши його до принтера на достатньо близьку відстань.

Електронна публікація. Розумітимемо під електронною публікацією остаточне представлення документа в електронному вигляді з можливістю перенесення його в тому ж вигляді іншим користувачам і читання з екрану незалежно від способу перенесення. Ми можемо відправити створений документ іншому користувачу або замовнику різними способами:

по електронній пошті, якщо у нього є свій e-mail;

викласти його в Інтернет як Web-сторінку;

на гнучких носіях, наприклад на дискеті.

Література:

Симонович С.В. Информатика. Базовый курс, Харьков, 2001 – 640 с. [6], 249-278

Контрольні запитання:

  1.  Дайте коротку характеристику етапам обробки текстових документів.
  2.  Види публікацій.


 

А также другие работы, которые могут Вас заинтересовать

84613. АНАЛИЗ И СИНТЕЗ ТИПОВЫХ ЭЛЕКТРОННЫХ УСТРОЙСТВ 15.7 MB
  Построение логарифмической амплитудно-частотной характеристики (ЛАЧХ) преобразователя сигналов на операционном усилителе. Для заданной схемы преобразователя аналоговых сигналов на операционном усилителе (ОУ) рассчитать и построить его ЛАЧХ и определить основные параметры данного устройства.
84614. Основы организации и функционирования бюджетной системы Российской Федерации 327.7 KB
  Цель данной курсовой работы – определение места и значимости внебюджетных фондов социального назначения в социальной политике государства. Для достижения поставленной цели необходимо решить следующие задачи: Рассмотреть сущность и задачи социальной политики государства.
84615. Фирменные холодные блюда и закуски ресторанов г. Омска: ассортимент, технология приготовления и оформления 757.41 KB
  Цель курсовой работы: изучить ассортимент, технологию приготовления и оформления холодных блюд и закусок ресторанов г.Омска. Задачи курсовой работы: Провести сравнительный анализ ассортимента холодных блюд и закусок в предприятиях общественного питания г.Омска. Дать рекомендации по обновлению меню.
84616. Маркетинговые службы в системе управления предприятием ресторанно-гостиничного бизнеса, их функции и задачи 72.32 KB
  На Западе о маркетинге заговорили лишь начиная с середины девятнадцатого века. Первым, кто высказал предположение о том, что маркетинг должен быть центральным направлением деятельности предприятия, а работа с собственным кругом потребителя – задачей менеджера, был Сайрус Маккормик.
84617. Кодирование информации в защищенных компьютерных сетях 833.5 KB
  При цифровом кодировании дискретной информации применяют потенциальные и импульсные коды. В потенциальных кодах для представления логических единиц и нулей используются только значение потенциала сигнала, а его перепады, формирующие законченные импульсы, во внимание не принимаются.
84618. Технология приготовление длинных смешанных напитков: джулепы, коблеры, кулеры, сэнгер, флипы, слинги 1.27 MB
  Длинные смешанные напитки — это напитки объемом более 150 мл, разбавленные наполнителем. Наполнитель может быть газированным (вода из сифона, фруктово-ягодные напитки, минеральная вода, тонические воды) и негазированным (соки). Приготавливают длинные напитки путем смешивания компонентов в питьевом стакане.
84619. НАЦИОНАЛИЗМ КАК СУБЪЕКТИВНОЕ ОСНОВАНИЕ ДЛЯ РАЗЖИГАНИЯ ЭТНИЧЕСКИХ КОНФЛИКТОВ В РОССИИ 64.52 KB
  Предыстория осетино-ингушского конфликта. Динамика и последствия осетиноингушского конфликта. Причины осетино-ингушского конфликта. Возможные варианты урегулирования осетинО-ингушского конфликта.
84620. ОСНОВНЫЕ ПОДХОДЫ К ИЗУЧЕНИЮ ЭМОЦИЙ 410.5 KB
  Эмоции и чувства –- это своеобразный инструмент удерживающий жизненный процесс в его оптимальных границах и предупреждающий разрушительный характер недостатка или избытка каких-то факторов в жизни данного человека П. Психические состояния отражают внутренний ритм и биологические потенциалы человека которые...
84621. Технология, организация и управление пассажирскими перевозками при мощности пассажиропотока в час пик 2600 пассажиров и протяженности маршрута 17 км 1.81 MB
  Сегодня одной из самых востребованных отраслей в транспортном секторе стали пассажирские перевозки автобусами. Однако в этом виде деятельности существуют специфические риски – их нужно внимательно изучить, чтобы полноценно пользоваться этой услугой.