17132

Обробка текстової інформації. Етапи обробки

Лекция

Информатика, кибернетика и программирование

Лекція №8 Тема: Обробка текстової інформації. Етапи обробки. План Задачі обробки текстової інформації. Типи шрифтів. Формати текстових документів. Задачі обробки текстової інформації Виділимо декілька етапів обробки документів: введення тек

Украинкский

2013-06-29

75.5 KB

15 чел.

Лекція №8

Тема: Обробка текстової інформації. Етапи обробки.

План

  1.  Задачі обробки текстової інформації.
  2.  Типи шрифтів.
  3.  Формати текстових документів.

Задачі обробки текстової інформації

Виділимо декілька етапів обробки документів:

введення тексту;

редагування;

збереження документа;

публікація;

пошук і відкриття створеного документа;

переклад.

Введення тексту

На даному етапі розвитку наукової і технічної думки введення тексту може здійснюватися декількома різними способами:

набором тексту за допомогою клавіатури;

перекладом паперових документів в електронну форму;

голосовим введенням;

рукописним введенням.

Набір тексту за допомогою клавіатури. Цей спосіб в даний час є найпоширенішим. Він є, як правило, досить простим технологічно процесом, якщо, звичайно, не прагнути відразу додати документу остаточно оформлений вигляд, а зайнятися цим при редагуванні. Але у будь-якому випадку, залежно від побажань замовника і виду подальшої публікації складач повинен правильно вибрати шрифт, який він використовуватиме при наборі. Тому, кажучи про набір тексту, перш за все поговоримо про шрифти.

Шрифти в сучасному розумінні з'явилися результатом багатовікових розробок. Сучасне книгодрукування почало розвиватися приблизно з XV століття. У XV—XVI століттях багато художників займалися розробкою шрифтів. Вже у той час шрифти придбали цілком закінчений сучасний вигляд. Деякі шрифти того часу застосовуються дотепер. Прикладом може служити шрифт Клода Гарамона, на основі якого створена оцифрована і русифікована версія шрифту ITC Garamond.

Останнім часом для виготовлення шрифтів і представлення документів стали використовуватися комп'ютери. Першими по-справжньому комп'ютерними шрифтами можна рахувати векторні і растрові (або матричні) шрифти. Вони розрізняються за способом опису символів. Символи векторних шрифтів задаються у вигляді набору векторів, що визначають переміщення пір'я графічного пристрою по паперу або електронного променя в трубці векторного дисплея. Ці шрифти мали обмежений круг застосування, пов'язаний з вивідними пристроями векторного типу.

Растрові шрифти призначені, в основному, для висновку на екран і на досить-таки застарілі растрові пристрої, до яких відносяться, наприклад, матричні принтери. Для друку за допомогою лазерних принтерів або для електронних публікацій їх не застосовують з тієї простої причини, що, по-перше, на різних екранах вони виглядатимуть по-різному, по-друге, якість друку і електронний вид документа, як правило, залишають бажати багато кращого. Символи растрових шрифтів задаються як комбінації крапок в матриці заданого розміру (у растрі), що обумовлює ряд недоліків, і головний з них — непристосованість до трансформацій, таким як масштабування, поворот, нахил. Розміри растрових шрифтів можуть мати лише ряд фіксованих значень, оскільки вони визначаються розмірами матриці (растру), на базі якої побудовані символи. Зміна розміру або зображення шрифту відбувається шляхом заміни одного растру на іншій. З другого боку, перевагою растрових шрифтів може бути названо те, що для них програмна процедура висновку на друк є простішою і швидшою.

Контурні шрифти виявляють собою спробу зробити максимально зручні для користувачів шрифти на основі і ідеології векторних. У принципі, в літературі їх часто не розрізняють через принципово однакову організацію опису символів. Відмінність лише у тому, що тут символи задаються у вигляді набору відрізків і гладких кривих, що мають точний математичний опис. У контура набагато більше можливості для трансформацій, він легко масштабується.

Для висновку символів на растровий пристрій необхідна спеціальна програма — растерізатор. Зараз контурні шрифти застосовуються найбільш ширше, хоча і підтримуються не всіма платформами. Зручність їх у тому, що застосування їх при підготовці документів дозволяє більш менш реалізувати принцип WYSIWYG (What You See Is What You Get — «To, що ти бачиш, є те, що ти одержиш»). Це принцип одноманітного виду документа при наборі в даний момент і при будь-якій подальшій публікації.

Широке поширення контурні шрифти набули після 1985 р., коли фірма Adobe — визнаний світовий лідер у області виробництва програмного забезпечення для видавничої діяльності — випустила шрифти стандарту PostScript Type 1 разом з мовою опису сторінок PostScript. Інший поширений зараз стандарт контурних шрифтів — це TrueType, сумісна розробка фірм Apple і Microsoft. Шрифти TrueType можуть підтримувати до 65535 (216-1) символів. Основна відмінність їх від шрифтів Турe 1 у тому, що Adobe поклала в основу побудови контура криві третього порядку, а не другого. А якщо бути точнішим, то так звані криві Безье, що є, в певному значенні, спрощенням і удосконаленням кривих третього порядку.

З одного боку, це забезпечує шрифтам Турe 1 ряд переваг:

символи шрифтів Турe 1 є гладшими із за відсутність зламів в точках сполучення фрагментів;

для завдання контура з тим же або вищою якістю потрібна менша кількість крапок, що зменшує кількість інформації, що зберігається і передаваної.

З другого боку, оскільки нас як користувачів цікавить, в основному, операційна система Windows і відповідні їй платформи, то в цьому середовищі основними є шрифти стандарту TrueType, оскільки вони не потребують спеціальних перетворювачів і можуть застосовуватися в більшості додатків. На основі стандартів TrueType і Турe 1 різні фірми створюють конкретні види шрифтів.

Здійснювати настройку шрифтів, що йдуть в комплектації з OS Windows, можна таким чином: у головному меню Windows через Start (Пуск) виберіть команду Settings (Настройки) > Control Panel (Панель управління) і у вікні, що з'явилося, клацніть подвійним клацанням лівої кнопки миші на значку Fonts (Шрифти). У вікні списку шрифтів, з якого ви можете вибирати найбільш відповідні для роботи. У міру того, як ви вибираєте який-небудь з шрифтів, вам автоматично пропонується подивитися, як він виглядає на екрані, залежно від розміру. Ви можете ознайомитися з тим, як виглядають друкарські і прописні букви, цифри, розділові знаки, набираючі з використанням цього шрифту, а також взяти до уваги характеристики шрифту і те, до якого стандарту він відноситься. Ця інформація також може стати в нагоді для прогнозу можливої «поведінки» даного шрифту в рамках публікації, що готується. Її можна використовувати також при розробці власного, авторського шрифту. Проте на практиці до цього вдаються украй рідко, тим більше що набір шрифтів, що входять в стандартну комплектацію, достатньо широкий і різноманітний.

Взагалі кажучи, виробництво красивих і функціональних шрифтів — заняття досить трудомістке, творче і не дешеве. Контур символів — це ще не все. З одного набору контурів можна побудувати різні за якістю шрифти. Є маса параметрів, таких як кернінг, трекинг, хинти і т. п., про існування яких звичайний використовуючий шрифт людина навіть і не здогадується, але саме вони дозволяють набраному тексту виглядати рівно і красиво. В світі існує лише декілька фірм, що займаються цим видом діяльності, в Росії — одна. Останнім часом стало модним створення ексклюзивних шрифтів, під конкретного замовника. Деякі фірми — FontShop (Німеччина), «Параграф» (Росія), Signature Software (США) і ін. — пропонують своїм клієнтам послуги із створення персональних рукописних шрифтів. Звичайно клієнту пропонується бланк, на якому він пише як окремі букви, так і цілі фрази. Потім ці зображення скануються, вводяться в комп'ютер і з використанням професійних шрифтових програм перетворяться в комп'ютерний шрифт. Процес дорогий і трудомісткий, так що власний шрифт не кожному по кишені.

Редагування

Ми розумітимемо під редагуванням зміну набраного тексту і додання йому належного вигляду, будь то просте видалення помилкових символів, вставка текстових масивів або так зване форматування, пов'язане в основному із зміною параметрів шрифту і абзаців. Говорити про роботу з текстом безвідносно конкретного текстового процесора вельми нераціонально, тому розглянемо конкретні прийоми і засоби редагування стосовно Microsoft Word 2000 як додатку цікавить нас Microsoft Office 2000.

Збереження документа

Збереження в одному з багатоманітних існуючих форматів є завершальною стадією основної роботи по підготовці текстового документа.

Це обов'язковий і вельми відповідальний крок, не дивлячись на всю його уявну тривіальність. По-перше, тому що, мабуть, безглуздо виконувати яку-небудь роботу, не поклопотавшися про збереження результату. По-друге, тому що вибір формату документа, що зберігається, залежить від того, де і як ми збираємося далі з ним працювати. Насправді, найбільші проблеми виникають при відкритті документа, особливо на іншій платформі: раптом виявляється, що пропало все форматування, зникли малюнки, текст нечитаний і т.д. Для того, щоб максимально забезпечити себе або ділового партнера, від можливих неладів, і прагнуть зберігати документ в найбільш відповідному форматі. Тут все не так просто і очевидно, оскільки, по-перше, може виникнути необхідність роботи з ним в інших додатках, не в тих, які передбачалися спочатку. По-друге, різними текстовими процесорами підтримуються різні формати, і не завжди вони сумісні. У таких випадках необхідні конвертери з одного формату в іншій. Так, наприклад, в MS Word передбачені вбудовані конвертери в свій внутрішній формат DOC, які ми можемо підключити при інсталяції. Тоді при завершенні роботи з документом Word пропонує різні розширення для його збереження .

Та все ж загальне уявлення про існуючі формати текстових документів мати треба, тому, не заглиблюючись у все їх різноманіття і внутрішню структуру, опишемо основні особливості форматів, що найчастіше вживаються.

ASCII

Найзаслуженіший і давно існуючий формат — ASCII (American Standard Code for Information Interchange — американський стандартний код для обміну інформацією). Він має найпростішу організацію: наприклад, в англійському алфавіті (втім, як і в російському) одній букві відповідає один байт.

Щоб зрозуміти, чому поява в 1963 році коду ASCII зіграла таку значну роль, потрібно мати на увазі, що до цього різні комп'ютери попросту не могли взаємодіяти один з одним. Кожен виробник намагався по-своєму представити символи алфавіту, цифри і управляючі коди.

Код ASCII став спільним знаменником для комп'ютерів, які раніше не мали один з одним нічого спільного. Всім буквам, цифрам, розділовим знакам і іншим символам (управляючим кодам) були поставлені у відповідність стандартні числові значення. Наприклад, заголовна буква «А» позначалася числом 65.

Проте 60-е ще не відрізнялися високим рівнем стандартизації. У одних тільки апаратних засобах корпорації IBM використовувалося дев'ять різних наборів кодування символів.

Тим часом взаємодія між комп'ютерами стала настійною необхідністю. У 1961 році майбутній винахідник ASCII прийняв пропозицію представників Американського національного інституту стандартів (ANSI). Очолюваний віце-президентом компанії Teletype Джоном Аувертером комітет ANSI X3.4, в якому була представлена велика частина виробників комп'ютерів, приступив до роботи. Комітету знадобилося понад два роки, щоб проаналізувати позиції всіх сторін, знайти компроміс і завершити розробку універсального коду.

Сьогодні на основі коду ASCII випускається устаткування вартістю в мільярди доларів, більшість операційних систем також дотепер сумісна з ASCII. Причому в різних операційних системах (ОС) здійснена дещо різна реалізація цього формату. Цікавий приклад — кодування Перекладу рядка (ПС): у ОС сімейства UNIX це просто (ПС), в ОС MS-DOS і Windows — (ПС)+(ВК). В результаті можна спостерігати цікаву картину: створений під UNIX текст, що збережений у форматі ASCII, відкривається, наприклад, в Windows Notepad (через Start (Пуск), виберіть команду Programs > Accessories > Notepad (Програми > Стандартні > Блокнот)) або в іншому простому текстовому редакторі, весь виявиться склеєним в один рядок.

Проте, код ASCII залишився однією з небагатьох технологій, якій вдалося успішно пройти крізь десятиліття і дожити до наших днів.

RTF

RTF (Rich Text Format) — формат обміну документів між текстовими процесорами. Він був розроблений Microsoft в 1986 році і з тих пір існує, в певному значенні, паралель іншим. Поява його з'явилася черговою віхою в розробці засобів збереження і передачі тексту. Головна його гідність у тому, що його внутрішня організація передбачає передачу всіх елементів форматування: розміру і параметрів шрифту, параметрів абзаців і т.д. Він дуже добре специфікований, описаний документально, досить просто і строго організований і добре розпізнаваний практично всіма офісними додатками.

DOC

Мабуть, формат, що цікавить нас, — це формат DOC, який є, по суті, внутрішнім форматом MS Word. Необхідно враховувати, що MS Word 2000 і MS Word 97 повністю сумісні по формату, але раніші версії — ні, тому при збереженні документа, навіть якщо ми збираємося надалі працювати з ним виключно в MS Word, потрібно звернути особливу увагу на його версію. При збереженні документа в текстовому процесорі MS Word він пропонує за умовчанням саме формат DOC. Як правило, має сенс прийняти цю пропозицію, якщо, звичайно, немає яких-небудь особливих ідей щодо подальшої публікації або перенесення файлу в інші додатки.

HTML

Останній формат збереження текстових документів, про яке буде згадано тут, — формат HTML (Hypertext Markup Language). HTML — універсальна мова розмітки гіпертексту, вживаний в Інтернеті для розробки Web- сторінок. Основні характеристики його будуть описані на чолі 11, присвяченої глобальним обчислювальним мережам. Відзначимо лише, що для Word 2000 формат HTML є внутрішнім, рівноправним з відвічно «рідним» форматом DOC.

Публікація

Створивши і зберігши документ, ми виявляємося перед проблемою його публікації. Публікація документа є, в певному значенні, його візитною карткою. Це представлення документа в його остаточному, готовому вигляді. Залежно від типу представлення документа умовно виділимо три види публікації.

друк документа;

електронна публікація;

Web-документи.

Тут домовимося поки не виділяти публікацію Web-документів окремим пунктом, а включимо її в обговорення проблеми електронної публікації в контексті електронних книг.

Друк документа — це створення його твердої копії на папері або прозорих плівках. Необхідність створення друкарського виду документа виникає через низку обставин: для оформлення рекламних буклетів фірми, підготовки економічної документації, різних наукових праць, підручників, художньої літератури і ін. Друк здійснюється за допомогою принтерів, які є зовнішніми пристроями для комп'ютера і підключаються до нього через один з існуючих на даний момент інтерфейсів або під'єднуються безпосередньо в мережу, будучи самостійною одиницею в ній. Безпосереднє підключення може вироблятися в тому випадку, якщо принтер дуже могутній і високопродуктивний і призначений для роботи в корпоративній мережі. Інакше необхідне під'єднування його до комп'ютера. Найчастіше зараз підключення виробляється через паралельний порт CENTRONIX, інтерфейси USB, IrDA, BlueTooth. Залишимо технічну сторону справи і відзначимо лише, що істотною відмінністю перших двох інтерфейсів є те, що їх використовування припускає обов'язкову наявність фізичних елементів з'єднання комп'ютера з принтером, тоді як інші дозволяють роздруковувати текст з комп'ютера, просто піднісши його до принтера на достатньо близьку відстань.

Електронна публікація. Розумітимемо під електронною публікацією остаточне представлення документа в електронному вигляді з можливістю перенесення його в тому ж вигляді іншим користувачам і читання з екрану незалежно від способу перенесення. Ми можемо відправити створений документ іншому користувачу або замовнику різними способами:

по електронній пошті, якщо у нього є свій e-mail;

викласти його в Інтернет як Web-сторінку;

на гнучких носіях, наприклад на дискеті.

Література:

Симонович С.В. Информатика. Базовый курс, Харьков, 2001 – 640 с. [6], 249-278

Контрольні запитання:

  1.  Дайте коротку характеристику етапам обробки текстових документів.
  2.  Види публікацій.


 

А также другие работы, которые могут Вас заинтересовать

27550. Функции государства, формы их осуществления 26.5 KB
  Под функциями государства понимаются основные направления его деятельности определяющие его сущность и назначение в обществе. Все существующие функции государства можно подразделить на: 1 вспомогательные и основные; 2 постоянные и временные; 3 внутренние и внешние. Внутренние функции охватывают сферу внутренней самостоятельной жизни государства в которую входят экономические культурные экологические отношения а также отношения складывающиеся в области обеспечения правопорядка в обществе.
27551. Функции права: понятие, виды, характеристика 26.5 KB
  Функции права: понятие виды характеристика. Под функцией права понимают либо социальное назначение права либо направление правового воздействия на общественные отношения либо и то и другое вместе взятое. Можно выделить 5 групп функций: общеправовые свойственные всем отраслям; межотраслевые 2ум и более но не всем отраслям права; отраслевые одной отрасли права; правовых институтов конкретному институту права; норм права конкретному виду права. можно различать основные и неосновные юридические функции права.
27552. Функции теории государства и права 25 KB
  В юридической литературе в числе функций теории государства и права называются: онтологическая; методологическая; идеологическая; вводная; обобщающая. С онтологической точки зрения теория государства и права призвана констатировать что и как происходит в сфере государства и права а затем объяснять почему это происходит. 2 Методологическая функция заключается в следующем: права понятия и выводы являются предпосылкой отправным моментом для последующей научной деятельности например понятия €œнорма права€ €œправоотношение€ и т.
27553. Цивилизационные подходы к типологии государства 27 KB
  Тойнби пишет что €œкультурный элемент представляет собой душу кровь лимфу сущность цивилизации; в сравнении с ним экономический и тем более политический план кажется искусственным несущественным заурядным созданием природы и €œдвижущих сил цивилизации€. Понятие цивилизации им сформулировано как относительно замкнутое и локальное состояние социума отличающееся общностью религиозных психологических культурных географических и иных признаков два из которых остаются неизменными: религия и формы ее организации а также степень...
27554. Что такое пробелы в праве и как они устраняются в практике применения правовых норм 39.5 KB
  Точное определение этих границ сфер позволяет обнаружить: 1 отношения урегулированные правом; 2 отношения нуждающиеся в правовом опосредовании; 3 нормативные предписания подлежащие реализации; 4 пробелы и иные недостатки в праве; 5 пределы деятельности правоприменительных органов по осуществлению права. В зависимости от отрасти права в которой они установлены различают пробелы в конституционном государственном гражданском уголовном семейном и других отраслях права. Пробелы различают по форме права в которой они обнаружены.
27555. Экономика и право 27 KB
  Право – это система общеобязательных формально – определенных норм исходящих от государства им охраняемых и регулирующих общественные отношения Социальные последствия соотношения экономики и права: 1 позитивные право способствует развитию экономики тогда когда оно соответствует естественноисторическому ходу развития общества объективным экономическим законам; 2 негативные – право тормозит развитие экономики тогда когда оно противоречит объективным экономическим законам развития общества. Пределы государственноправового...
27556. Юридическая ответственность государства 30.5 KB
  Государство как субъект ответственности. Всякий раз когда государство становится участником какоголибо правоотношения оно может быть привлечено к ответственности за нарушение прав и охраняемых законом интересов другого участника этих отношений и наоборот. Это общее правило касающееся юридической ответственности. Однако говоря о государстве как субъекте ответственности нужно вести речь об ином об особых случаях внедоговорной ответственности государства за вред причиненный в определенных ситуациях.
27557. Юридическая техника. Понятие и основные приемы 31 KB
  Способы закрепления приёмов ЮТ: 1 НПА; 2 правовые обычаи; 3 научнометодические разработки. Юридическая технология – это боле широкое понятие – это основанная на определенных принципах планах прогнозах протекающих в определенно установленных процессуальных формах деятельность по созданию НПА и иных актов в ходе которой используются средства и способы ЮТ. 2 юридические способы – пути достижения намеченных целей с помощью конкретных юр. способы структуризации; способы логического изложения; способы языкового изложения; способы...
27558. Юридическая типология: основные правовые системы современности 35.5 KB
  Юридическая типология права это его специфическая классификация. Основополагающим объектом юридической типологии выступает категория правовая система тесно связанная с такими исходными концептуальными понятиями как правовая карта мира исторический тип права семья правовых систем национальная правовая система. При этом понятие правовая система не синоним понятия система права так как последнее понятие институционное раскрывающее взаимосвязь соотношение и строение отраслей права что предопределяется факторами как...