64728

Извлечение информации

Лекция

Информатика, кибернетика и программирование

Соответствие между информационными работами информационными органами и информационными документами вторичными документами рассмотренными на прошлых лекциях можно изобразить следующей таблицей.

Русский

2014-07-10

58 KB

7 чел.

Лекция 6. Извлечение информации

Соответствие между информационными работами, информационными органами и информационными документами (вторичными документами), рассмотренными на прошлых лекциях, можно изобразить следующей таблицей.

Работы

Органы

Документы

1

(Создание документа)

(Автор)

(Первичный документ)

2

Издание

Издательство

Выходные сведения

3

Распространение

Торговля, почта, …

Бибописание

4

Хранение

Библиотеки

Каталоги

5

Извлечение информации

Информационные центры

?

На этой схеме видно, что специфической задачей информационных центров является извлечение полезной информации из документов и их массивов. Такая задача не стояла перед органами, осуществлявшими предыдущие этапы жизненного цикла документов. Тем не менее и в результате их работы также создаются документы (вторичные), содержащие информацию, извлечённую из первичных документов. Но эта информация была не целью, а средством работы, средством выполнения других задач, возложенных на эти органы.

Перед информационными центрами впервые была поставлена как цель работа по выявлению в документальных потоках ценной информации. Впрочем, никакая информация, содержащаяся в документах, не может быть признана не обладающей ценностью вовсе. Иначе она не была бы включена в документ. К тому же ценность зависит не только от сущности информации, но и от того, кто её оценивает, – от информационной потребности пользователя. Так что речь может идти о двух видах извлечения ценной информации: либо об извлечении информации, наиболее ценной с общепринятой точки зрения, либо об извлечении информации, ценной с точки зрения конкретной потребности отдельного пользователя.

В первом случае извлечение информации сводится к сокращённому изложению документов.

1. Аннотация

Сокращённое изложение документа, в котором называются основные вопросы, рассмотренные в документе, – это аннотация. В аннотациях обычно приводят также сведения о структуре, назначении, оформлении и происхождении документа. Они составляются с тем чтобы углубить сведения, содержащиеся в библиографическом описании, и зачастую добавляются к библиографическому описанию, составляя вместе с ним единую библиографическую запись. Наличие аннотаций значительно повышает ценность библиографических пособий и каталогов, поскольку ознакомление с аннотациями подчас даёт достаточно информации пользователю чтобы удовлетворить его информационную потребность и исключить дальнейшую работу по поиску первичного документа. Составляться аннотации могут на любом этапе жизненного цикла документа. Бывают авторские аннотации, составленные самим автором на первичном этапе создания документа. Издательские аннотации являются обязательным элементом печатных изданий.

По содержанию аннотации подразделяются на справочные (ограничивающиеся сведениями о самом документе), рекомендательные (включающие сведения о пригодности документа для определённых категорий пользователей), специализированные (описывающие документ с точки зрения интересов отдельной категории пользователей). Для информационных центров характерно составление специализированных рекомендательных аннотаций. Аннотация должна быть максимально краткой, изложенной ясным и простым языком, понятным широкому кругу специалистов, а не только тем, кто занимается непосредственно темой аннотируемого документа. Рекомендуется объём аннотаций ограничивать 400 – 600 знаками, допуская его превышение до 1000 знаков лишь в исключительных случаях.

При аннотировании отдельных видов документов следует учитывать специфические требования. Для документов научного характера важно указать наличие теоретических и (или) экспериментальных данных, статистических сведений, справочного аппарата. В производственной литературе важно указать пользовательское назначение документа (практическое пособие, инструкция, проектная разработка и т. п.), нужно точно соблюдать наименования процессов и устройств. Аннотируя справочные издания, следует охарактеризовать их полноту и актуальность, источники сведений, назначение, принципы расположения материала. Аннотации сборников могут ограничиваться указанием общей темы и перечислением включённых в сборник материалов.

Аннотация является первым типом вторичных документов, который следует внести в правую нижнюю клетку вышеприведённой таблицы.

2. Реферат

Реферирование состоит в более полном чем аннотация, но всё-таки кратком изложении документа1. Информационный реферат должен приводить наиболее ценную информацию из документа, выделенную в качестве таковой автором, либо составителем реферата (референтом). Реферат должен по возможности включать описание методики, времени и места получения сведений, содержащихся в реферируемой работе. В реферате не должны отражаться субъективные взгляды референта на существо вопроса, не включается оценка полученных данных.

По объёму различают информативный реферат (реферат-конспект) и индикативный реферат (указательный реферат, реферат-резюме). Информативный реферат содержит в сжатом виде все существенные положения первичного документа, их аргументацию, сведения о сфере применения документа и его выводов. В индикативном реферате приводятся лишь те положения, которые тесно связаны с главным предметом документа. Особо выделяются специализированные рефераты, в которых изложение ориентировано на специалистов определенной области деятельности, и из первичного документа выделяются преимущественно или исключительно те положения, которые связаны с этой деятельностью.

По авторству различаются рефераты, составленные авторами первичных документов (авторские рефераты, авторефераты), рефераты, составленные специалистами по проблемам, изложенным в первичном документе, и наконец, рефераты, составленные профессиональными референтами – лицами, эрудированными в широкой области знания. Для ряда первичных документов наличие авторского реферата является обязательным (диссертации, отчёты о научно-исследовательских работах). Многие издательства требуют от авторов составления реферата или аннотации каждого издаваемого произведения (каждой книги или журнальной статьи). При отсутствии авторского реферат составляется в информационном органе с привлечением либо специалистов по данной проблеме, либо профессиональных референтов.

Реферат начинается с изложения существа документа, приводится его цель, излагаются сведения о происхождении информации или о методике её получения, сведения о её достоверности и актуальности, пересказывается содержание документа, приводятся выводы автора и указанные в документе пути применения. В заключение указывается наличие библиографии и иллюстративных материалов. Цифровые данные при реферировании обобщаются. Таблицы, схемы, формулы и графики приводятся только в том случае, когда это необходимо для краткого изложения существа реферируемого документа.

Объём реферата определяется технологией его использования в той или иной информационной службе, и общих правил здесь установить нельзя. Так в реферативной практике Всероссийского института научной и технической информации (ВИНИТИ) предельный объём реферата установлен в размере 3% от первичного документа. Фактический объём обычно определяется значением реферируемого документа, но как правило не превышает одной машинописной страницы (примерно 150 слов + библиографическое описание). В практике Института научной информации по общественным наукам Российской академии наук (ИНИОН) объём реферата гораздо больше, реферат монографии или большой статьи может занимать несколько машинописных страниц. В зарубежной практике различных информационных органов средняя длина реферата находится в пределах 100 – 200 слов. Любое сокращение первичного документа ведёт к потере части информации. Как показывают исследования, при обычно принятых нормах сокращения первичного документа в реферате сохраняется от 25 до 50% существенных сведений, а 50 – 75% теряется.

Реферат это второй тип вторичных документов, который следует внести в пустую клетку нашей таблицы. 

Общие требования к рефератам и аннотациям научных и технических документов установлены государственным стандартом ГОСТ 7.9.

3. Рецензии

Рецензия – это реферат, в который включены сведения об отношении составителя к материалу первичного документа. Такой вторичный документ также является формой извлечения информации, при которой она черпается не только из одного первичного документа, но также из общего фонда известных рецензенту сведений. Рецензии используются главным образом в организациях издательского типа для решения вопроса о целесообразности публикации той или иной работы. Рецензирование служит основанием для признания достоверности изложенных в документе сведений и является необходимым моментом публикации научных трудов. Порядок рецензирования таких документов как диссертации, стандарты, патентные заявки установлен законодательно.

Однако как информационный документ рецензии используются информационными органами к сожалению редко. Это обусловлено рядом причин. Во-первых, обычно рецензирование проводится на условиях конфиденциальности и анонимности, и тогда рецензии не подлежат опубликованию. Во-вторых, информационные органы как правило не имеют специалистов, готовых взять на себя ответственность за объективную оценку работы коллег. Эта неготовность объясняется не только опасением личностных столкновений с коллегами, но также тем, что столкновение взглядов различных специалистов по одному и тому же вопросу находится уже за границей собственно информационной деятельности. Это не столько обработка имеющейся информации, сколько получение новой информации: «в споре рождается истина». Тем не менее введение рецензионной деятельности в практику информационных органов является настоятельной необходимостью. В ответ на это в составе российских информационных органов был создан Российский информационно-консультационный центр экспертизы (РИНКЦЭ), специально предназначенный для вынесения экспертных заключений – рецензий на научные, технические и хозяйственные проекты. Поэтому в пустую клетку таблицы следует внести также рецензии.

4. Реферативные сборники

Использование в информационных центрах составленных рефератов идёт двумя путями. Наиболее очевидный путь следующий. Заинтересованная организация (или индивидуальное лицо) заключает с информационным центром договор об избирательном распространении информации (ИРИ), согласно которому информационный центр направляет клиенту рефераты по заданной узкой теме, а в случае особого интереса, проявившегося у клиента при ознакомлении с рефератом, информационный центр направляет клиенту и полный текст документа. Направляемые пользователю рефераты представляют собой сводный вторичный документ – реферативный сборник, хотя фактически он отнюдь не всегда бывает оформлен как отдельное законченное произведение.

Более массовый путь использования состоит в том, что составленные рефераты объединяются в реферативные журналы (РЖ), – сборники, которые регулярно рассылаются подписчикам. РЖ комплектуются рефератами по достаточно широким областям знания. Подписчики РЖ могут выбрать в журнале интересующие их материалы и заказать полные копии соответствующих документов. Реферативный журнал и реферативный сборник – ещё один вид вторичного документа, помещаемый в пустую клетку.

5. Обзоры

Реферат может быть составлен не по одному документу, а по совокупности тематически связанных документов. Такой реферат называется обзором, и может иметь довольно солидный объём, обуславливаемый объёмом обозреваемых документов. ВИНИТИ регулярно публикует обзоры «Успехи науки и техники» по отдельным областям знания в виде книг в твёрдом переплёте. В них даётся анализ литературы, изданной за последнее время, включая оценку значимости публикаций и выявление основных достижений и перспектив их использования. Таким образом в обзоре содержатся и элементы рецензирования первичных документов. Текст обзора должен представлять собой последовательное логически связанное изложение идей и фактов. Обзор – это не просто пересказ исходных документов, а творческое обобщение их содержания в цельной картине состояния соответствующей области знания. Обзор часто иллюстрируется изобразительным материалом, взятым из первичных документов. Во введении к обзору целесообразно указать на значение рассматриваемого вопроса и дать краткую историю его исследований, связать со смежными областями, а также определить читательское назначение обзора. В заключение подводится итог главных положений и сведений, выявляется общий уровень и тенденция развития вопроса. Обзор заканчивается списком библиографических описаний использованных первичных документов. В тексте обзора обязательно даются ссылки на конкретный источник приводимых сведений. Обзор может рассматриваться как развитие идеи реферативного журнала, в котором рефераты помещены не отдельно друг от друга, а соединены в логическую последовательность изложения работ в данной отрасли.

Обзор является высшей формой информационной работы по извлечению сведений из документов. Он завершает список вторичных документов в пустой клетке нашей таблицы, который теперь предстаёт в следующем виде:

аннотация
реферат
рецензия
реферативный журнал (сборник)
обзор.

6. Аналитико-синтетическая обработка

Мы видим, что на каждом этапе информационных работ приходится делать две операции: а). анализировать содержание первичного документа и б). синтезировать определённые части этого содержания в виде вторичного документа. Совокупность этих операций соответственно называется довольно неуклюжими терминами «аналитико-синтетическая переработка информации (АСПИ)» или «аналитико-синтетическая обработка документов (АСОД)». К этому понятию относятся также процедуры формирования выходных сведений и составление библиографических описаний. Таким образом мы имеем следующий ряд процедур АСПИ/АСОД:

формирование выходных сведений документа
составление библиографических описаний
аннотирование документов
реферирование документов
рецензирование документов
составление обзоров.

Общей чертой этих процедур является их интеллектуальный характер. В ходе анализа первичного документа требуется понять его содержание, а в ходе синтеза вторичного документа требуется выразить понятое средствами естественного языка. Для документов научно-технического и вообще – делового характера эти задачи требуют специальной квалификации исполнителей. Они не могут быть выполнены механически техническими работниками. В практическом плане это приводит к высокой стоимости информационных работ, которая существенно сдерживает их развитие и снижает экономическую эффективность.

Для преодоления порога высокой стоимости постоянно предпринимаются попытки автоматизации этих процедур. Эти попытки пока приводят, однако, только к ограниченным успехам. И это объясняется именно интеллектуальным характером задачи при отсутствии в настоящее время способов реализации искусственного интеллекта в необходимом объёме. Однако, рассмотрим некоторые подходы к решению задач АСОД.

7. Автоматизация информационной деятельнсти

На практике задача автоматизации возникает в информационных органах на этапе составления аннотаций и в особенности рефератов. Если нам нужно извлечь информацию из документа, то мы можем попытаться это сделать, извлекая из документа отрезки текста, содержащие эту информацию. Осталось лишь определить критерии, как обнаружить эти отрезки автоматически.

Для этого прежде всего необходимо понять текст (чтобы знать в каком отрезке какая информация имеется).

А что значит слово «понять». Оно значит, что нужно сопоставить принятую информацию с теми знаниями, которые уже есть у человека. В случае автоматической обработки это значит, что у автомата должны уже быть заранее встроены знания о предмете. При чём в такой форме, которая была бы сопоставима с формой входной информации. На входе мы обычно имеем текст, где понятия выражены словами, а важнейшие понятия данной области знания выражены терминами. Поэтому – естественный ход: вложить в автоматическую систему реферирования список терминов данной области знания. Имея этот список, автомат может выделить из документа все предложения, включающие эти термины, и представить такую последовательность как реферат. Трудность здесь состоит в размытости терминологических полей, их недостаточной привязке к определённым знаниям, в появлении новых терминов, в нетерминологическом использовании старых. Может получиться так, что новые идеи документа, выраженные новыми терминами, как раз и останутся за границей реферата.

Можно к автоматическому реферированию подойти с другой стороны. Можно вложить в автомат знания не о предметной области в виде её терминов, а знания общего характера – знания о языке документа. Мы знаем, что нам из научного документа нужно извлечь главным образом: постановку задачи, методы её решения, основные выводы и результаты. В тексте документа эти аспекты работы должны быть отмечены соответствующими словами «метод», «задача», «решение», «вывод», «результат» и им подобными. В автомат следует вложить список таких слов, и он будет извлекать из документа фрагменты, содержащие именно эти слова. Трудность этого подхода – в том, что естественный язык обладает чрезвычайно богатым набором средств выражения, которые все трудно запрограммировать в автомате. Отсюда возникает идея ограничить языковые средства, применяемые в деловых документах, и стандартизовать саму форму документа, превратив его в таблицу с ответами на заранее заданные конкретные вопросы. Тогда и реферат принял бы форму анкеты с краткими ответами на эти вопросы.

Имеются и другие подходы к автоматическому реферированию, но во-первых, они в любом случае приводят к тексту, трудному для восприятия, и во-вторых предполагают ввод в машину полных текстов документов. А этого-то мы и хотели избежать. Переходя от первичного документа к реферату, мы имели цель заменить полный текст его выжимкой, с которой было бы удобнее работать. В тех случаях, когда мы получаем возможность работать с полным текстом, в большой мере отпадает необходимость в реферате.

Более подробно вопросы автоматизации информационной работы будут рассматриваться в дальнейших лекциях.

1 Здесь мы имеем в виду информационные рефераты, создаваемые в информационных центрах, и исключаем из рассмотрения учебные рефераты студентов, к которым предъявляются несколько иные требования.