19279

Лингвистическое обеспечение ИС. Состав лингвистического обеспечения ИС. Знаковые системы. Частотные словари, словари предметной области

Лекция

Информатика, кибернетика и программирование

Лекция 11. Лингвистическое обеспечение ИС. Состав лингвистического обеспечения ИС. Знаковые системы. Частотные словари словари предметной области. Кодификаторы классификаторы тезаурусы онтологии. Информационнопоисковые языки. 11.1. Лингвистическое обеспечен

Русский

2013-07-11

267.3 KB

174 чел.

Лекция 11.  

Лингвистическое обеспечение ИС. Состав лингвистического обеспечения ИС.  Знаковые системы. Частотные словари, словари предметной области. Кодификаторы, классификаторы, тезаурусы, онтологии. Информационно-поисковые языки.  

11.1. Лингвистическое обеспечение ИС

Основные понятия

Лингвистическое обеспечение - языки представления и управления информацией. Именно лингвистическое обеспечение (ЛО) определяет существо (функциональные возможности и гибкость) АИС, обеспечивая «диффузный» слой между «естественной» средой и информационной средой (ИСр). Язык представляет собой средство коммуникаций между элементами деятельности, находящимися как на одном уровне (человек–человек или АИС–АИС), так и на разных (человек-машина).

Обычно ЛО включает языки запросов и отчетов, реализующие человеко-машинное взаимодействие, а также специальные языки определения и управления данными, обеспечивающие адекватность внутреннего представления и согласование внутреннего и внешнего представлений. Очевидно, что именно поэтому ЛО в значительной степени зависит от особенностей предметной области: с одной стороны, от требований к полноте и точности передачи информации (смысла), а с другой – от требований унифицированности языка и простоты его изучения и использования человеком.

Для изучения принципов и методов построения и использования компонентов ЛО предварительно определим базовые понятия (Слайд 11.2).

Язык —это знаковая система любой физической природы, выполняющая познавательную и коммуникативную функцию в процессе человеческой деятельности. Язык дает возможность говорящему брать понятия, находящиеся в его собственном сознании, и вызывать эти понятия в сознании своего слушателя.

Многозначность слов естественного языка, обеспечивающая «богатейшие возможности для вполне однозначного выражения тончайших оттенков мысли» [33] и служащая в некотором роде показателем развитости языка, становится препятствием в случае его использования в системах хранения и обработки информации. В связи с этим в АИС применяются искусственные языки, специально сконструированные для формулировки основного смыслового содержания информационной базы и информационной потребности с целью последующего их сопоставления.

Искусственный язык, в отличие от неоднозначного по своей природе естественного, представляющего собой основное средство общения и выражения мысли –это специализированный язык, основное назначение которого состоит в устранении многозначности слов естественного языка и всего того, что характеризует эмоции и отношение к различным предметам. В искусственном языке должны выражаться лишь объективные характеристики предметов, их связей и соотношений  [22].

К таким языкам в первую очередь относятся информационно-поисковые языки, обеспечивающие компактную, строго алгоритмизированную запись содержания документов и запросов в ИПС.

Информационный язык —искусственный язык, созданный в целях лучшей реализации основной функции языка —коммуникативной, то есть функции передачи информации. В информационном языке за счет однозначности записи информации устраняется вариантность обозначения понятий: исключается синонимия (когда сходные слова по значению имеют различное звучание) и омонимия (когда слова, имеющие одинаковое звучание, имеют различное значение); каждому смыслу того или иного определенного выражения соотносится одна последовательность символов. В нем действует более простой, чем в естественном языке (в пределе –однозначный) аппарат грамматики. Если в естественном языке принятые в нем правила допускают самые различные исключения, то в информационном языке какие-либо исключения из правил в принципе невозможны. Полисемия и омонимия, встречающиеся в естественном языке, при переводе на информационный язык отмечаются специальными знаками. Информационными языками являются, например, патентные классификации, универсальная десятичная система, язык ключевых слов и т.д.

Основой построения большинства информационных языков является логико-интуитивный метод, который в основном сводится к следующему: рассматривая то или иное слово, человек вспоминает, с каким словом и какими отношениями оно связано, затем пытается учесть, может ли та или иная смысловая связь пригодиться при поиске или обмене информацией.

Внутренняя структура языка характеризуется следующими составляющими —лексикой, грамматикой и словообразованием (Слайд 11.3).

Лексика (или словарный состав) —это вся совокупность слов, входящих в состав языка.

Грамматика –это система способов и средств построения слов и предложений в рассматриваемом языке. Грамматика состоит из морфологии и синтаксиса.

Морфология —это совокупность действующих в языке способов и средств построения слов. Наименьшая неделимая без потери данного качества единица системы выражения, непосредственно соотносимая с соответствующим ей элементом содержания, называется морфемой. Морфемы делятся на грамматические (аффиксы) и лексические (лексемы). Аффиксы предназначены для видоизменения значения основной части слова (базы). Лексема —это корневая или словообразовательная морфема, выражающая основное значение слова.

Синтаксис —это совокупность действующих в языке способов и средств построения предложений.

Словообразование определяется как совокупность способов и средств образования слов на базе уже существующих.

Предметы и явления объективной действительности связаны друг с другом определенными отношениями, которые существуют независимо от их языковой интерпретации. Эти отношения обусловлены предметно-логическими, а не собственно языковыми (семантическими) факторами и относятся к категории внеязыковых связей. Именно эти связи позволяют на основе того или иного семантического признака объединять слова в лексико-семантические группы, которые называются парадигмами, при этом выделяя в явном виде характеристические признаки этой группы.

Рассмотрим, например, парадигму «грибы» (Слайд 11.4). К ней относятся слова: подберезовик, подосиновик, мухомор, сыроежка и т.п. Внутри такой лексико-семантической группы можно выделить парадигмы «съедобные грибы», «условно съедобные грибы», «ядовитые грибы», «пластинчатые грибы», «трубчатые грибы» и т.п. Причем, если парадигмы «съедобные грибы» и «ядовитые грибы» не пересекаются, то в парадигмах «съедобные грибы» (рыжик, млечник, подберезовик, подосиновик, сыроежка, боровик) и «пластинчатые грибы» (рыжик, млечник, сыроежка, мухомор, поганка) встречаются общие слова.

Из приведенного примера следует, что парадигматические отношения в лексике не только многоступенчаты, но и многомерны. Одно и то же слово может быть одновременно членом нескольких лексико-семантических парадигм, в которых слова противопоставлены друг другу по какому-то значению определенного семантического признака. (Слайд 11.5).

Парадигматические отношения (или - аналитические, базисные отношения) –логические отношения, существующие между лексическими единицами языка независимо от контекста их конкретного употребления. Можно сказать, что парадигматические отношения предопределяют отбор слов для какого-либо сообщения, но сами остаются за его пределами.

Другой тип отношений между словами —синтагматические отношения, которые действуют между словами в пределах конкретного сообщения, фразы.

Синтагматические отношения (или - текстуальные, синтетические, синтаксические отношения) –это связи между лексическими единицами языка, выражающие действительные конкретные логические связи между соответствующими понятиями в тексте сообщения, которые, в свою очередь, отражают конкретные ситуативные отношения между обозначаемыми ими объектами, описываемыми в сообщении.

Состав лингвистического обеспечения ИС

Лингвистическое обеспечение информационных систем - это совокупность языковых средств, позволяющих представить информационную составляющую ИС на различных этапах внутрисистемной обработки и взаимодействия с пользователем.

Такое определение предполагает, соответственно, выделение двух взаимообуславливающих аспектов использования ЛО: выражения смыслового содержания ИР и выражения информационной потребности пользователя.

Состав ЛО информационных систем может быть представлен следующей схемой (Слайд 11.6):

Предложенная схема не претендует на роль классификации, а представляет собой скорее иллюстрацию, отображающую эволюцию и особенности применения языковых средств в ИС: ИПЯ - как средства выражения смыслового содержания документов и информационной потребности пользователя; SQL - как средства управления данными; терминологических структур - как моделей данных, с одной стороны, и понятийных систем, выражаемых средствами искусственного языка с естественной лексикой –с другой.

То есть, ИПЯ - это искусственный язык, специально сконструированный для удобного (человеку) выражения основного смыслового содержания документов и запросов с целью последующего их сопоставления (системой). ИПЯ обеспечивают компактную, строго алгоритмизированную и удобную для ЭВМ и человека запись наиболее существенных сторон содержания документов и запросов (Слайд 11.7). 

Целесообразно привести замечание, касающееся особенностей использования наиболее распространенных дескрипторных и иерархически организованных языков. Язык, построенный на основе классификации (УДК, рубрикаторы и др.), позволяет потребителю легко найти свое место в информационной среде, как бы причислив себя к классу других потребителей. Дескрипторный же язык дает потребителю средство индивидуализироваться, отбирать документы по существенным для него признакам. По существу, дескрипторный язык может выступать как дополнение к классификационному. Следует, однако, отметить, что с точки зрения типологии любой классификационный язык может быть отнесен к дескрипторному, если под дескриптором понимать признак (имя признака в пространстве предметно-тематических признаков), т.е. система имен признаков функционирует как система дескрипторов.

11.2. Знаковые системы

Знаки - объекты, используемые в процессе человеческого обмена информацией, осуществляемого его участниками сознательно, преднамеренно и целенаправленно.

Во всех случаях преднамеренного обмена информацией мы имеем дело со знаками. Все системы средств, используемых человеком для обмена информацией, являются знаковыми, т. е. системами знаков и правил их употребления.

Под типом знаковых систем понимают набор знаковых систем с одинаковыми характеристиками знака, на котором они базируются. Например, слово –базисный знак языка, отличается по своим характеристикам и свойствам от математического символа, и поэтому они порождают разные типы знаковых систем.

Всего можно выделить пять типов знаковых систем (Слайд 11.8):

знаковые системы, построенные на «естественных знаках» (под естественным знаком понимают предмет реального мира, который сам, являясь частью целого, свидетельствует о других частях этого целого, об их связях и тенденциях);

образные знаковые системы (как знак «образ» представляет всегда целый класс аналогичных вещей или явлений, то есть более объемную часть действительности, нежели естественный знак);

языковые системы (языковые знаковые системы представлены в основном естественными языками);

знаковые системы записи (базисным знаком для систем записи является не слово, а меньшая и более абстрактная единица);

математико-формализованные (кодовые) знаковые системы.

11.3. Частотные словари, словари предметной области.

Кодификаторы, классификаторы, тезаурусы, онтологии.

В большинстве информационных систем помимо ИПЯ на этапах индексирования и поиска документов применяются различные средства, имеющие лингвистическую природу, например, тематические рубрикаторы, тезаурусы, словари как информативных, так и неинформативных лексических единиц, словари синонимов, словари словосочетаний и т.п.

Организационная типология терминологических структур, приведенная на слайде (Слайд 11.9), тесно связана с типологией по семантическому признаку. С точки зрения семантики словоупотребления терминологические структуры могут быть разделены на семантически упорядоченные и семантически неупорядоченные. При этом семантически неупорядоченные терминологические структуры всегда имеют линейную организацию, а семантически упорядоченные –иерархическую или сетевую организацию.

Семантически упорядоченные терминологические структуры отражают оба типа связей, которые могут существовать между отдельными терминами –парадигматические и синтагматические. Парадигматические связи характеризуют различные виды отношений –отношения иерархии, ассоциативные отношения и отношения эквивалентности. Синтагматические связи показывают логические отношения между понятиями.

Частотный словарь

Частотный словарь –перечень дескрипторов и ключевых слов. Термины располагаются в алфавитном порядке, либо в порядке убывания (возрастания) частоты использования их в информационном массиве.

Частотная характеристика термина показывает количество документов информационного массива, в которых термин встретился хотя бы один раз. Частота встречаемости ориентирует пользователя в лексике информационного массива с точки зрения включения какого-либо термина в поисковый запрос.

Рассмотрим, например, фрагмент частотного словаря ретроспективной реферативной БД «Информатика» (1986-2002 гг) –Слайд 11.10.

Из приведенного примера следует нецелесообразность использования в поисковых запросах ключевого слова информационная деятельность без соответствующих уточнений о видах такой деятельности (например, информационная деятельность и лингвистика).

Иерархические классификационные структуры

Иерархическая организация терминов или понятий, подобная схеме библиотечной классификации, позволяет для данного входа словаря найти более широкое понятие, перемещаясь вверх по схеме, или более узкое, перемещаясь вниз по схеме. Иерархические терминологические структуры отражают отношения «род-вид» или «часть-целое».

Указатель иерархических отношений терминов может быть создан только после решения проблемы классификации понятий. Он разрабатывается на основе классификационных схем понятий, поскольку фактически в иерархическом указателе находят отражение иерархические цепочки подчинения понятий, зафиксированные в классификационных схемах. В качестве основных входов этого указателя выбираются те заглавные термины, которые не имеют родовых дескрипторов (т. е. стоят на верхней ступени иерархического дерева).

К иерархическим классификационным структурам относятся различные рубрикаторы, кодификаторы и классификаторы, фиксирующие подчинение терминов в определенной предметной области (например, рубрикатор ГРНТИ, рубрикатор ВИНИТИ и др.)

Рассмотрим фрагмент Рубрикатора ВИНИТИ для заглавной рубрики «201 Информатика» (Слайд 11.11). Рубрикатор ВИНИТИ является локальным (отраслевым) по отношению к Государственному рубрикатору НТИ и отличается большей детализацией рубрик с развитием на глубину до восьмого уровня.

Тезаурусы

Основными представителями сетевых терминологических структур являются тезаурусы.

Весь окружающий нас мир можно рассматривать как множество, состоящее из двух элементов: предметов и их отношений. Этот реально существующий мир отражается в сознании человека в форме взаимосвязанных понятий, т. е. в такой форме мышления, при которой в сознании фиксируются только существенные связи и признаки предмета.

Тезаурус может быть представлен как семантическая сеть, в которой понятия связаны регулярными и устойчивыми семантическими отношениями –иерархическими (например, род-вид, целое-часть), ассоциативными, а также отношениями эквивалентности. При этом отдельное понятие определенной области знаний в тезаурусе представлено словом или словосочетанием, соотносящимся с другими словами и словосочетаниями и образующим вместе с ними замкнутую систему.

Иерархические отношения в тезаурусе представляют собой классификацию, основанную на словах естественного языка, а не на абстрактных категориях, поэтому нарушается правильная структура дерева –один и тот же термин может иметь несколько «родителей» –вышестоящих терминов на предыдущем уровне.

Тезаурус, отображая возможные семантические связи терминов, представленных в БД, является идеальным лексическим инструментом информационно-поисковых систем, с помощью которого можно найти необходимую лексику для составления запросов или их модификации с целью достижения наилучших показателей эффективности поиска.

Информационно-поисковые тезаурусы. Информационно-поисковые тезаурусы позволяют решить проблему соотнесения:

  •  авторской терминологии (понятиями и словами естественного языка, которые автор использует для обозначения этих понятий);
  •  терминологии системы (понятиями и терминами, которые используются для выражения этих понятий при вводе документов в ИПС);
  •  терминологии потребителя (понятиями и терминами, которые потребитель использует для представления этих понятий при формировании запросов).

Таким образом, тезаурус выступает как средство уменьшения семантического расстояния между выражением тематики документа и поисковым запросом.

Являясь лексическим инструментом информационно-поисковых систем, тезаурус состоит из контролируемого, но изменяемого словаря терминов, между которыми указаны смысловые связи. Такой словарь исчерпывающим образом покрывает некоторую специфическую область знаний и представляет собой перечень лексических единиц, упорядоченных по систематическому и алфавитному принципам. Кроме этого между лексическими единицами заданы смысловые отношения как иерархического (родо-видового), так и неиерархического типа (ассоциативного).

Лексическая единица (ЛЕ) информационно-поискового тезауруса –выбранное для использования в тезаурусе слово, словосочетание или лексически значимый компонент сложного слова естественного языка.

Дескриптор –лексическая единица, предназначенная для использования в поисковых образах документов и/или запросов.

Аскриптор (недескриптор) –лексическая единица, которая в поисковых образах документов (запросов) подлежит замене на дескриптор при поиске или обработке информации.

Соответственно, информационно-поисковые тезаурусы подразделяют на два типа:

  1.  тезаурусы, выделяющие среди своих лексических единиц дескрипторы и аскрипторы;
  2.  тезаурусы, все лексические единицы которых являются дескрипторами.

Приведем пример полной словарной статьи дескриптора Тезауруса по информатике (Слайд 11.12).

Онтология как средство формализованного

представления информации

Одним из перспективных направлений в области формализации знаний, которое дает возможность использования накопленных знаний для компьютерной обработки, являются онтологии.

Онтология –это набор определений (на формальном языке) фрагмента декларативных знаний, ориентированный на совместное многократное использование различными пользователями. В онтологии вводятся термины, типы и соотношения (аксиомы), описывающие фрагмент знания. Таким образом, онтология определяет общий словарь для специалистов, которым нужно совместно использовать информацию в предметной области.

Понятие онтология активно применяется в информатике и искусственном интеллекте. Этот термин пришел из философии, где обозначал часть метафизики - учение обо всем сущем, о его наиболее общих философских категориях, таких как бытие, субстанция, причина, действие, явление. При этом онтология как наука претендовала на полное объяснение причин всех явлений.

Онтологии позволяют представить понятия в виде, пригодном для машинной обработки. Нередко онтологии используются в качестве посредника между пользователем и информационной системой: они позволяют формализовать договоренности о терминологии.

На слайде (Слайд 11.13) приведен фрагмент Онтологии по естественным наукам и технологиям для приложений в сфере информационного поиска.

11.4. Информационно-поисковые языки

Рассмотрим типологию ИПЯ по способности к выражению смыслового содержания документов, как структурных единиц информационной базы ИС. Опираясь на лексику, грамматику и синтаксис и в соответствии с типологией методов описания содержания документов, выделим два основных типа ИПЯ (Слайд 14):

  •  языки классификационного типа;
  •  языки дескрипторного типа.

Классификация, как средство описания содержания документа, представляет собой процесс соотнесения содержания документов с понятиями, зафиксированными в заранее составленных систематических схемах. Основная цель классификации –приписать каждый документ классу, или, иначе –приписать каждому документу имя класса, формируя тем самым множества сообщений для обработки и поиска.

Языки дескрипторного типа поддерживают процесс индексирования, который заключается в формировании описания содержания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий, либо из текста документа, и обозначающих основные понятия этого документа.

Классификации

Классификация в том виде, в каком она используется в формальной логике, близка к процессу описания предмета, его спецификации. Под спецификацией в данном случае понимается точное, однозначное и непротиворечивое обозначение предмета без указания его относительного положения в классификационной схеме.

Рассмотрим далее содержательный аспект классификации как семантической системы, предназначенной для смысловой идентификации и поиска документов.

В основе любой иерархической классификации лежит представление о том, что вся совокупность накопленных человечеством знаний может быть разделена на взаимоисключающие классы и подклассы, где каждый класс делится лишь по одному основанию (признаку), порождая одну серию подклассов. Классификационное дерево, получающееся в результате такого деления, отличается большой жесткостью.

Фасетные классификации в этом смысле существенно отличаются от иерархических. Если при составлении иерархических классификаций в некотором систематическом порядке дается перечень всех предметных комплексов, которые уже описаны в литературе, то при построении фасетной классификации дается некоторое множество элементарных термов («строительных кирпичей»), из которых можно построить большое число тематических классов.

Развитие науки, как известно, характеризуется наличием двух противоположных тенденций: во-первых, дифференциацией, в результате которой каждая наука разделяется на все новые и новые ветви; во-вторых - взаимопроникновением не только смежных, но иногда очень далеких одна от другой наук, в результате чего появляются новые, ранее не существовавшие науки. Отсюда следует, что любая претендующая на научность и перспективность классификация должна учитывать особенности развития науки и иметь такую схему, которая бы позволяла адекватно отражать в классификации новые ветви уже сложившихся наук, новые науки и возникающие в результате дифференциации последних ветви новых наук.

Классификации обычно строятся на базе классификации наук с ее делением на отдельные отрасли, хотя имеется множество объектов, особенно в области естествознания, медицины и техники, изучение которых не является задачей какой-либо одной науки (например, одна и та же машина или аппарат может применяться в различных отраслях техники).

Рассматривая классификацию как систематическое распределение объектов множества по классам, возникающее в результате последовательного многоступенчатого деления, можно выделить следующие два вида классификаций:

  •  естественные классификации —классификации, в основание которых кладутся существенные для выделяемых классов признаки.
  •  вспомогательные классификации —классификации, в основание которых кладутся несущественные для выделяемых классов признаки.

В практических задачах информационного обслуживания наиболее широко и устойчиво используются следующие системы классификации:

  •  библиотечно-библиографические, специально предназначенные для систематизации книг и других документов (наиболее известными иерархическими классификациями на сегодняшний день являются Десятичная классификация Дьюи, Библиографическая классификация Блисса, Классификация Библиотеки конгресса США, ББК; к наиболее известным классификациям, которые основываются на использовании общих категорий и фасетов, следует отнести «Классификацию с двоеточием», «Универсальную десятичную классификацию» - УДК);
  •  патентные классификации, служащие для индексирования объектов промышленной собственности, заявленных или признанных изобретениями (наиболее известными, используемыми для работы с объектами патентования изобретений, являются Международная патентная классификация (МПК) и Национальная классификация изобретений США (НКИ));
  •  классификации наук, призванные систематизировать научную информацию (Государственный рубрикатор НТИ и локальные (или отраслевые) рубрикаторы, построенные на его основе, используемые при формировании всех видов информационных изданий).

ББК - библиотечно-библиографическая классификация

Методологической основой ББК является классификация наук и явлений действительности. Она выражается в определенной субординации наук, в соответствии с классификацией видов материи и форм ее движения, переходом от простого к сложному, от низшего к высшему.

В основу членения классификационных таблиц положены разнообразные критерии: объект изучения, метод исследования, цель познания, структура объекта, его свойства, процессы, отношения, территория, исторический период и т.д. На более глубоких ступенях деления иногда применяется расположение понятий по алфавиту наименований (алфавит стран в пределах части света и др.).

ББК имеет синтетическую структуру, позволяющую многоаспектно отражать содержание произведений печати. Единство между аналогичными по статусу, но различными по содержанию элементами универсальной классификации позволяют установить следующие аспекты обобщения ББК:

  •  основные таблицы (Слайд 11.15),
  •  система типовых делений (Слайд 11.16).

Универсальная десятичная классификация

Универсальная десятичная классификация (УДК) создавалась в основном еще до того, как был разработан фасетный принцип. Поэтому в УДК этот принцип получил лишь частичное воплощение, и она, по существу, является классификацией полуфасетного типа.

УДК, построенная по систематическому принципу, понимается как система цифрового кодирования не содержания, а поисковых образов (признаков) документа, которые формально отделяются от его содержания.

C 1963 г. классификация всех публикаций в области технических и естественных наук по УДК введена в качестве обязательной в научно-технических издательствах, редакциях научно-технических журналов, органах научно-технической информации.

Все классы УДК сгруппированы в шесть фасетов (Слайд 11.17), каждый из которых подразделяется по иерархическому принципу на несколько уровней. Для идентификации отдельного класса на каждом уровне используются десятичные цифры, тем самым, в индексах УДК каждая последующая цифра не меняет значения предыдущих, а лишь уточняет их, обозначая частное понятие. Индекс УДК представляет собой последовательность десятичных цифр, возможно разделенных на группы знаками «точка».

Главными классами фасета «Общий предмет» являются:

0 Общий отдел

Философия. Психология. Логика

Общественные науки

Математика. Естественные науки

Прикладные науки. Медицина. Техника

Искусство. Декоративно-прикладное искусство. Фотография. Музыка. Игры. Спорт

Языкознание. Филология. Художественная литература. Литературоведение

География. Биографии. История

На слайде (Слайд 11.18) приведен фрагмент таблицы одного из основных делений фасета «Общий предмет» УДК «004 Информационные технологии. Вычислительная техника. Теория, технология и применения вычислительных машин и систем».

Международная патентная классификация

МПК охватывает все области знаний, которые могут подлежать защите охранными документами и имеет иерархическую 4-х уровневую структуру.

1. Раздел. Обозначается латинской заглавной буквой от А до Н и снабжен заголовком, укрупнено отражающим его содержание.

МПК включает следующие 8 разделов:

А - удовлетворение жизненных потребностей человека;

B - различные технологические процессы, транспортирование;

C - химия, металлургия;

D - текстиль, бумага;

Е - строительство, горное дело;

F - механика, освещение, отопление, двигатели и насосы, оружие, боеприпасы, взрывные работы;

G - физика;

H - электричество.

2. Класс. Каждый раздел делится на классы, обозначаемые двузначным числом. Содержание класса отражает заголовок класса. Некоторые классы снабжаются кратким перечнем относящейся к ним тематики - указателем класса.

3. Подкласс. Каждый класс содержит один или более подклассов, обозначаемых заглавной буквой латинского алфавита. Содержание подкласса определяет заголовок подкласса. Некоторые подклассы снабжаются кратким перечнем относящейся к ним тематики - указателем содержания подкласса.

4. Группа, подгруппа. Каждый подкласс разбит на подразделения, которые в дальнейшем именуются «дробными рубриками». Среди дробных рубрик различают основные группы и подгруппы.

Дробная рубрика обозначается двумя числами, разделенными наклонной чертой. Первое (максимум трехзначное, обычно нечетное) число индексирует основную группу, второе (минимум 2 цифры, обычно четное) –подгруппу. Для основной группы код подгруппы имеет значение 00. Каждую третью или четвертую цифру после наклонной черты следует понимать как дальнейшее десятичное деление предыдущей цифры.

Текст основной группы определяет область, которая считается целесообразной для проведения поиска. Текст и индексы основных групп выделены жирным шрифтом.

Текст подгруппы понимается всегда в пределах объема ее основной группы и определяет тематическую область, в которой считается целесообразным проведение поиска. Перед текстом подгруппы ставится одна или более точек, которые определяют степень ее подчиненности, т.е. указывают на то, что подгруппа является рубрикой, подчиненной ближайшей вышестоящей рубрике, напечатанной с меньшим сдвигом, т.е. имеющей на одну точку меньше.

Полный классификационный индекс МПК состоит из комбинации символов (Слайд 11.19), используемых для обозначения раздела, класса, подкласса и основной группы или подгруппы.

Основными достоинствами классификаций являются следующие:

  •  весь поток научной информации индексируется в соответствии с классификациями;
  •  классификации отражают практически все направления в науке и технике, систематизируя объекты по основным существенным признакам;
  •  использование единой классификации не только облегчает поиск, но и обеспечивает платформу для единого понимания предмета рассмотрения.

Вышеперечисленное позволяет:

  •  повысить эффективность информационного обслуживания в традиционном и автоматизированном режимах;
  •  унифицировать структуру локальных рубрикаторов и обеспечить их совместимость;
  •  обеспечить совместимость тематического описания ИР;
  •  вести статистический анализ информационных массивов и потоков и т. д.

Дескрипторные ИПЯ

Ни одна из классификаций не обеспечивает возможности поиска документов по любому, заранее не заданному сочетанию признаков (характеристик). Именно поэтому с начала 50-х годов начал распространяться метод координатного индексирования документов и основанные на этом методе дескрипторные ИПЯ (Слайд 11.20).

Дескрипторы — это предназначенные для координатного индексирования документов и информационных запросов нормативные ключевые слова, которые по определенным правилам отобраны из основного словарного состава того или иного естественного языка и у которых искусственно (при помощи соответствующих отсылок и помет) устранены синонимия, полисемия и омонимия.

Дескрипторным языком называется специальный ИПЯ, словарный состав которого состоит из дескрипторов, а грамматика —по крайней мере, из способа построения поисковых образов документов и поисковых предписаний путем координации соответствующих дескрипторов.

Для сравнительной оценки семантической силы разных ИПЯ рассмотрим особенности словарного состава (лексики) таких языков.

Существуют ИПЯ, в которых словосочетания и фразы, выражающие сложные понятия (т. е. состоящие из двух и более простых понятий), заданы в словаре наряду со словами, выражающими простые понятия. Это означает, что в таких словосочетаниях или фразах образующие их слова связаны координатной (соподчинительной) или какой-либо иной связью до процесса индексирования. ИПЯ такого типа называются предкоординированными (pre-coordinate). Словарный состав предкоординированных языков в какой-то мере напоминает двуязычные разговорники, в которых заранее составлены наиболее употребительные, с точки зрения составителей, фразы. К предкоординированным языкам относятся, например, как перечислительные, так и аналитико-синтетические классификации.

Когда применяется предкоординированный язык, то для обозначения основного смыслового содержания документов можно использовать только отдельные, никак не связываемые между собой слова, словосочетания и фразы, взятые из словарного состава данного языка. Таким образом, проводится классификация документов, т. е. их отнесение к классам, обозначенным лексическими единицами этого языка. Семантическая сила предкоординированного языка определяется главным образом тем, насколько тщательно и исчерпывающе разработана его лексика. При составлении словаря для такого языка, которое проводится до его использования, недостаточно учесть лишь специфику информационных запросов прошлого и настоящего. Необходимо также предвидеть изменения информационных потребностей в будущем. Это очень трудная задача, удовлетворительное решение которой едва ли возможно. Таким образом, предкоординированным языкам органически присуща недостаточность словарного состава, а, следовательно, и небольшая семантическая сила.

Другой тип ИПЯ —это такие, в которых лексические единицы (термины, слова) объединяются в «предложения» (поисковые образы) лишь во время индексирования документов или даже в процессе их поиска. Такие ИПЯ называются посткоординируемыми (post-coordinate). До индексирования лексические единицы посткоординируемых языков не связаны никакими синтагматическими отношениями. Можно провести определенную аналогию между посткоординируемыми языками и алфавитом любого естественного языка. В естественном языке соединение букв в слова производится лишь в процессе письма, а до этого буквы никак не связаны одна с другой. Точно так же из сравнительно небольшого числа лексических единиц посткоординируемого языка можно построить «предложение» (поисковый образ), выражающее практически любой смысл. Очевидно, что такие языки будут семантически более сильными, чем предкоординируемые.

На слайде (Слайд 11.21) приведена типология ИПЯ с точки зрения их семантической силы.

Главная особенность классификаций состоит в том, что их словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. При переводе текста, выражающего основное смысловое содержание документа или информационного запроса, с естественного языка на предкоординируемый язык можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение новых лексических единиц строго ограничено; оно возможно лишь до индексирования документов, т. е. при создании языка. Поэтому классификации не обладают такой «семантической силой», которая необходима для эффективного информационного поиска по запросам любого типа.

Соответственно, основные трудности информационного поиска возникают вследствие того, что процессы индексирования документов и их поиска разделены во времени, причем иногда весьма значительно. Если бы можно было заранее предвидеть все варианты информационных запросов, которые могут возникнуть у потребителей информации, то документы можно было бы адекватно заиндексировать, по-видимому, средствами любого ИПЯ, хотя для этого, возможно, пришлось бы в необходимой степени расширить основной словарный состав классификации. Но такое условие не выполнимо в принципе, т.к. специфика информационных запросов зависит от развития науки и техники, от изменяющихся научных интересов потребителей информации, их индивидуальных особенностей и т. д.

 


 

А также другие работы, которые могут Вас заинтересовать

67229. Задачи и особенности объектно-ориентированного проектирования программных средств 177.5 KB
  Объектно-ориентированное проектирование ООП предназначено организовывать программные системы с большими базами данных на основе описаний объектов реального мира важных для пользователей. Объектно-ориентированное проектирование представляет собой стратегию в рамках которой...
67230. ПРАВОВЫЕ СИСТЕМЫ И ПРАВОВЫЕ СЕМЬИ 123 KB
  Для обозначения связи этих факторов развития общества с правовым регулированием в его исторической перспективе необходим раздел правоведения занимающийся изучением не только и не столько внутренней структуры системы права сколько выяснением закономерного места последнего в общем контексте...
67231. ВЫВИХИ 84.5 KB
  Знать: механизм диагностику принципы лечения вывихов Уметь: оказать помощь при вывихах на догоспитальном этапе Иметь представление о способах вправления вывихов и последующей реабилитации больных Учебная комната перевязочная операционный блок. Определение и классификация вывихов...
67232. Розвиток культури України в умовах державної незалежності 211.5 KB
  Значно ускладнилася в ці роки ситуація на міжнародній арені, особливо після знищення радянським винищувачем південнокорейського пасажирського літака "Боїнг-747". Негативні явища в економіці СРСР і в його зовнішній політиці протягом 20 років (1965-1985 pp.) політичного консерватизму...
67233. Организация деятельности маркетинговых служб 177 KB
  Организация деятельности маркетинговых служб Процесс управления маркетингом состоит из: анализа рыночных возможностей; отбора целевых рынков; разработки комплекса маркетинга; претворения в жизнь маркетинговых мероприятий. Сегмент рынка состоит из потребителей одинаково реагирующих...
67234. Безопасность в чрезвычайных ситуациях 22.11 KB
  Классификация чрезвычайных ситуаций Существуют различные классификации чрезвычайных ситуаций. В первый из названных типов входят социально-политические конфликты а в последний три класса чрезвычайных ситуаций стихийные бедствия техногенные технологические катастрофы...
67235. Историческая типологизация культуры 31.5 KB
  Историческая типологизация культуры Предполагает выделение в истории человечества определенных историко-культурных эпох с целью анализа изменения культуры. Историко-культурная эпоха это длительный период доминирования сходных культурных форм выделяемый на основе таких признаков...
67237. Активный и пассивный словарный запас 110.5 KB
  Лексика языка почти непрерывно пополняется новыми словами возникновение которых связано с изменениями в жизни общества развитием производства науки и культуры. Так как закрепление в языке новых слов и значений и особенно уход из языка устаревшего – процесс постепенный и...