35872

Информационно-поисковый язык Система индексирования

Шпаргалка

Информатика, кибернетика и программирование

Осуществление выдачи системой требуемых данных реализуется с помощь главной операции документальной ИПС проведения информационного поиска. В то же время во множестве выданных ему документов присутствуют и такие которые не отвечают запросу т. Коэффициент полноты p характеризующий долю выданных релевантных документов во всем массиве релевантных документов: 2. Коэффициент точности n характеризующий долю выданных релевантных документов во всем массиве выданных документов: 3.

Русский

2013-09-20

157.4 KB

14 чел.

77. Общая функциональная структура документальной ИПС.

Основной функцией любой документальной информационно-поисковой системы (ИПС) является информационное обеспечение потребителей на основе выдачи ответов на их запросы. Осуществление выдачи системой требуемых данных реализуется с помощь главной операции документальной ИПС - проведения информационного поиска. Информационный поиск является процедурой отыскания документов, содержащих ответ на заданные потребителем вопросы.

В состав типичной документальной ИПС входят, как правило, четыре основные подсистемы:

  1.  Подсистема ввода и регистрации.
  2.  Подсистема обработки.
  3.  Подсистема хранения.
  4.  Подсистема поиска.

Текстовые документы, поступающие на вход системы, могут быть представлены как в бумажном, так и в электронном виде (в одном из многочисленных форматов). Поэтому подсистема ввода и регистрации решает следующие основные задачи:

  1.  создание электронных копий бумажных документов (например, сканирование с последующим распознаванием текста или ввод с клавиатуры);
  2.  обеспечение подключения к каналам доставки электронных документов;
  3.  распознавание, а при необходимости и преобразование формата электронных документов;
  4.  присвоение, электронным документам уникальных идентификаторов (регистрация), а также ведение таблицы синхронизации имен (при необходимости сохранения прежних имен).

Все поступающие документы без внесения в них каких-либо изменений направляются в подсистему хранения для сохранения в базе документов. подсистема хранения представляет собой совокупность стандартных или специализированных средств архивации, СУБД и т.п., обеспечивающих возможность доступа к данным по предъявляемому идентификатору.

Далее документы поступают на вход подсистемы обработки, которая производит индексацию документа стоится поисковый образ документа (ПОД), сохраняемый в индексе.

При поступлении на вход системы запроса пользователя он преобразуется в поисковое предписание (ПП) и передается в подсистему поиска, задачей которой является отыскание в индексе ПОД, удовлетворяющих ПП с точки зрения критерия смыслового содержания (КСС). Идентификаторы релевантных документов подаются с выхода подсистемы поиска на вход подсистемы хранения, которая осуществляет выдачу пользователю самих релевантных документов.

.

78 . Информационно-поисковый язык Система индексирования. Цель процесса индексирования.

Информационно-поисковый язык (ИПЯ), знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска. Любой абстрактный информационно-поисковый язык. состоит из алфавита, правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации — как надлежит понимать эти слова и выражения.

ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным, удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного ИПЯ учитываются специфика отрасли или предмета, для которой этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно-поисковая система.

В большинстве ИПЯ основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких ИПЯ выполняют функцию синтаксиса. В некоторых ИПЯ основной словарный состав задаётся методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ, а из этих слов — выражения (фразы) и какие из них будут правильно построенными.

Индексирование, процесс выражения главного предмета или темы текста какого-либо документа в терминах ИПЯ. Применяется для облегчения поиска необходимого текста среди множества других. Проводится индексирование как целого документа, так и его части. Для индексирования нередко используются заглавия текстов. При индексирование опускаются сопутствующие предметы или темы. Это служит причиной того, что при поиске не найденными остаются тексты, для которых предмет или тема информационного запроса является не главной, а сопутствующей. Различают 2 основных типа индексирование — классификационное и координатное.

При классификационном индексировании, или классифицировании, тексты в зависимости от их содержания включаются в соответствующий класс (один или несколько), в котором собираются все тексты, имеющие в основном одинаковое смысловое содержание. Каждому такому тексту присваивается индекс этого класса, служащий далее его поисковым образом. При координатном индексировании основное смысловое содержание текста выражается перечнем полнозначных слов, выбираемых либо из самого текста или его заглавия, либо из специального нормативного словаря. В первом случае такие лексические единицы называются ключевыми словами, а во втором — дескрипторам индексирования. Каждое ключевое слово или дескриптор обозначает класс, в который потенциально входят все тексты, где в выражения основного смыслового содержания входит это слово. При координатном индексировании смысловое содержание текста выражается как бы указанием его координат в некотором n-мерном смысловом пространстве. Основное преимущество координатного индексирования перед классификационным заключается в том, что координатное индексирование не создаёт никаких затруднений при поиске текстов по любому, заранее не предусмотренному сочетанию признаков.

Цель процесса индексирования в документальных системах - приписать каждой единице хранения некоторое множество идентификаторов, отражающих содержание документа

79. Оценка качества документальной ИПС. Показатели эффективности документальной ИПС.

Для автоматизации процесса информационного поиска используется формализация представления основного смыслового содержания информационного запроса и документов в виде соответственно поискового предписания (ПП) и поисковых образов документов (ПОД). Однако в ПОД и ПП отражается лишь основное смысловое содержание поступающих сообщений в сокращенном виде. Поэтому метод информационного поиска, основанный на сопоставлении ПП с ПОД, не в состоянии полностью обеспечить отыскания всех документов отвечающих информационному запросу. Это приводит к тому, что часть документов, отвечающих запросу, т.е. релевантных ему, остается невыданной потребителю. В то же время во множестве выданных ему документов присутствуют и такие, которые не отвечают запросу, т.е. не являются релевантными. Таким образом, практически любой реальной документальной ИПС присущи два основных типа ошибок:

  1.  ошибки 1-го рода (или пропуск цели): невыдача потребителю фактически релевантных его запросу документов;
  2.  ошибки 2-го рода (или ложная тревога, иначе шум): выдача потребителю нерелевантных документов, которые не отвечают поставленному запросу.

Наличие ошибок 1-го и 2-го рода в реальной системе обуславливает разбиение всего массива документов системы по отношению к запросу на 4 подмассива:

Разбиение массива документов

Имеются следующие показатели эффективности ДИПС:

1. Коэффициент полноты p, характеризующий долю выданных релевантных документов во всем массиве релевантных документов:

2. Коэффициент точности n, характеризующий долю выданных релевантных документов во всем массиве выданных документов:

3. Коэффициент шума e, характеризующий долю выданных нерелевантных документов во всем массиве выданных документов:

4. Коэффициент осадка q, характеризующий долю выданных нерелевантных документов во всем массиве нерелевантных документов:

5. Коэффициент специфичности k, характеризующий долю невыданных нерелевантных документов во всем массиве нерелевантных документов:

80. Фактографические системы. Что такое предметная область? Модели данных.

Фактографические системы оперируют фактическими сведениями, представленными в виде специальным образом организованных совокупностей формализованных записей данных. Центральное функциональное звено фактографических информационных систем - системы управления базами данных (СУБД).

Любая ИС оперирует той или иной частью реального мира - предметной областью. Предметная область рассматривается как некоторая совокупность реальных объектов (сущностей) и связей между ними. Каждый объект обладает определенным набором свойств (атрибутов). Предметная область может включать не только физические объекты, но и сведения о процессах, абстракциях.

Между сущностями могут существовать связи разного рода. Так, любой служащий принадлежит некоторому отделу организации, поэтому в число атрибутов сотрудника может потребоваться включить атрибут "отдел".

Предметная область ИС "материализуется" в форме хранимой в памяти ЭВМ структурированной совокупности данных, которые характеризуют состав объектов предметной области, их свойства и взаимосвязи. Такое отражение предметной области принято называть базой данных (БД).

Объектное ядро предметной области

Объект - то, что существует вне нас и независимо от нашего сознания, явление внешнего мира, материальной действительности.

Объекты потенциально обладают огромным количеством свойств и находятся в потенциально бесконечном числе взаимосвязей друг с другом. Однако среди всего множества свойств и взаимосвязей между объектами имеет смысл выделять лишь существенные, важные с точки зрения потребителя информации.

Предмет - объект, ставший носителем определенной совокупности свойств и входящий в различные взаимоотношения, которые представляют интерес для потребителей информации. Один и тот же объект может восприниматься разными системами как разные предметы. Таким образом, предмет - это модель реального объекта.

Совокупность объектов, информация о которых представляет интерес для пользователей, образует объектное ядро предметной области.

Понятие «предметная область» соответствует точке зрения потребителей информации на объектное ядро, при которой выделяются только те свойства объектов и взаимосвязи между ними, которые представляют определенную прагматическую ценность и должны фиксироваться в базе данных. Таким образом, предметная область представляет собой абстрактную картину реальной действительности, определенная часть которой фиксируется в качестве модели фрагмента действительности.

Способ отображения сущностей, атрибутов и связей на структуры данных определяется моделью данных. Принято выделять иерархическую (логическая модель данных в виде древовидной структуры.), сетевую (логическая модель данных в виде произвольного графа), реляционную (логическая модель данных в виде таблиц) модели данных и иногда модель на основе инвертированных списков. Соответственно говорят об иерархических, сетевых, реляционных СУБД.

81. Информационно-логическая модель данных.

Цель инфологического моделирования – обеспечение наиболее естественных для человека способов сбора и представления той информации, которую предполагается хранить в создаваемой базе данных. Поэтому инфологическую модель данных пытаются строить по аналогии с естественным языком (последний не может быть использован в чистом виде из-за сложности компьютерной обработки текстов и неоднозначности любого естественного языка). Основными конструктивными элементами инфологических моделей являются сущности, связи между ними и их свойства (атрибуты).

Проектирование ИС состоит в построении комплекса взаимосвязанных моделей данных.

Инфологическая модель предметной области строится первой. Предварительная инфо-логическая модель строится еще на предпроектной стадии и затем уточняется на более поздних стадиях проектирования баз данных. Затем на ее основе строятся концептуальная (логическая), внутренняя (физическая) и внешняя модели

Информационно-логическая модель отображает данные предметной области в виде совокупности информационных объектов и связей между ними. Эта модель представляет данные, подлежащие хранению в базе данных. Каждый информационный объект в модели данных должен иметь уникальное имя.

Информационный объект – это информационное описание некоторой сущности предметной области; реального объекта, процесса, явления или события. Информационный объект является совокупностью логически взаимосвязанных реквизитов, представляющих качественные и количественные характеристики сущности. Примерами сущностей являются: товар, поставщик, заказчик, поставка, отгрузка, сотрудник, отдел, студент, преподаватель, кафедра и т.п.

Информационный объект имеет множество реализаций - экземпляров объекта. Например, каждый экземпляр информационного объекта товар содержит значения реквизитов по товару определенного наименования. Экземпляр объекта должен однозначно определяться среди всего множества экземпляров, т.е. идентифицироваться значением уникального (первичного) ключа информационного объекта. Уникальность ключа означает, что любое значение ключа не может повториться в каком-либо другом; экземпляре объекта. Простои ключ состоит из одного реквизита. Составной ключ — из нескольких реквизитов. Реквизиты информационного объекта подразделяются на ключевые и описательные, которые являются функционально зависимыми от ключа.

82. Основные понятия ER-модели. Сущность. Связь. Атрибут. В чем различие между типом и экземпляром сущности?

ER-модель была предложена Петером Пин-Шен Ченом в 1976 г. На использовании разновидностей ER-модели основано большинство современных подходов к проектированию баз данных (главным образом, реляционных). Моделирование предметной области базируется на использовании графических диаграмм, включающих небольшое число разнородных компонентов. В связи с наглядностью представления концептуальных схем баз данных ER-модели получили широкое распространение в системах CASE, поддерживающих автоматизированное проектирование реляционных баз данных.

Основными понятиями ER-модели являются сущность, связь и атрибут.

Сущность – любой различимый объект (объект, который мы можем отличить от другого), информацию о котором необходимо хранить в базе данных. В диаграммах ER-модели сущность представляется

Атрибут – поименованная характеристика сущности. Свойство сущности, представляющее интерес, называют атрибутом. Каждая сущность должна иметь свойства, которые ее описывают. Некоторые атрибуты сущности не только описывают, но и уникальным образом идентифицирует ее. Это может быть отдельное свойство-атрибут или сочетание свойств. Их называют первичным ключом или уникальным идентификатором сущности. Если первичный ключ состоит более чем из одного свойства, его называют составным первичным ключом. Если существует несколько возможностей для выбора первичного ключа, то каждый вариант называют ключом-кандидатом или возможным ключом.

Как и в случае с сущностями важно различать атрибуты и экземпляры атрибутов. Атрибутом автомобиля является "Регистрационный номер", а экземпляром  этого атрибута – 174 РОН.  в виде прямоугольника, содержащего имя сущности. Сущностями могут быть люди, места, самолеты, рейсы, вкус, цвет и т.д. Необходимо различать такие понятия, как тип сущности и экземпляр сущности. Понятие тип сущности относится к набору однородных личностей, предметов, событий или идей, выступающих как целое. Экземпляр сущности относится к конкретной вещи в наборе. Например, типом сущности может быть ГОРОД, а экземпляром – Москва, Киев и т.д..

Связь – это графически изображаемая ассоциация, устанавливаемая между двумя сущностями. Эта ассоциация всегда является бинарной и может существовать между двумя разными сущностями или между сущностью и ей же самой (рекурсивная связь). В любой связи выделяются два конца (в соответствии с существующей парой связываемых сущностей), на каждом из которых указывается имя конца связи, степень конца связи (сколько экземпляров данной сущности связывается), обязательность связи (т.е. любой ли экземпляр данной сущности должен участвовать в данной связи).

Сущности могут находиться между собой в одном из следующих отношений: один-к-одному, один-ко-многим, многие-ко-многим.

Отношения могут связывать сущность саму с собой. Такие отношения называют рефлексивными. Типичный пример – отношение для сущности Employees, используемое для определения структуры подчиненности в организации. Рефлексивные отношения часто отражают иерархические отношения внутри структуры данных.

Сущность изображается в виде прямоугольника с именем в верхней части.

В прямоугольнике могут быть перечислены атрибуты сущности. Атрибуты, принадлежащие уникальному идентификатору или первичному ключу, подчеркиваются.

Отношение (связь) изображается линией между двумя сущностями

83. Уникальный идентификатор сущности. Нормальные формы ER-схем. Нормализация отношений.

Информационно-логическая модель отображает данные предметной области в виде совокупности сущностей и связей между ними. Эта модель представляет данные, подлежащие хранению в базе данных.

Сущности – это информационное описание некоторого понятия предметной области; реального объекта, процесса, явления или события. Сущность представляет совокупность логически взаимосвязанных атрибутов.

Сущность имеет множество реализаций – экземпляров сущности.. Экземпляр сущности должен однозначно определяться среди всего множества экземпляров, то есть идентифицироваться значением уникального (первичного) идентификатора сущности.. Уникальность означает, что любое значение идентификатора сущности не может повториться в каком-либо другом; экземпляре сущности.

Нормализация – пошаговый процесс разложения (декомпозиции) исходных сущностей на более простые. Каждая следующая нормальная форма обладает «лучшими» свойствами, чем предыдущая. Нормализация является основой для удаления из сущностей нежелательных функциональных зависимостей (ФЗ). ФЗ подразумевается, если можно определить значение атрибута, зная значение некоторого другого атрибута. Например, если известно название страны, то можно определить название ее столицы. Следовательно, между страной и ее столицей имеется функциональная зависимость.

Существует еще один вариант зависимости, известный как многозначная зависимость (МЗЗ). Она означает, что если известно значение одного атрибута, то можно определить набор значений другого атрибута. Например, зная название страны, можно определить названия всех ее аэропортов. Следовательно, между страной и аэропортом существует многозначная зависимость.

ФЗ                A  B   (A определяет B)

МЗЗ A B (A определяет набор B)

Нормальные формы помогают проектировать данные, в которых нет ненужных избыточных фактов (данных) и противоречий, которые могут повлечь за собой проблемы производительности или потерю информации при последующем выполнении операций вставки, обновления и удаления. Нормальные формы позволяют избежать искажения данных путем создания ложных данных или разрушения истинных.

Нормализация обеспечивает, что при работе с данными не будет следующих проблем:

  1.  Избыточность данных. Повторение данных в базе данных.
  2.  Аномалия обновления. Противоречивость данных, вызванная их избыточностью и частичным обновлением.
  3.  Аномалия удаления. Непреднамеренная потеря данных, вызванная удалением других данных.
  4.  Аномалия ввода. Невозможность ввести данные в таблицу, вызванная отсутствием других данных.

В теории реляционных баз данных принято выделять следующую последовательность нормальных форм:

первая нормальная форма (1NF)

вторая нормальная форма (2NF)

третья нормальная форма (3NF)

нормальная форма Бойса-Кодда (BCNF)

четвертая нормальная форма (4NF)

пятая нормальная форма (5NF)

В большинстве случаев третья нормальная форма служит компромиссом между полной нормализацией и функциональностью в совокупности с легкой реализацией. Существуют нормальные формы выше третьей (3NF), но практике они затрудняют разработку структур данных и снижают их функциональность.

Как и в реляционных схемах баз данных, в ER-диаграммах вводится понятие нормальных форм, причем их смысл очень близко соответствует смыслу реляционных нормальных форм.

В первой нормальной форме ER-схемы устраняются повторяющиеся атрибуты или группы атрибутов, т.е. производится выявление неявных сущностей, «замаскированных» под атрибуты.

Во второй нормальной форме устраняются атрибуты, зависящие только от части уникального идентификатора. Эта часть уникального идентификатора определяет отдельную сущность.

В третьей нормальной форме устраняются атрибуты, зависящие от атрибутов, не входящих в уникальный идентификатор. Эти атрибуты являются основой отдельной сущности.


 

А также другие работы, которые могут Вас заинтересовать

57415. Пушкин, о Пушкине, с Пушкиным 184 KB
  Пушкина; воспитание эстетического вкуса у учащихся. Пушкина; мультимедийный проектор с экраном; презентация; музыкальное оформление: романс Метнера на слова Пушкина Цветок на мультимедийном компакт-диске Очарование романса...
57416. Что за прелесть эти сказки! 55.5 KB
  Цель урока: Прививать интерес к чтению Развивать образное мышление Формировать умение работать в коллективе сообща принимать решения; Воспитывать отзывчивость доброту чуткость; Привлекать детей к интеллектуальным играм...
57417. Обобщение по теме «Синтаксис» 583.5 KB
  ЦЕЛЬ: Обучающая: обучение умению работать с текстом; нахождение подлежащего и сказуемого, определение его вида; определение вида словосочетания и его синтаксической связи; подготовка к написанию сочинения.
57419. Таблица умножения и деления. Закрепление 59.5 KB
  Цель урока: Знать табличные случаи умножения и деления; уметь применять их на практике; уметь решать текстовые и геометрические задачи.
57422. МУЗЫКА В КИНОФИЛЬМАХ 1.41 MB
  Цель: показать роль музыки в кинофильмах: музыка помимо наших желаний вызывает эмоциональный отклик, дать понятие «тапер»; показать что литература и музыка не иллюстрируют одна другую, а по разному изображают мир, дополняя, обогащая и усиливая наши переживания...
57423. Женщина – хозяйка мира 54.92 KB
  Цели: дать представление о жизни русской женщины в старинной деревенской семье; развивать чувство прекрасного; воспитывать чувство патриотизма уважения к матери Оборудование: мультимедиапроектор, компьютер, рецепты блюд русской кухни...