21314

USING CONTEXT DATA IN INFORMATION RETRIEVAL

Научная статья

Информатика, кибернетика и программирование

Proposed approach can be easily included in current search engines. This approach is not a complete alternative to classic methods applied in popular search engines, but it can be treated as an additional improvement that provides more efficient way in positioning on relevant document.

Английский

2015-01-19

21 KB

10 чел.

Ivan Zagidulin

USING CONTEXT DATA IN INFORMATION RETRIEVAL

Department of Informatics and Processes Management, Ural State University, Ekaterinburg, Russia

 1. Introduction

The major issue of current web search engines is to provide the most relevant documents to the users. Statistics show that the vast majority of search requests consists of one or two words. Clearly there cannot be a reliable answer has given to the question that has lack of information about what user need. Words of the shot request can be included in documents of different domains. And the user has to look through a lot of irrelevant documents or send new request with additional words.

So, current interface of web search engines assumes that the user repeatedly will adjust his request. It is supposed that usage of surrounding context of the request can solves this problem. This paper proposes a new interface web search engines different from command line. Base on this interface search engine will be able to receive current browsing context and use it in search results ranking algorithm. Developed context-based techniques allow to define the domain of the request and retrieve documents in which search phrase has certain meaning.

Proposed approach can be easily included in current search engines. This approach is not a complete alternative to classic methods applied in popular search engines, but it can be treated as an additional improvement that provides more efficient way in positioning on relevant document.

 2. Context-based search

An idea of out technique is to provide for the IR-system both search request and context, in which the user encountered the information of interest. IR-system finds the documents containing the request, and the ranking function assigns the highest priority for the text closest to the context. This approach does not depend on the way of context's gathering and measure used for  documents proximity calculation.

In out paper we assume that context is structure, containing user's current working environment data, that obtained without user participation and provided for IR-system along with request. Words «current working environment» in this definition means text, surrounding searched terms. Context may also contain web-browsing history, information about most visited pages, system platform and browser. Notice that this information can be gathered by search client automatically so that the user shouldn't «specify the context» himself (like choosing from given categories or using special query syntax).

Thus, the idea of applying query context in information search may have many implementations and can be embedded as plug-in in existing search engines.

Different disambiguation techniques may be used in our approach but algorithms without supervisor are more appropriate in this case. First, modern IR-systems have huge collections of documents and a lot of routing work is needed to mark them. Second, the structure of inverted search index are suitable for unsupervised methods. In search index each term has a corresponding list of documents, containing it. We only must group this documents in clusters using appropriate metric for implementation of our technique. Variable parameters of such approach are proximity measure, text representation and clustering algorithm. Extending documents corpus new texts may be added to existing clusters or set a new group, depending on value of measure.

System based on clustering of text collection may have following architecture:

  1.  Firstly, the construction of inverted search index from plain text corpus take place. For each new term we find all documents, containing it, and run clustering algorithm. As result each term will have corresponding set of clusters (set of tokens). Thus we construct modified search index (homonym thesaurus) in which a set of tokens corresponds for each term and a set of documents corresponds for each token.
  2.  We can easily find relevant documents using constructed homonym thesaurus. Request to search system in our approach consists of two parts: the query and its context. We will have to find the cluster, nearest to the query context.

 3. Experiments and conclusion

To test our ideas, we implemented experimental prototype of system, building inverse search index from text collection. Each document was represented as a vector of term weights. The nearer term to the requested word, the greater value it obtained. We used hierarchical algorithms for clustering documents. Distance between clusters was equal to the maximum distance between any two vectors from different clusters.

After learning phase clusters was represented by their centroids. This representation requires less of memory and provides fast distance calculation. Distance between context vector and cluster was found as distance to centroid of this cluster.

Experiments show that using our technique documents with close contexts are retrieved on requests, especially in case of collocations, idioms and phrasal verbs. The idea of using context for request disambiguation can be naturally added to existing search engines to bring more effectiveness.


 

А также другие работы, которые могут Вас заинтересовать

82286. Политические партии и течения в период от февраля к октябрю 1917 года 39.16 KB
  Букейханов стал лидером партии Алаш его поддержали соратники: А. В апрелемае 1917 года прошли областные и уездные съезды партии Алаш где поднимались наиболее острые проблемы: запрещение переселения взаимоотношения с Китаем и Россией. Взаимодействие созданных главным образом под руководством участников Алаш казахских комитетов как органов национального самоуправления с коалиционными Советами после февральских событий привело к усилению недоверия и отчужденности в отношениях с входившими в них большевиками. Многие представители Алаш вошли в...
82287. Причины, характер и движущие силы революции 1916 г. в Казахстане. Основные очаги восстания 37.85 KB
  Основные очаги восстания Восстание охватило всю территорию Казахстана главными очагами восстания выступили: Тургайский Семиреченский и ЧуТаласский центры. Причины восстания стали следующие обстоятельства: усиление колониального гнета; изъятие земель; увеличение налогов и поборов; разжигание национальной розни; резко ухудшившееся положение народных масс; реквизиция скота и фуража у казахского населения. Локальными центрами восстания стали: СырДарьинская область Турар Рыскулов руководитель; Уральская область Сейткали Мендышев;...
82288. Развитие сельского хозяйства. Попытки реформирования в марте 1965 года 28.55 KB
  В марте 1965 года была разработана аграрная программа выхода сельского хозяйства из кризисной ситуации первой половины 1960х годов: 1 резкое увеличение государственных инвестиций для осуществления программ по комплексной механизации электрификации мелиорации работы направленные на улучшение свойств земель на повышение их производительности и химизации сельского хозяйства; 2 введение на 5 лет твердых и сравнительно низких планов заготовок колхозной продукции; 3 повышение закупочных цен на сельскохозяйственные культуры причем...
82289. Особенности установления советской власти в Казахстане 32.05 KB
  Советская власть в Казахстане устанавливалась неравномерно. Советская власть мирным путем была установлена в южных и северных районах Казахстана вооруженным путем в Оренбурге Семипалатинске Верном и других городах. В ноябре 1917 года атаман Дутов совершил контрреволюционный переворот и власть перешла Войсковому правительству таким же методом взяли бразды правления в свои руки Семиреченское войсковое правительство. 30 октября 1917 года была установлена советская власть в Перовске 1 ноября в результате ожесточенных боев в Ташкенте.
82290. События в Целинограде (Акмоле) 1979г. Уроки и последствия 29.56 KB
  Завершились отказом от идеи о немецкой автономии на территории КазССР. После упразднения в 1941 году немецкой автономии на Волге сотни тысяч немцев были переселены в Казахскую ССР. Со временем встал вопрос о восстановлении автономии немцев. Коркиным о предоставлении немецкому населению автономии в составе Казахстана.
82291. Причины и начало интервенции и гражданской войны в Казахстане. Образование фронтов в крае 31.04 KB
  Началом Гражданской войны является антисоветский мятеж Чехословацкого корпуса в мае 1918 года военнопленным солдатам которого Советское правительство разрешило вернуться домой. В ходе гражданской войны были образованы Восточный и Туркестанский фронты локальными фронтами являлись: Актюбинский Уральский Семиреченский. Яркой страницей гражданской войны является экспедиция А.
82292. Развитие промышленности в 70-80-е годы и ее сырьевая направленность 30.54 KB
  Быстрыми темпами развивалась легкая промышленность республики. В структуре экспортных поставок республики 97 приходилось на сырье. Состояние республики определялось не уровнем жизни населения полнотой и реальностью ее суверенных прав в Союзе ССР развитием духовной культуры а суммой капиталовложений тоннами добытой руды угля нефти и других ресурсов. Таким образом в экономике республики в 7080е годы проявились все те деформации которые были характерны для народного хозяйства страны в целом.
82293. Экономическая политика в годы гражданской войны 30.88 KB
  Первыми мероприятиями советской власти в Казахстане стали: национализация крупной промышленности банков и транспорта весной 1918 года; возращение крестьянам 35 млн. Для Казахстана продразверстка стала настоящим бедствием: поголовье скота составило всего 545 в 1920 году по сравнению с 1913 годом Сокращение произошло с 299 млн. в 1913 году до 163 млн. голов в 1920; посевные площади с 42 млн.
82294. Развитие сельского хозяйства в сер.60-х-нач.80-х годы 31.31 KB
  Уравнительное распределение заработной платы снижала заинтересованность рабочих в результатах своего труда объемы производства и качество продукции. Наращивание производства сельскохозяйственных продуктов в республике проходило крайне неравномерно более высокие темпы прироста были достигнуты в девятой пятилетке 3 в год. Неустойчивым было развитие зернового производства.