Модели текстового поиска

⇐ ПредыдущаяСтр 5 из 27Следующая ⇒

Существуют различные подходы к построению систем полнотекстового поиска. Это связано, главным образом, с разнообразием информационных потребностей пользователей, которое приводит к необходимости применения различных способов формулировки запросов, а также с различием возможных способов представления содержания текстовых документов в поисковых системах.

Определение модели поиска. В литературе, посвященной текстовому поиску, одним из ключевых понятий, характеризующих технологию поиска в той или иной конкретной системе, является модель поиска.

Под моделью поиска понимается сочетание:

· способа представления документов;

· способа представления поисковых запросов;

· вида критерия релевантности документов.

Разнообразие функциональных возможностей различных систем текстового поиска связано именно с различием реализованных в них моделей поиска.

Простейшие модели поиска. К этой категории относятся модели,в которых документпредставляется в виде набора ассоциированных с ним внешних атрибутов. К числу таких моделей принадлежит обсуждавшаяся в предыдущем разделе модель дескрипторного поиска, а также модель поиска, основанная на упоминавшемся выше Дублинском ядре.

Модели, основанные на классификаторах. Модели поиска,основанные наиспользовании классификаторов, хотя они и выделены здесь в особую категорию, представляют собой одну из разновидностей простейших моделей, в которых документ выглядит в виде совокупности ассоциированных с ним атрибутов.

В модели, основанной на классификаторах, документы представляются идентификаторами классов в иерархической структуре классификатора, к которым относится данный документ. Представление запроса в простейшем случае — также идентификатор какого-либо класса из заданного классификатора. Критерием релевантности документа является условие, что класс документа совпадает с классом в представлении запроса или является его подклассом.

В более сложном случае в модели поиска, основанной на классификаторах, допускается указание в запросе нескольких классов классификатора. При этом релевантными считаются документы, принадлежащие какому-либо из указанных в запросе классов. Такая модель поиска близка к рассматриваемой далее булевской модели.

Булевские модели. Особенность булевских моделей поиска заключается в том,чтопользователь может формулировать запрос в виде булевского выражения с использованием операторов И, ИЛИ, НЕТ. Термы такого выражения могут быть различными в разных вариациях модели поиска. Это может быть, например, условие вхождения данного слова или словосочетания (с точностью до грамматических форм) в текст документа в булевской модели, ориентированной на контекстный поиск. В булевской модели, ориентированной на поиск по классификаторам, термами выражения могут быть условия принадлежности документа данному классу классификатора. В булевской модели поиска с использованием Дублинского ядра термом может быть равенство, описывающее тот факт, что некоторый элемент метаданных для рассматриваемого документа имеет заданное в запросе значение.

Критерием релевантности данного документа запросу в булевских моделях поиска является истинность булевского выражения, заданного в запросе.

Булевские модели поиска обладают некоторыми недостатками. Они не позволяют ранжировать найденные документы по степени релевантности, поскольку отсутствуют критерии ее оценки. Кроме того, не каждый пользователь может свободно оперировать булевскими операторами при формулировке своих запросов.

Нужно, однако, заметить, что предпринимались попытки усложнения булевской модели поиска таким образом, чтобы обеспечить возможности ранжирования множества выдаваемых пользователю документов. Для решения проблемы ранжирования результирующих документов по степени их релевантности запросу предложено несколько вариантов так называемых расширенных булевских моделей). С этой целью вводятся специальные обобщения булевских операторов, которые позволяют придать повышенный вес документам, в точности удовлетворяющих булевскому выражению запроса, и пониженный вес — всем остальным документам.

Векторные модели. Рассмотрим теперь более продвинутые модели поиска,различныевариации которых в настоящее время широко применяются на практике. Вероятно, самыми распространенными из них являются векторные модели поиска, называемые иногда также векторными пространствами.

В векторных моделях предполагается, что документы и запросы представляются векторами. В простейшем случае координаты вектора соответствуют термам текста — словам или словосочетаниям, принадлежащим словарю системы, который представляет общеязыковую лексику или лексику предметной области. Каждому терму из такого словаря сопоставляется свое измерение в векторном пространстве. Размерность векторов, представляющих документы и пользовательские запросы, в точности равна количеству измерений в этом пространстве.

Координате вектора присваивается некоторое ненулевое значение в том и только в том случае, когда соответствующий ей терм принадлежит данному документу или запросу. Поскольку размер словаря может быть очень большим, а документы или тексты запросов состоят из существенно меньшего количества содержащихся в нем термов, такие век-торы оказываются очень разреженными. Поэтому нужно использовать какую-либо технику сжатого их представления.

Для оценки степени релевантности документа запросу (меры их близости) в векторных моделях поиска используются какие-либо векторные функции, аргументами которых выступают представляющие их вектора. Например, можно использовать в качестве такой меры косинус угла между вектором документа и вектором запроса или их скалярное про-изведение. Важно заметить, что поскольку ненулевые координаты этих векторов соответствуют только термам, входящим в текст документа и текст запроса, на значение функции-меры в обоих этих случаях оказывают влияние только термы, общие для документа и запроса.

Сети вывода. Это еще один популярный класс моделей поиска. Сети вывода, как ивероятностные модели поиска, основаны на принципе вероятностного ранжирования результирующих документов поиска. Однако, в отличие от вероятностных моделей, в моделях сетей вывода рассматривается оценка не вероятности релевантности документа запросу, а вероятности того, что он удовлетворяет информационным потребностям пользователя.

Модели этого семейства описывают процесс поиска документов как процесс рассуждений в условиях неопределенности, в котором оценивается вероятность того, что выраженные с помощью одного или нескольких запросов информационные потребности пользователя удовлетворяются.

Основой моделей рассматриваемого класса является Байесовская сеть, включающая узлы нескольких видов.

Эвристические подходы и эмпирика в моделях поиска. Завершая рассмотрениемоделей поиска, следует заметить, что в продвинутых моделях существенную роль играют элементы эмпирики и эвристики. Эвристические подходы и формализующие их эмпирические математические зависимости используются как в функциях оценки релевантности документов, так и в построении представлений документов и запросов. Поэтому таким моделям поиска свойственна некоторая неустойчивость поведения. При использовании конкретной модели поиска наряду с высокими оценками качества поиска на одной коллекции документов можно получить отнюдь не столь высокие оценки на другой коллекции.

Правдоподобные общие оценки качества поиска для модели можно получать лишь усредненно на множестве разнообразных коллекций. Существенное значение имеют и оценки результатов поиска, полученные на больших коллекциях. В проведении оценки действующих систем, несомненно, важную роль играет та поддержка, которую оказывает их разработчикам конференция TREC (см. раздел 3.2).

⇐ Предыдущая 1 2 3 456 7 8 9 10 Следующая ⇒

Date: 2015-09-27; view: 3127; Нарушение авторских прав

mydocx.ru - 2015-2026 year. (0.798 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию