Дополнительные возможности

⇐ ПредыдущаяСтр 6 из 27Следующая ⇒

Многие современные системы текстового поиска наряду с рассмотренными выше базовыми функциями (см. разделы 3.3, 3.4) обладают рядом дополнительных возможностей, позволяющих существенным образом повысить эффективность поиска и управляемость системы, обеспечить более комфортные условия для работы пользователя. Рассмотрим кратко эти возможности.

Взвешивание термов запроса. В формулировке пользовательского запроса не всетермы могут быть равнозначными. Некоторые системы текстового поиска позволяют пользователю придать вес применяемым в запросе термам с тем, чтобы охарактеризовать их значимость в запросе. Эта информация нужна при вычислении оценок релевантности или вероятности соответствия документов коллекции, в которой осуществляется поиск, информационным потребностям пользователя.

Ранжирование результатов поиска. В силу рассмотренных выше причин системытекстового поиска не могут гарантировать строгого удовлетворения информационных потребностей пользователя в результате выполнения поисковых запросов. Поскольку количество результирующих документов обычно бывает значительным, очень важно упорядочить документы, выдаваемые системой пользователю, таким образом, чтобы в начале списка находились те из них, которые, вероятно, в большей мере представляют интерес для пользователя. Операция такого рода называется ранжированием документов. Развитые системы текстового поиска обладают механизмами,обеспечивающими такую возможность. В зависимости от реализуемой ими модели поиска предусматривается упорядочение множества документов, выдаваемых в результате обработки пользовательского запроса, по некоторым оценкам их реле-вантности запросу или вероятности удовлетворения информационных потребностей пользователя.

Обратная связь релевантности. Этот метод повышения эффективности поиска наоснове информации обратной связи, получаемой от пользователя, был предложен более 30 лет назад [47]. Результаты обработки запроса могут не удовлетворять пользователя. Во многих системах текстового поиска пользователю предоставляется возможность в таких случаях уточнить запрос. Для этого он может дать оценку релевантности полученных документов — указать, какие из них он считает релевантными или нерелевантными.

Поскольку количество результирующих документов может быть довольно большим, пользователю предлагается оценить хотя бы несколько первых документов в ранжированном списке, то есть тех документов, которым система назначила наивысшие оценки степени релевантности. Система может использовать термы этих документов для формирования нового, расширенного запроса, который, скорее всего, будет точнее вы-ражать информационные потребности пользователя.

Такой итерационный процесс обработки запроса и модификации его с помощью анализа данных, полученных на основе обратной связи пользователя с системой, может повторяться до тех пор, пока пользователь не будет удовлетворен результатами поиска. Обратная связь релевантности используется в системах, основанных на различных моделях поиска.

Расширение запросов. Имеется в виду расширение представления запроса,первоначально предложенного системе пользователем. Эта возможность также служит для повышения эффективности поиска. Расширение запроса осуществляется на основе различных источников информации:

О синонимов термов,содержащихся в запросе,если система располагает тезаурусом,поддерживающим отношение синонимии;

О термов, которые находятся с термами запроса в некоторых других семантических отношениях, определенных тезаурусом предметной области, например представляют часть понятия, соответствующего некоторому терму запроса, и т.п.;

О термов результирующих документов, оцененных пользователем как релевантные или нерелевантные, в системах, обеспечивающих обратную связь релевантности;

О часто встречающихся орфографически-ошибочных форм некоторых термов запроса и т.д.

Автоматическое индексирование полного текста. При автоматическоминдексировании текста выделяются встречающиеся в нем отдельные слова, за исключением стоп-слов, а также словосочетания (фразы).

Каждый из таких термов используется для построения индекса документов данной коллекции. Используется два способа для выделения из документа устойчивых словосочетаний — лингвистический, основанный на синтаксическом анализе текста, и статистический, который основан на анализе статистики совместного вхождения слов втекст документа.

Мультиязыковой поиск. Некоторые системы текстового поиска позволяютосуществлять поиск в коллекциях, содержащих документы, представленные на нескольких естественных языках. Одной из сложных проблем, возникающих при этом, является идентификация языка, на котором представлен обрабатываемый документ или его фрагменты.

Кросс-языковой поиск. Существуют системы текстового поиска,допускающиеситуации, когда информационные потребности пользователя определены на одном языке, а множество документов коллекции, в которой должен осуществляться поиск, представлено на другом языке. Эта задача пока еще является в значительной мере исследовательской, хотя она уже довольно часто встречается на практике.

Пользователь может обращаться на каком-либо одном языке к коллекциям документов международных организаций, транснациональных компаний или любой организации в стране, где существует несколько государственных языков. Такие коллекции могут содержать документы на разных языках.

Основная проблема кросс-языкового поиска состоит в сопоставлении документа и пользовательского запроса, представленных на разных языках. Для ее решения необходим перевод документов, перевод запросов либо перевод того и другого вместе. При этом используются разные подходы — пословный перевод по двуязычному словарю, «ручной» перевод с поддержкой компьютера, автоматический машинный перевод полного документа или его части.

Трудность решения проблемы кросс-языкового поиска состоит также и в том, что запросы редко представляют собой законченные предложения. Поэтому при их переводе трудно не утратить смысл, особенно в отсутствие контекста. Основная цель проводимых исследований в этой области состоит в определении принципов построения систем, способных осуществлять поиск релевантных документов, независимо от того языка, на котором они написаны.

Доставка документов по назначению. Доставка документов по назначению являетсяодной из классических задач в исследованиях технологий текстового поиска. Она состоит в том, чтобы присвоить вновь поступившим документам баллы в соответствии со степенью релевантности и на этой основе произвести их ранжирование.

Многие исследования, выполняемые в этой области, посвящены созданию методов, обучающихся на заданной коллекции документов, о каждом из которых заранее известно, что он релевантный или нерелевантный.

Фильтрация документов. Фильтрация потока документов — это некоторая модификация задачи текстового поиска, имеющая дело с входным потоком документов. Цель состоит в отборе из входного потока таких документов, которые соответствуют информационным потребностям данного пользователя.

В отличие от традиционных систем текстового поиска, которые имеют дело со статическими коллекциями документов, то есть с коллекциями, не изменяющимися в процессе поиска, фильтрация документов оперирует динамическим входным потоком документов, например потоком новостных сообщений. Важно заметить, что информационные потребности пользователя остаются стабильными, а коллекция документов постоянно изменяется.

Точнее говоря, задача фильтрации заключается в следующем. Предварительно задается описание долговременных информационных потребностей данного пользователя, называемое профилем пользователя. Для каждого документа входного потока определяется, соответствует ли он заданному профилю. В зависимости от этого данный документ направляется пользователю или игнорируется. По существу, профиль пользо-вателя играет роль пользовательского запроса, и в соответствии с ним осуществляется поиск в потоке документов.

Предложено несколько подходов к решению такой задачи. Наиболее привлекателен подход, называемый адаптивной фильтрацией. При этом поисковая система настраивается на заданную информационную потребность (тему) на основе предоставленного относительно небольшого обучающего множества документов, для каждого из которых известно, что он релевантен или нерелевантен рассматриваемой теме.

Системы текстового поиска в последние годы быстро развиваются. Можно ожидать, что они будут обогащаться новыми полезными функциональными возможностями.

⇐ Предыдущая 1 2 3 4 567 8 9 10 Следующая ⇒

Date: 2015-09-27; view: 658; Нарушение авторских прав

mydocx.ru - 2015-2026 year. (0.693 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию