Главная Случайная страница


Полезное:

Как сделать разговор полезным и приятным Как сделать объемную звезду своими руками Как сделать то, что делать не хочется? Как сделать погремушку Как сделать так чтобы женщины сами знакомились с вами Как сделать идею коммерческой Как сделать хорошую растяжку ног? Как сделать наш разум здоровым? Как сделать, чтобы люди обманывали меньше Вопрос 4. Как сделать так, чтобы вас уважали и ценили? Как сделать лучше себе и другим людям Как сделать свидание интересным?


Категории:

АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника






Текстовый поиск в Web





За короткий период существования Web объемы информационных ресурсов, доступных в этой глобальной информационной системе, достигли гигантских масштабов. Весьма значительную долю этих ресурсов составляют текстовые документы на различных языках народов мира, представленные в виде HTML-страниц. Поэтому создание доступных пользователям Web средств, реализующих технологии текстового поиска, стало крайне необходимым.

 

Поисковые машины Web.ПроектWebпервоначально предусматривал только навигационный доступ к представленным в его среде информационным ресурсам сиспользованием гиперссылок, встроенных в HTML-страницы на стадии их разработки. Однако в связи с беспрецедентно быстрым ростом объема поддерживаемых информационных ресурсов стало ясно, что для эффективного доступа к ним пользова-телей необходимо иметь возможности поиска нужных ресурсов по их свойствам.

 

Вот почему в середине 90-х годов начали появляться разнообразные общедоступные системы текстового поиска для Web. Эти системы называются по-разному: поисковыми машинами Web, поисковыми роботами, пауками и т.п. Их реализации не являются составной частью Web. Это приложения Web. Поисковые системы с определенной периодичностью (от нескольких часов до нескольких дней) сканируют страницы «подве-домственных» им Web-серверов, формируют или актуализируют индексы, с помощью которых обрабатываются поступающие пользовательские запросы.

 

Крупные поисковые системы Web поддерживают индексы гигантских объемов, обрабатывают большое количество пользовательских запросов. Поэтому они требуют очень крупных вычислительных ресурсов.

 

Ранние поисковые системы Web обеспечивали простейший контекстный поиск. Позднее стали появляться реализации булевских моделей поиска. В последние годы интерес к проблемам текстового поиска в Web значительно вырос. В настоящее время существует целый ряд систем текстового поиска для Web, универсальных и ориентированных на определенные предметные области, международных и национального масштаба: круп-нейшая многоязыковая поисковая система AltaVista, системы Yahoo, Google, поисковая система по русским страницам Web Yandex и многие другие. Они различаются областью действия — составом сканируемых Web-серверов, организацией пользовательских интерфейсов, функциональными возможностями механизмов поиска. Все они поддерживают различные версии булевской модели поиска. Ряд систем обеспечивает ранжирование результирующего множества документов. Система AltaVista реализует некое подобие обратной связи релевантности — предоставляет пользователю гистограмму, характеризующую статистику найденного множества документов по классам. Пользователь может отобрать интересующие его классы. Далее поиск повторяется в рамках идентифицированного таким способом подмножества информаци-онных ресурсов,доступных системе.

 

Особенности Web как среды поиска. В системах поиска дляWebнашли применениеотработанные за предшествовавшие его созданиюдеся-тилетия технологии текстового поиска. Однако в связи с рядом особенностей организации Web, поддерживаемых в его среде информационных ресурсов и контингента пользователей возникают новые требования к технологиям поиска.

К числу таких особенностей следует отнести:

· огромный объем поддерживаемых информационных ресурсов, который продолжает интенсивно нарастать; по оценкам специалистов [14], уже сейчас в Web содержится более миллиарда страниц; в связи с этим возникают высокие требования к масштабируемости используемых алгоритмов поиска;

 

· высокую степень динамичности коллекций информационных ресурсов Web; появляются новые и удаляются имеющиеся страницы, изменяется местоположение страниц; как показывает статистика, среднее время жизни половины страниц в Web не превышает десяти дней, ежемесячно примерно 40% страниц подвергается изменениям; этот фактор не позволяет поддерживать и использовать в алгоритмах поиска общие статистические характеристики коллекции в целом;

 

· взаимосвязанность совокупности страниц Web, поддерживаемая с помощью гиперссылок; эти связи могут использоваться при обработке запросов некоторых видов;

 

· отсутствие централизованного администрирования информационными ресурсами; в связи с этим отсутствуют гарантии целостности отдельных документов и связей между ними, тематической целостности коллекций документов;

 

· возможность свободной (несанкционированной) публикации документов и их удаления из коллекции; вследствие этого возможны нарушения целостности связей между документами коллекций и целостности отдельных документов;

 

· большую избыточность информационных ресурсов; в Web имеются многочисленные случаи, когда одновременно на разных страницах публикуется несколько копий одной или различных версий некоторой статьи, отчета или другого документа;

 

· неконтролируемое качество информационных ресурсов; при подготовке документов для публикации в Web во многих случаях отсутствует их научное и литературное редактирование, проверка орфографической корректности текста; отсутствие каких-либо ограничений на уровень квалификации авторов документов часто приводит к публикации недостоверной информации, к низкому качеству содержания доку-ментов, к многочисленным орфографическим ошибкам в них;

 

· существование многочисленной группы пользователей Web с недостаточным уровнем подготовки или вообще без какой-либо подготовки; многие пользователи неспособны эффективно формулировать запросы, что приводит к значительному увеличению количества выдаваемых запросов и к перегрузке системы поиска;

 

· нетерпеливость пользователей; исследования поведения пользователей при проведении поиска в Web показали, что многие из них не готовы к продолжительному ожиданию результатов поиска и к анализу результирующего множества документов для выявления в нем документов, удовлетворяющих информационным потребностям; такому поведению часто способствует и низкая пропускная способность каналов связи; в связи с таким поведением становятся неадекватными критерии качества поиска традиционных систем текстового поиска; это касается, например, критерия полноты поиска (см. выше);

 

· отсутствие возможности доступа к информационным ресурсам Web в любое время; хотя для Web декларируется принцип доступности информационных ресурсов в любое время, на практике это часто не выполняется, не все Web-серверы функционируют в режиме 365x7x24; этот факт должен также учитываться в процессе поиска;

 

· многоязычность коллекций информационных ресурсов Web; это означает, что необходимо иметь алгоритмы поиска, не зависящие от конкретного естественного языка, на котором представлены документы, анализируемые в процессе поиска.

 

Перечисленные особенности Web как среды текстового поиска приводят к необходимости пересмотра тех подходов к организации поиска, методов, алгоритмов и

методологии оценки качества, которые были созданы на протяжении длительного времени и успешно применяются в традиционных системах текстового поиска. Интересно отметить, что поиск в Web порождает новые постановки задач, не свойственные традиционным системам текстового поиска. Одна из таких задач заключается в исследовании поведения пользователя при поиске в большой коллекции взаимосвязанных документов. Другая специфическая задача — поиск домашних страниц Web-сайтов, посвященных заданной тематике. При таком поиске, естественно, по не-обходимости также должны использоваться гиперссылки, связывающие страницы Web.

 

Date: 2015-09-27; view: 542; Нарушение авторских прав; Помощь в написании работы --> СЮДА...



mydocx.ru - 2015-2024 year. (0.005 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию