Полезное:
Как сделать разговор полезным и приятным
Как сделать объемную звезду своими руками
Как сделать то, что делать не хочется?
Как сделать погремушку
Как сделать так чтобы женщины сами знакомились с вами
Как сделать идею коммерческой
Как сделать хорошую растяжку ног?
Как сделать наш разум здоровым?
Как сделать, чтобы люди обманывали меньше
Вопрос 4. Как сделать так, чтобы вас уважали и ценили?
Как сделать лучше себе и другим людям
Как сделать свидание интересным?
Категории:
АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника
|
Захаров В.ПСтр 1 из 16Следующая ⇒
В.П. Захаров ИнформационнО-ПОИСКОВЫЕ
Учебно-методическое пособие
Санкт-Петербург ББК 73:81.1 З-38 Рецензенты: докт. техн. наук В.Ш. Рубашкин (С.-Петерб. гос. ун-т) канд. пед. наук О.А. Арбатская (С.-Петерб. гос. ун-т культ. и иск-в) Печатается по постановлению
Захаров В.П. З-38Информационно-поисковые системы: Учебно-метод. пособие. — СПб., 2005. — 48 с.
Предлагаемое пособие содержит описание основ документального информационного поиска, программу учебной дисциплины «Теория информационного поиска», которая изучается студентами 3-го курса отделения структурной и прикладной лингвистики Санкт-Петербургского государственного университета, и набор лабораторных (практических) работ по этой дисциплине. Отдельные лабораторные работы используются для обучения студентов других курсов и по другим дисциплинам. Пособие базируется на исследовательской и преподавательской деятельности автора. Для студентов и аспирантов, специализирующихся в области прикладной лингвистики, информационных систем и автоматизированных систем обработки текста. ББК 73:81.1
ã В.П. Захаров, 2005 ã Санкт-Петербургский 1. Введение в теорию и практику Основные понятия информационного поиска Информационно-поисковая система (ИПС) — это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации — текстов (документов) или данных (фактов). Информационно-поиско-выми системами являются любые определенным образом организованные хранилища информации. Причем информационно-поисковые системы могут быть и неавтоматизированными. Главное — это целевая функция: хранение и поиск информации. В зависимости от объекта хранения и типа запроса различают два вида информационного поиска: документальный и фактографический — и, соответственно, два типа ИПС — документальные и фактографические. Последние также называют информационно-справочными ИПС. Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий. Понятие документа может меняться от системы к системе. В общем случае это некий информационный объект, зафиксированный (обычно посредством некоторой знаковой системы) на каком-то материальном носителе (бумага, фото- и кинопленка, магнитная память и т.п.) и предназначенный для передачи в пространстве и времени в системе социальных коммуникаций. Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т.п.). Главное, сущностное, различие между документальным и фактографическим поиском заключается в подходе к семантике документов. В документальных системах описывается смысл документов в целом с точки зрения их тематического, предметного содержания. В этом случае важно выявить и назвать (перечислить) основные темы и объекты, которым посвящен документ. В фактографических системах описываются объекты, фиксируются их признаки и значения этих признаков. Отсюда различия в языках описания и способах хранения описаний в системе. Соответственно, для каждого вида поиска существуют свои поисковые средства. Фактографические системы предполагают накопление и поиск в массиве документов со строго регламентированной структурой. Такая структура является или результатом предварительной интеллектуальной обработки документов при вводе информации в систему, или наличием таких документов в готовом виде в конкретных сферах человеческой деятельности, например, учетные формы, бланки, справочники, расписания и т.п. Существуют фактографические ИПС, которые обеспечивают накопление информации и поиск только по одному типу объектов и только по одному типу запросов. Существуют и более развитые фактографические системы, обеспечивающие хранение и поиск данных, разнообразных по содержанию и структуре, но это разнообразие всегда конечно. В то же время между документальными и фактографическими системами нет непреодолимой разницы. Нередко реальные ИПС представляют собой пример смешанных систем, в которых фактографическая информация используется как дополнительное средство документального поиска, и наоборот. В документальных системах тексты (документы) также могут быть структурированы, разбиты на фрагменты или поля, и обработка и выдача документальной информации может вестись на уровне отдельных полей. Выделяют еще и третий тип систем, которые называют информационно-логическими. Это системы, отвечающие на запросы, на которые в информационной базе в явном виде ответа нет. Получить ответ помогает экстралингвистическая база знаний и информация, порождаемая алгоритмически из уже имеющейся (документальной или фактографической). Эта новая информация или выдается как ответ на запрос, или дополнительно используется для поиска. Информационно-поисковая система документального типа представляет собой упорядоченную совокупность документов, а также совокупность средств и методов, предназначенных для хранения, поиска и выдачи по запросам документальной информации. Документальная ИПС выдает документы, соответствующие запросу по теме, по предмету. Документ, центральный предмет или тема которого в целом соответствует смысловому содержанию информационного запроса, называется релевантным, а свойство смысловой близости между двумя и более текстами (в данном случае — между документом и информационным запросом) — релевантностью. Релевантность — это фундаментальное понятие теории информационного поиска. Говорят о двух видах релевантности: смысловой и формальной. Соответствие документа содержанию информационного запроса называют смысловой релевантностью, а соответствие поискового образа этого документа формализованному поисковому предписанию, выражающему данный информационный запрос, — формальной релевантностью. Также формальную релевантность называют релевантностью документа, а смысловую релевантность — релевантностью информации (имеется в виду «информации, содержащейся в документе»). Составные части ИПС называют подсистемами. Разделение на подсистемы необходимо и полезно как в целях разработки, так и для описания технологии функционирования систем. Оно может иметь разную основу. Обычно рассматривают два типа разбиения ИПС на подсистемы: по функциональному принципу (функциональные подсистемы) и по типу средств (обеспечивающие подсистемы). Различные средства, реализующие функции ИПС, получили название обеспечивающих подсистем, или «обеспечений». Выделяют следующие подсистемы: лингвистическое обеспечение, информационное обеспечение, техническое обеспечение, программное обеспечение, технологическое обеспечение, кадровое обеспечение и др. Информационное обеспечение — это информационные массивы (документы, запросы, метаданные), а также средства и способы их описания, построения и классификации. Лингвистическое обеспечение — это логико-семантический аппарат, состоящий из информационно-поискового языка, правил применения (методик индексирования), критерия выдачи и других языковых средств. Программное обеспечение — это алгоритмы и программные средства, реализующие все функции ИПС, выполняемые с помощью компьютера. Техническое обеспечение — это технические средства (компьютеры, средства телекоммуникаций), обеспечивающие хранение, поиск и передачу информации. Технологическое обеспечение — это набор и порядок выполнения автоматизированных и неавтоматизированных процессов и процедур обработки информации в ИПС, включая их описание, информационно-технологические схемы и инструктивно-методические материалы. Кадровое (или штатное) обеспечение — это люди, взаимодействующие с системой и обеспечивающие ее эксплуатацию (обслуживающий персонал). ИПС также делят на составные части (подсистемы) по функциональному признаку, когда каждая подсистема выполняет определенную функцию в технологическом процессе: ввод документов, индексирование документов, ввод и корректировка запросов, индексирование запросов, поиск, ведение словарей, ведение статистики, обработка результатов поиска, выдача документов и др. Такие части получили название функциональных подсистем. Важные понятия в информационном поиске — документ и запрос. Документ определяется как средство закрепления любым способом на специальном материале любой информации о фактах, событиях, явлениях объективной действительности и мыслительной деятельности человека. Документы имеют различную форму представления. В автоматизированных документальных ИПС это прежде всего текстовая информация на естественных языках в машиночитаемой форме. Запрос представляет собой информационную потребность, сформулированную на естественном языке. Результат «перевода» информационного запроса на информационно-поисковый язык называют поисковым образом запроса (ПОЗ) или поисковым предписанием (ПП). Под этим понимают выражение на языке запросов, который включает в себя как собственно ИПЯ, так и средства управления поиском. Синтаксис и семантика языков запросов определяется структурой и наполнением документов и общими задачами системы. Третья часть информационного обеспечения — так называемая «выдача», результаты поиска. Выдача существует в двух видах: краткие описания документов и собственно документы. Важнейшей компонентой информационно-поисковых систем является информационно-поисковый язык. Человек, чтобы отобрать из массива документов нужные, должен прочитать или просмотреть их содержимое. Для ускорения и упрощения этой процедуры появились различные формы сокращенной записи содержания документов — аннотации, рефераты, каталоги. Но во всех этих случаях при отборе документов по их сокращенным описаниям используется естественный язык. Хорошо известны такие «недостатки» языковых знаков, как омонимия, синонимия, многозначность. Точное значение многих слов можно понять только в контексте. Это препятствует использованию естественного языка для фиксации и отождествления понятийной информации. Поэтому формальные системы, предназначенные для хранения документальной информации с целью последующего поиска, потребовали создания специальных информационных языков. Информационно-поисковые языки представляют собой знаковые системы со своим алфавитом, лексикой, грамматикой и правилами пользования. Заметим лишь, что все искусственные языки так или иначе создавались и создаются на основе естественных языков. При сопоставлении документов и запросов требуется определить релевантность документа по отношению к запросу и принять решение о выдаче или невыдаче документа на данный запрос. Правила, на основе которых формально определяется степень релевантности документа и запроса, т.е. соответствие ПОД и ПОЗ, называются критерием смыслового соответствия (КСС), или критерием выдачи. Математические модели и формулы вычисления коэффициента релевантности могут быть самые разные. На практике повсеместное распространение получили ИПС с логическим критерием выдачи, когда ПП строятся с использованием логических (булевых) операторов конъюнкции (&), дизъюнкции (\/), отрицания (~). В этом случае логическое выражение запроса представляет собой набор поисковых элементов (обычно ключевых слов), объединенных логическими операторами и скобками, необходимыми для указания порядка выполнения операторов. Ключевые слова ПП играют роль булевых переменных, принимающих значение 1 («истина»), если данное слово содержится в документе, и 0 («ложь»), когда оно там отсутствует. Документ признается релевантным запросу, если логическая формула запроса в целом получает для данного документа значение «истина», и нерелевантным, если результат вычисления логической формулы дает «ложь». Принятые в логике для обозначения конъюнкции, дизъюнкции и отрицания значки (&, \/, ~) в информационном поиске обычно заменяют на операторы AND, OR и NOT соответственно. В России чаще используются обозначения И, ИЛИ, НЕ. Однако в общем случае в каждой конкретной ИПС обозначения для булевых операторов выбираются свои, причем иногда для удобства пользователя вводится несколько значков для одного и того же оператора (например, в ИПС «Апорт» оператор конъюнкции может быть задан следующими знаками: &, пробел, AND, И, +). Использование булевых операторов обеспечивает логику сравнения документов и запросов, понятную пользователю. Поиск (вычисление истинности для элементов ПП), как правило, проводится по специальным индексным (инвертированным) файлам, построенным на основе словника документального массива, и характеризуется высокой скоростью. Эти простота и понятность логического КСС и явились причиной его широкой распространенности. Проблема оценки эффективности поиска является комплексной проблемой, включающей как теоретическую, так и практическую сторону. Главные из функциональных (технических) показателей ИПС, базирующихся на релевантности, — это полнота и точность, которые основываются на разделении документов на релевантные и нерелевантные, а также на выданные и невыданные. Полнотой поиска (П) (англ. Recall — R) называется мера, вычисляемая как отношение количества выданных релевантных документов к общему числу релевантных документов, содержащихся в информационном массиве. Точность поиска (Т) (англ. Precision — P) — это отношение количества выданных релевантных документов к общему числу документов в выдаче. Date: 2015-07-02; view: 998; Нарушение авторских прав |