Полезное:
Как сделать разговор полезным и приятным
Как сделать объемную звезду своими руками
Как сделать то, что делать не хочется?
Как сделать погремушку
Как сделать так чтобы женщины сами знакомились с вами
Как сделать идею коммерческой
Как сделать хорошую растяжку ног?
Как сделать наш разум здоровым?
Как сделать, чтобы люди обманывали меньше
Вопрос 4. Как сделать так, чтобы вас уважали и ценили?
Как сделать лучше себе и другим людям
Как сделать свидание интересным?
Категории:
АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника
|
Основные понятия и круг проблемСтр 1 из 27Следующая ⇒ Вопросы 33-38 Технологии тестового поиска
Текст является одной из основных форм обмена информацией в обществе. Не случайно представленная в различных форматах текстовая информация составляет весьма значительную долю информационных ресурсов действующих в настоящее время информационных систем. Поэтому создание и развитие технологий обработки текста привлекали большое внимание на всех этапах развития информационных систем.
Наиболее распространенными системами этой категории являются системы текстового поиска. Их задача заключается в том,чтобы находить в заданных коллекцияхдокументов на естественном языке такие документы, которые удовлетворяют информационным потребностям пользователей.
В этой главе обсуждаются основные понятия текстового поиска, кратко рассматриваются история развития текстовых систем, их особенности, основные принципы текстового поиска, модели поиска, функциональные возможности современных систем текстового поиска, использование текстового поиска в среде Web и в СУБД, а также актуальные направления развития технологий текстового поиска.
ОСНОВНЫЕ ПОНЯТИЯ И КРУГ ПРОБЛЕМ
Технологии текстового поиска имеют дело с информацией, представленной на естественных языках. Содержательное разнообразие такой информации довольновелико — это могут быть статьи из газет I и журналов, технические руководства, отчеты, книги, письма, законодательные акты и пр.
Основная единица информации в системах текстового поиска называется документом. Документ — это порция информации, обладающая законченным содержанием и какого-либо рода уникальным идентификатором. В ранних системах документ рассматривался как атомарная (неделимая) единица. Для системы он выступал как «черный ящик». В более развитых системах содержание документа доступно системе для обработки и анализа.
Системы текстового поиска оперируют электронными документами, то есть документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерная обработка и анализ текстовых документов возможны лишь в случае, если программно доступны отдельные элементы текстового документа. Поэтому совершенно недостаточно просканировать бумажный текстовый документ и хранить полученное его факсимиле в памяти компьютера в виде какого-либо графического файла. Необходимо иметь документ в оцифрованном виде, то есть в таком формате, когда каждая литера представляющего его текста программно доступна. Представление текстового документа в оцифрованном виде создается, например, с помощью:
· ввода содержания документа с клавиатуры с использованием какого-либо текстового редактора;
· сканирования его с бумажного носителя и использования программы распознавания оптических символов (Optical Character Recognition, OCR);
· генерации текста программным путем распознавателями голоса и другими способами.
Поскольку пользователи предъявляют к системам текстового поиска довольно высокие требования, современные технологии текстового поиска стали весьма сложной синтетической областью исследований и разработок, охватывающей большой спектр проблем — от теории информационного поиска до методов удовлетворения потребностей пользователей в сборе, организации, хранении, поиске и распространении информации, а также обеспечения интерфейсов между пользователем и средствами управления ресурсами неструктурированной или слабоструктурированной информации, поддерживаемой в компьютерной среде. Классические направления в этой области —
библиографический и полнотекстовый поиск. Здесь находят применение как аналитичес- кие, так и эмпирические подходы. Значительное место в технологиях текстового поиска занимает обработка естественного языка. Под обработкой естественного языка понимается компьютерноерешение задач, связанных с пониманием, анализом, выполнением различных операций над текстами на естественном языке, а также с их генерацией. Этот класс задач относят к области искусственного интеллекта.
В современных технологиях текстового поиска используется не только аппарат лингвистики для анализа текстов, но и статистические методы, математическая логика и теория вероятностей, кластерный анализ, методы искусственного интеллекта, а также технологии управления данными.
Работы по информационной супермагистрали, в частности связанные с созданием электронных библиотек, развернувшиеся во многих странах мира в середине90-х годов,в значительной мере оживили интерес к проблемам текстового поиска. Возникли такие совершенно новые направления, как обнаружение информации в глобальной компьютерной сети, текстовый поиск в Web, мультиязыковой поиск.
Активное развитие технологий текстового поиска стимулировало создание поисковых систем более общего класса, которые имеют дело не только с текстовыми документами, но и с информацией, представленной в различных иных средах. В таких системах (их называют мультимедийными) содержание объектов поиска — документов — представляет собой сочетание текстовых элементов, статических изображений, музы-кальных произведений, мультфильмов, видеоклипов и т.п.
За свою почти полувековую историю развития технологии текстового поиска продвинулись от простейших дескрипторных информационно-поисковых систем к изощренным системам полнотекстового поиска, от поисковых систем к системам с более богатой функциональностью. Технические возможности современных вычислительных систем позволяют хранить огромные объемы информации в системах текстового поиска, осуществлять в них тонкую обработку документов, выполнять алгоритмически сложные процедуры обработки хранимых коллекций документов — их классификацию, кластеризацию, глубинный анализ текстов, перевод документов с одного языка на другой и т.д.
Новое зарождающееся направление текстового поиска связано с потоками документов. Поскольку в отличие от предположений, положенных в основу уже разработанных технологий, здесь отсутствуют какие-либо сведения, характеризующие коллекцию документов в целом, для поиска в потоке документов необходимы новые подходы и но-вые методы.
Системы текстового поиска оказали значительное влияние на формирование специфического класса информационных систем, называемых системами управления документами,которые широко используются в настоящее время во многих крупныхкоммерческих компаниях и в других организациях. В таких системах важная роль отводится не только методам обработки естественного языка, созданным для работы с текстовыми документами, но и организации групповой разработки документов, их хранения, распространения, а также технологиям текстового поиска.
|