Главная Случайная страница


Полезное:

Как сделать разговор полезным и приятным Как сделать объемную звезду своими руками Как сделать то, что делать не хочется? Как сделать погремушку Как сделать так чтобы женщины сами знакомились с вами Как сделать идею коммерческой Как сделать хорошую растяжку ног? Как сделать наш разум здоровым? Как сделать, чтобы люди обманывали меньше Вопрос 4. Как сделать так, чтобы вас уважали и ценили? Как сделать лучше себе и другим людям Как сделать свидание интересным?


Категории:

АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника






Основные понятия и круг проблем





Вопросы 33-38

Технологии тестового поиска

 

Текст является одной из основных форм обмена информацией в обществе. Не случайно представленная в различных форматах текстовая информация составляет весьма значительную долю информационных ресурсов действующих в настоящее время информационных систем. Поэтому создание и развитие технологий обработки текста привлекали большое внимание на всех этапах развития информационных систем.

 

Наиболее распространенными системами этой категории являются системы текстового поиска. Их задача заключается в том,чтобы находить в заданных коллекцияхдокументов на естественном языке такие документы, которые удовлетворяют информационным потребностям пользователей.

 

В этой главе обсуждаются основные понятия текстового поиска, кратко рассматриваются история развития текстовых систем, их особенности, основные принципы текстового поиска, модели поиска, функциональные возможности современных систем текстового поиска, использование текстового поиска в среде Web и в СУБД, а также актуальные направления развития технологий текстового поиска.

 

ОСНОВНЫЕ ПОНЯТИЯ И КРУГ ПРОБЛЕМ

 

Технологии текстового поиска имеют дело с информацией, представленной на естественных языках. Содержательное разнообразие такой информации довольновелико — это могут быть статьи из газет I и журналов, технические руководства, отчеты, книги, письма, законодательные акты и пр.

 

Основная единица информации в системах текстового поиска называется документом. Документ — это порция информации, обладающая законченным содержанием и какого-либо рода уникальным идентификатором. В ранних системах документ рассматривался как атомарная (неделимая) единица. Для системы он выступал как «черный ящик». В более развитых системах содержание документа доступно системе для обработки и анализа.

 

Системы текстового поиска оперируют электронными документами, то есть документами, хранимыми в памяти компьютеров и доступными для автоматизированной обработки. Компьютерная обработка и анализ текстовых документов возможны лишь в случае, если программно доступны отдельные элементы текстового документа. Поэтому совершенно недостаточно просканировать бумажный текстовый документ и хранить полученное его факсимиле в памяти компьютера в виде какого-либо графического файла. Необходимо иметь документ в оцифрованном виде, то есть в таком формате, когда каждая литера представляющего его текста программно доступна. Представление текстового документа в оцифрованном виде создается, например, с помощью:

 

· ввода содержания документа с клавиатуры с использованием какого-либо текстового редактора;

 

· сканирования его с бумажного носителя и использования программы распознавания оптических символов (Optical Character Recognition, OCR);

 

· генерации текста программным путем распознавателями голоса и другими способами.

 

Поскольку пользователи предъявляют к системам текстового поиска довольно высокие требования, современные технологии текстового поиска стали весьма сложной синтетической областью исследований и разработок, охватывающей большой спектр проблем — от теории информационного поиска до методов удовлетворения потребностей пользователей в сборе, организации, хранении, поиске и распространении информации, а также обеспечения интерфейсов между пользователем и средствами управления ресурсами неструктурированной или слабоструктурированной информации, поддерживаемой в компьютерной среде. Классические направления в этой области —

 

библиографический и полнотекстовый поиск. Здесь находят применение как аналитичес-

кие, так и эмпирические подходы.


Значительное место в технологиях текстового поиска занимает обработка естественного языка. Под обработкой естественного языка понимается компьютерноерешение задач, связанных с пониманием, анализом, выполнением различных операций над текстами на естественном языке, а также с их генерацией. Этот класс задач относят к области искусственного интеллекта.

 

В современных технологиях текстового поиска используется не только аппарат лингвистики для анализа текстов, но и статистические методы, математическая логика и теория вероятностей, кластерный анализ, методы искусственного интеллекта, а также технологии управления данными.

 

Работы по информационной супермагистрали, в частности связанные с созданием электронных библиотек, развернувшиеся во многих странах мира в середине90-х годов,в значительной мере оживили интерес к проблемам текстового поиска. Возникли такие совершенно новые направления, как обнаружение информации в глобальной компьютерной сети, текстовый поиск в Web, мультиязыковой поиск.

 

Активное развитие технологий текстового поиска стимулировало создание поисковых систем более общего класса, которые имеют дело не только с текстовыми документами, но и с информацией, представленной в различных иных средах. В таких системах (их называют мультимедийными) содержание объектов поиска — документов — представляет собой сочетание текстовых элементов, статических изображений, музы-кальных произведений, мультфильмов, видеоклипов и т.п.

 

За свою почти полувековую историю развития технологии текстового поиска продвинулись от простейших дескрипторных информационно-поисковых систем к изощренным системам полнотекстового поиска, от поисковых систем к системам с более богатой функциональностью. Технические возможности современных вычислительных систем позволяют хранить огромные объемы информации в системах текстового поиска, осуществлять в них тонкую обработку документов, выполнять алгоритмически сложные процедуры обработки хранимых коллекций документов — их классификацию, кластеризацию, глубинный анализ текстов, перевод документов с одного языка на другой и т.д.

 

Новое зарождающееся направление текстового поиска связано с потоками документов. Поскольку в отличие от предположений, положенных в основу уже разработанных технологий, здесь отсутствуют какие-либо сведения, характеризующие коллекцию документов в целом, для поиска в потоке документов необходимы новые подходы и но-вые методы.

 

Системы текстового поиска оказали значительное влияние на формирование специфического класса информационных систем, называемых системами управления документами,которые широко используются в настоящее время во многих крупныхкоммерческих компаниях и в других организациях. В таких системах важная роль отводится не только методам обработки естественного языка, созданным для работы с текстовыми документами, но и организации групповой разработки документов, их хранения, распространения, а также технологиям текстового поиска.

 

 

Date: 2015-09-27; view: 656; Нарушение авторских прав; Помощь в написании работы --> СЮДА...



mydocx.ru - 2015-2024 year. (0.005 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию