Универсальные форматы для представления текста и документов.

Стр 1 из 9Следующая ⇒

Кодировки текста.

Для кодирования символа требуется 1 байт (8 бит) информации. Это позволяет закодировать 256 символов, что вполне достаточно для представления текстовой информации, включая строчные и прописные буквы алфавита, цифры, знаки, графические символы и т.д. Для сопоставления символов и кодов используется таблица кодировки – стандарт, ставящий в соответствие каждому символу уникальный порядковый номер от 0 до 255 (или соответствующий ему двоичный код от 00000000 до 11111111).

Международным стандартом стала таблица ASCII, в которой первые 33 кода соответствуют управляющим символам (пробел, перевод строки и т.д.), коды с 33 по 127 соответствуют символам латинского алфавита, цифрам, знакам препинания, знакам арифметических действий, а коды с 128 по 255 являются национальными и отличаются в разных странах. Принято называть таблицу кодировки символов 128 – 255 кодовой страницей. Существует несколько кирилличных кодовых страниц.CP866 – используется для кодирования кирилличных символов вMSDOS,CP1251 – вWindows.

Существуют и другие кодовые таблицы, широко используемые на практике. Например, КОИ-8 (Код Обмена Информацией), применяемая в глобальных компьютерных сетях, на ЭВМ, работающих под управлением ОС Unix. Очень часто этот стандарт используется в электронной почте.

Сейчас разработан новый международный стандарт Unicode, который отводит на каждый символ два байта или 16 бит и позволяет закодировать 65536 символов. Такой широкий диапазон позволяет представить в численном виде символы любого языка, в том числе и китайского.

Так как существует несколько широко используемых стандартных кодировок, то часто возникают случаи, когда пользователь не может прочитать текст, поскольку кодировка текста отличается от кодировки, установленной в приложении, с которым работает пользователь. Специальные программы-конверторы, встроенные в приложения, производят перекодирование текста.

Универсальные форматы для представления текста и документов.

Формат файла определяет способ хранения текста в файле.

Простейший формат текстового файла содержит только символы (числовые коды символов). Другие форматы содержат дополнительные управляющие числовые коды, которые обеспечивают форматирование текста.

Есть несколько универсальных текстовых форматов, которые могут быть прочитаны любым редактором.

· txt – только текст (textonly). Наиболее универсальный формат. Сохраняет текст без форматирования, за исключением только управляющих символов конца абзаца. Применяется для документов, которые должны быть прочитаны приложениями, работающими в различных операционных системах.

· rtf (Richtextformat). Сохраняет все форматирование. Преобразовывает управляющие коды в команды, которые могут быть прочитаны и интерпретированы многими приложениями.

· pdf (PortableDocumentFormat) – используется для обмена отформатированными документами. Разработан фирмойAdobe. Этот формат хорошо использовать в том случае, когда необходимо сохранить точное форматирование документа. ДокументPDF, так же как и текст факса, изменить очень непросто.

Adobe Acrobat – это целая технология, включающая несколько программ для создания документов в формате PDF и работы с ними.

Создаются такие документы с помощью программы Acrobat Distiller, которая устанавливает на компьютер одноименный принтер. Документ, напечатанный из любого приложения на этот «принтер», на самом деле преобразуется в PDF-файл.

PDF-файл может быть открыт для просмотра и напечатан без всяких изменений на любом компьютере, независимо от типа процессора, операционной системы, установленных шрифтов и т. п., лишь бы на нем была установлена бесплатная маленькая программка Acrobat Reader.

Внести же изменения в PDF-файл можно, воспользовавшись собственно программой Adobe Acrobat.

Технология Acrobat очень удобна для передачи макета в электронном виде заказчику (который при этом не сможет его присвоить).

· html (HyperTextMarkupLanguage). Файл имеет расширения.html,.htm. Используется для электронных гипертекстовых документов (web-страниц), в которых содержатся ссылки на другие документы (страницы), доступные через глобальную сеть интернет или расположенные на локальном компьютере. Это специальный язык – язык разметки гипертекста. ФайлыHTML– это текстовые файлы с элементами разметки в виде тегов, которые заключаются в угловые скобки. Иными словами тег – это указание как оформлять текст.HTMLподдерживает графику, именно это обстоятельство и сделало популярнымWorldWideWeb.

Сканирование текста. Cистемы оптического распознавания текста (OCR)

Современные программно-аппаратные системы позволяют автоматизировать ввод больших объемов печатной информации в компьютер, используя, сканер и распознавание текстов.

Сначала печатная страница сканируется, в результате получается растровое изображение (картинка). Растровое изображение страницы может быть получено и через факс-модем, сканер, цифровую фотокамеру или другое устройство. Работать с изображением как с текстом, т.е. редактировать, форматировать и пр., естественно, нельзя. Поэтому, необходимо использовать программу оптического распознавания текста (OCR — Optical Character Recognition) для получения полноценного текстового документа.

На первом этапе OCR разбивает страницу на блоки текста, основываясь на особенностях правого и левого выравнивания и наличия нескольких колонок. Затем распознанный блок разбивается на строки. Потом строки разбиваются на непрерывные области изображения (отдельные буквы). Алгоритм распознавания каждую область изображения соотносит с наиболее близким по начертанию символом. В результате растровое изображение текстовой страницы восстанавливается в символах текста.

OCR-системы могут достигать наилучшей точности распознавания — свыше 99,9 % для чистых изображений, составленных из обычных шрифтов. Но полностью избежать ошибок не удается. Процент ошибок распознавания для «нечистых» текстов намного выше.

Основное назначение OCR-систем состоит в анализе растровой информации (отсканированного символа) и присвоении фрагменту изображения соответствующего символа. После завершения процесса распознавания OCR-системы должны уметь сохранять форматирование исходных документов, присваивать в нужном месте атрибут абзаца, сохранять таблицы, графику и т. д. Современные программы распознавания поддерживают все известные текстовые и графические форматы и форматы электронных таблиц, а некоторые поддерживают такие форматы, как HTML и PDF.

При распознавании текстов, в которых использовано несколько языков, эффективность распознавания зависит от умения OCR-системы формировать группы языков. В то же время в некоторых системах уже имеются комбинации для наиболее часто используемых языков, например: русский и английский.

На данный момент существует огромное количество программ, поддерживающих распознавание текста как одну из возможностей.

Лидер в этой области — FineReader. Это программный продукт фирмы ABBYY Software, раньше разрабатывался фирмой Bit Software. FineReader поддерживает большое количество форматов для сохранения, включая PDF, имеет возможность прямого распознавания из PDF-файлов. Новая технология Intelligent Background Filtering (интеллектуальной фильтрации фона) позволяет отсеять информацию о текстуре документа и фоновом шуме изображения. FineReader точно воспроизводит документы сложной верстки.

OCR CuneiForm — один из главных конкурентов FineReader. Производителем является российский разработчик программного обеспечения Cognitive Technologies. OCR CuneiForm выгодно отличается уровнем распознавания, особенно текстов низкого качества, удобным интерфейсом с наличием встроенных мастеров — помощников в работе, встроенным текстовым редактором, не уступающим по своей функциональности популярным текстовым процессорам, и многими другими возможностями.

OCR CuneiForm способна распознавать любые полиграфические и машинописные гарнитуры всех начертаний и шрифтов, получаемые с принтеров, за исключением декоративных и рукописных.

12 3 4 5 6 7 8 9 Следующая ⇒

Date: 2016-08-30; view: 629; Нарушение авторских прав

mydocx.ru - 2015-2026 year. (1.684 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию