Представление текстовой информации в ПК

⇐ ПредыдущаяСтр 22 из 97Следующая ⇒

понятие текста

текст – это группа предложений, связанных по смыслу и грамматически.

Текст (от латинского textus — «ткань», «сплетение», «соединение», «структура», «связь») — это речевое произведение, состоящее из ряда предложений, расположенных в определённой последовательности и объединённых в целое единством темы, основной мысли и с помощью различных языковых средств.

понятие кодировки символов

Все, что мы видим на экране монитора — это символы. Для вывода каждого символа нужен машинный код, который будет соответствовать только этому символу, или же правило, организующее корректный вывод каждого символа на дисплей.

Код – правило перевода информации с одного языка, способа представления, в другой.

Для кодирования одного символа используется количество информации равное одному байту, то есть восьми битам.

Если рассматривать символы как возможные события, то можно вычислить, какое количество различных символов можно закодировать.

N = 28 = 256

основные кодировки символов

Сейчас в основном используются кодировки двух типов: совместимые с ASCII и совместимые с EBCDIC, с удручающей преимуществом первых. Представление UTF-8 Юникода совместимо с ASCII. Кодирования на базе EBCDIC (например, ДКОИ-8) используются только на некоторых мэйнфреймах. Сначала в каждой операционной системе использовался один набор символов. Теперь используемые наборы символов стандартизованы и зависят от типа операционной системы лишь по традиции и устанавливаются согласно локали.

способы и средства ввода и вывода текста

Ввод текста выполняется в основном с клавиатуры, а также с помощью OCR технологий (оптического считывания) или реже посредством речевого ввода.

Клавиатурный ввод

Текст вводится с помощью клавиатуры в виде бесконечного текста до конца абзаца или до соответствующего наборного знака. Разбивка строк сначала не проводится. Тем самым создается предпосылка для автоматической "выключки" текста, что означает получение строк в виде отрезков заданной длины. Кроме того, текст в процессе корректуры может автоматически "течь", т.е. строка, начиная с исправленного места, перевыключается и далее будет соответствовать заданному формату. Процесс идет вплоть до конца абзаца. Применяемая для ввода текста клавиатура является частью периферийного оснащения компьютеров.

Сегодня одной из наиболее часто используемых программ ввода и обработки текста является Microsoft Word. С ее помощью тексты, набранные и сохраненные на носителе данных, могут далее без проблем использоваться в технологическом процессе. Известны и другие пакеты, например Word Perfect и Macintosh Word. Для набора научных текстов с формулами и специальными знаками особенно подходят программные продукты TEX.

Ввод при помощи оптических методов (OCR)

С помощью технологии OCR (Optical Character Recognition – оптическое распознавание знаков) текст, представленный в рукописной или машинописной форме, преобразуется в цифровую форму и тем самым становится пригодным для обработки. Сначала в "процессе отображения" документа, находящегося на бумаге, осуществляется его ввод оптоэлектронными считывающими системами. Документ предстает в виде битовой карты. В дальнейшем битовая структура знака конвертируется в текстовый код [1-2].

В процессе считывания документ сканируется и описывается определенной матричной структурой. Значения яркости и цвета каждой точки матрицы записываются в цифровой форме. Чернобелые документы при сканировании описываются одним битом информации на точку изображения. При сканировании цветных оригиналов с разложением на 4 краски необходимо использовать до 32 бит на точку. Разрешение устройств, осуществляющих сканирование, определяет, насколько точно считанное изображение соответствует оригиналу. Для большинства текстовых оригиналов разрешение 300 dpi позволяет получить высокую надежность распознавания знаков при использовании процессов OCR (кегль шрифта, начиная примерно с 4 мм, в зависимости от четкости начертания элементов шрифта). Иллюстрации и текст, набранный шрифтами малых кеглей, требуют разрешения считывания 600 dpi. Для цифрового представления изображения обычно используют формат TIFF (Tagged-Image File Format). Процесс OCR охватывает 5 этапов:

* идентификация текстовых и иллюстрационных блоков с исключением последних;

* распознавание знака при помощи анализа его формы и сравнения с характерными признаками эталона; идентификация слова с помощью массивов словарей;

* корректура нераспознанных слов или знаков путем отображения их на экране с подтверждением или исправлением оператором;

* форматирование данных в одном из форматов для вывода, например, ASCII, Word, RTF или PDF, а также запись данных для сохранения (форматы данных,).

В результате использования способа OCR текстовая информация преобразуется в цифровые данные, пригодные для последующей компьютерной обработки, подобно тексту, введенному с клавиатуры.

Технология OCR чаще всего используется для распознавания машинописных авторских оригиналов, для создания банков данных переиздаваемых книг, доступных только в виде предыдущих изданий. Доля ошибок оборудования OCR составляет менее 1%. При загрязнении оригинала, плохо пропечатанных знаках или наличии пятен на оригинале количество ошибок увеличивается. В таких случаях более эффективным может оказаться клавиатурный ввод. Критериями выбора того или иного метода распознавания являются шрифты оригинала, необходимая скорость распознавания, объем и качество словаря, используемые форматы данных и, естественно, цена. Распространенные в настоящее время программные продукты для реализации OCR – это, например, Omni-PagePro (Caere Corp.), Optopus (Makrolog GmbH), Adobe Capture (Adobe Systems).

Речевой ввод

Непосредственное машинное распознавание устной речи – особенно удобная форма подготовки текста. Однако технология распознавания речи пока что не стала главной альтернативой клавиатурному вводу. Приемлемая производительность достигается в том случае, если используется ограниченный запас слов и терминов, например, при работе только с научной специальной литературой. Кроме того, система распознавания речи должна быть приспособлена к тембру голоса оператора, вводящего текст. В области машинного распознавания речи ведутся интенсивные разработки [1-3–1-6]. Повышающаяся мощность систем и расширение при этом удобств для авторов дают повод ожидать, что речевой ввод найдет применение в будущем.

понятие электронного текста

Электронный текст - текст, записанный в Запоминающего Устройства (ЗУ).

Создание оптических дисков и Магнитных Дисков (МД) большой емкости наряду с широким распространением Персональных Компьютеров (ПК) и полнотекстовых баз данных привело к быстрому расширению области использования электронных текстов. На диски теперь записываются не только учрежденческие документы, но и книги, журналы, каталоги, Все больше появляется электронных изданий художественной литературы, из области науки, философии, религии. Электронные тексты сопровождаются Программным Обеспечением (ПО). Кроме этого, к текстам прилагаются руководства и инструкции для читателей. Тексты могут сопровождаться изображениями и звуком. Все шире используется мультисреда.

Так как электронные тексты располагаются в информационных системах, то перед читателями открываются новые возможности. Можно проводить любой анализ текста, находить нужные строки, абзацы, разделы, сцены и т.д. Электронные тексты издаются на различных типах дисков.

гипертекст

Гипертекстом называют любой текст, в котором обнаруживаются какие-либо ссылки на другие фрагменты.

Гипертекст – это текст, который позволяет установить смысловые связи между основными разделами или понятиями.

Гипертекст позволяет структурировать документ путём выделения в нём слов-ссылок – гиперссылок.

При активации гиперссылки происходит переход на фрагмент текста, заданный в ссылки.

Гиперссылка состоит из двух основных частей: указателя ссылки и адресной части ссылки.

Обычно гипертекст представляется набором текстов, содержащих узлы перехода между ними, которые позволяют избирать читаемые сведения или последовательность чтения. Общеизвестным и ярко выраженным примером гипертекста служат веб-страницы — документы HTML (язык разметки гипертекста), размещённые в Сети. В более широком понимании термина, гипертекстом является любая повесть, словарь или энциклопедия, где встречаются отсылки к другим частям данного текста, имеющие отношения к данному термину. В компьютерной терминологии, гипертекст — текст, сформированный с помощью языка разметки, потенциально содержащий в себе гиперссылки.

⇐ Предыдущая 17 18 19 20 212223 24 25 26 Следующая ⇒

Date: 2015-09-05; view: 1121; Нарушение авторских прав

mydocx.ru - 2015-2026 year. (0.129 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию