Компьютерная лингвистика (математическая лингвистика)

⇐ ПредыдущаяСтр 54 из 58Следующая ⇒

В XX в. возникла необходимость создать языки человеко-машинного общения. Для этого было необходимо собственно лингвистические проблемы решать в единстве с другими науками — логикой, математикой, психологией и кибернетикой. Цель такого симбиоза наук - создание автоматических систем искусственного интеллекта, моделирующих знание.

Знание хранится, обрабатывается и передается от поколения к поколению в языке и текстах. Поэтому моделирование научно-технических текстов — это моделирование системы знаний в соответствующей отрасли науки и техники.

Любая терминосистема связана с соответствующей системой знаний. Она всегда стремится найти свой оптимальный план выражения. Формой любого понятия являются знаки естественного языка. Следовательно, моделирование знаний - это структурирование соответствующей терминосистемы.

Система знаний представляется в виде сети: узлы такой сети представлены терминами соответствующей науки, а дуги между ними показывают отношения между понятиями. Однако передать логико-понятийные знания, обосновать и интерпретировать их при помощи одних терминосистем невозможно. Для достижения этой цели служит научный текст, где терминосистемы органически взаимодействуют с морфологической и синтаксической подсистемами естественного языка (значениями морфем, частей речи, служебных слов и словосочетаний). Любая логико-понятийная система знаний может быть представлена в виде текста.

Главной задачей прикладных лингвистических наук, связанных с анализом текста, является создание текстовой базы данных для ЭВМ. Такая база данных напоминает автоматизированные библиотечные фонды. Текстовая база данных, хранящаяся в памяти ЭВМ, позволяет многократно использовать тот или иной текст, получая каждый раз нужную информацию:

1) полный список всех словоформ соответствующего текста;

2) элементы морфологической подсистемы текста;

3) частоту встречаемости каждой словоформы и всех словоформ (суммарно)
данного текста или всех текстов, введенных в ЭВМ;

4) адреса словоформ (номера глав, параграфов, страниц);

5) статистику графических знаков (букв, буквосочетаний);

6) контексты каждой словоформы;

7) обратный словарь;

8) текст в полном виде.

Использование ЭВМ в прикладных отраслях языкознания основано на возможности кодирования любой информации при помощи чисел, которые можно обрабатывать посредством ЭВМ. Почву для использования ЭВМ в лингвистике подготовило опережающее развитие математической логики и теории алгоритмов: создание машины Поста, машины Тьюринга, алгоритмов Маркова. С появлением этих машин стала возможной обработка нечисловой информации. Машины были «обучены» мыслить по образцу человеческого интеллекта. В результате создается искусственный интеллект. Первый опыт в этой области описан в статье английского математика Алана Тьюринга «Может ли машина мыслить» (1950). Им же был разработан наиболее эффективный и универсальный тест для определения уровня интеллектуальности (тест Тьюринга). Он опирается на систему вопросов и ответов, которая охватывает практически любую область интеллектуальной деятельности человека.

Система искусственного интеллекта способна решать самые разные задачи, но главными из них считаются: а) решение задач, б) принятие решений и в) распознавание объектов. Решение задач охватывает широкий спектр вопросов от сложнейших математических задач до простых рассуждений, нахождения ответов на бытовые вопросы типа: какой обед можно приготовить из предложенного набора продуктов. Процесс принятия решений опирается на материал игровых стратегий (таких, как шахматы, шашки и т.п.).

Механизм распознавания образов использует так называемые эталонные образы, с которыми человек имеет дело в обыденной деятельности. Например, разные по форме, окраске, вкусу яблоки отождествляются с эталонным образом «яблоко» вообще. Понятие «образ» здесь отличается от одноименного психического понятия: это просто некоторое типовое родовое представление человека о группе видовых «предметов». Для этого машине необходимо узнавать объекты и подводить их под те или иные категории. Этим как раз и занимается прикладная лингвистика. Ее главная задача - моделирование речевой деятельности человека, анализ и синтез речи.

Без участия человека выполнение подобных задач невозможно. Необходимо «общение» человека с машиной. Машина, восприняв заданный текст, на него определенным образом реагирует: а) отвечает на вопрос, б) принимает информацию к сведению.

Для реагирования на тот или иной текст, необходимо сначала его понять. Процесс понимания у машин напоминает процесс понимания, происходящий в голове человека. Однако наука пока не может четко определить, что происходит в голове человека. Голова человека обычно сравнивается с «черным ящиком», представления о работе интеллекта основываются исключительно на входящей и выходящей информации. Ясно пока лишь, что для восприятия текста машиной необходимо структурировать смысл текста. Для этого машина должна хранить множество знаний о мире. Задача крайне сложная, так как знания бесконечны. Выход заключается в том, чтобы ориентировать машину только на одну, узкую, сферу знаний: биологию, математику, социологию.

Структурированием смысла текста занимается математическая лингвистика – это математическая дисциплина, предметом которой является разработка и изучение понятий, образующих основу формального аппарата для описания строения естественных языков (то есть метаязыка лингвистики). Математическая лингвистика сформировалась приблизительно в 50-е гг. 20 в. в связи с внутренними потребностями теоретической лингвистики, в которой к этому времени назрела необходимость уточнения основных понятий, а также задачами, связанными с автоматизацией переработки языковой информации. В математической лингвистике широко используются методы теории алгоритмов, теории автоматов и алгебры. Лингвистические концепции, лежащие в основе формальных методов описания строения языка, принадлежат структурной лингвистике. Главнейшая из этих концепций - представление о языке как о "системе чистых отношений", сближающее язык с абстрактными системами, изучаемыми в математике. Это представление конкретизируется в концепции функционирования языка как преобразования некоторых абстрактных объектов - "смыслов" в объекты другой природы - "тексты" и обратно. Эта концепция приводит к мысли об изучении такого преобразования математическими средствами.

Использование математического подхода затруднительно, если пытаться рассматривать преобразование "в целом", ввиду его чрезвычайной сложности, а также ввиду трудности формализации понятия "смысла". Однако преобразование можно расчлененить на этапы. Например, первый этап может состоять в переходе от "смыслов" предложений к "синтаксическим структурам без линейного порядка" - наборам элементов предложений, соединенных "синтаксическими связями", но еще не расположенных в линейные последовательности. На следующем этапе получаются линейные последовательности слов, потом они превращаются в цепочки звуков. При более тонких членениях вводятся синтаксические структуры нескольких уровней, все более отдаляющиеся от "смыслового" и приближающиеся к "текстовому". "Послесинтаксические" этапы также подвергаются дальнейшему расчленению.

Такие этапы уже легче описывать математически, уточняя представления об объектах промежуточных уровней и моделируя переходы от одних уровней к другим. Правда, рассматриваемое преобразование неоднозначно, и таковы же все или почти все промежуточные этапы; это связано с одной из важнейших особенностей языка - наличием в нем явления синонимии, то есть возможности выражать одно и то же содержание разными способами. Поэтому приходится строить не детерминированные эффективные системы (алгоритмы), а недетерминированные (исчисления). Исчисления позволяют для данного объекта некоторого уровня перечислять отвечающие ему объекты соседнего уровня или объекты (того же уровня), ему синонимичные, либо перечислять множество "правильных" объектов заданного уровня (то есть таких, которые известным регулярным способом сопоставляются объектам предыдущего уровня), либо перечислять множество пар отвечающих друг другу объектов двух заданных соседних уровней (напр., "предложение + его синтаксическая структура") и т. п. Такого рода исчисления известны как формальные грамматики.

Одновременно с формальными грамматиками, моделирующими преобразования языковых объектов, возникают конструкции, предназначенные для формального описания самих этих объектов. Кроме того, на множествах объектов одного уровня возникают классификации и отношения, во многом сходные с категориями традиционной грамматики (такими, как часть речи, род, падеж и т. п.) и в ряде случаев совпадающие с ними. Без введения таких классификаций и отношений реальное построение формальных грамматик для естественных языков фактически невозможно.

Таким образом, можно выделить три аспекта формального описания языка: описание строения языковых объектов различных уровней, описание некоторых специальных отношений и классификаций на множествах этих объектов и описание преобразований одних объектов в другие, а также строения множеств "правильных" объектов.

Этим аспектам отвечают три основных раздела математической лингвистики: 1) разработка и изучение способов описания строения отрезков речи; 2) изучение лингвистически значимых отношений и классификаций на множествах языковых объектов (построенные для этой цели формальные системы обычно называют аналитическими моделями языка); 3) теория формальных грамматик.

Для описания строения отрезков речи используются синтаксические структуры, представляющие собой графы или биграфы специального вида, обычно с помеченными вершинами или дугами. Лучше всего разработана теория описания "поверхностных" уровней (то есть наиболее далеких от "смыслового"). На этих уровнях структуры обычно являются деревьями.

Интенсивно разрабатываются способы описания более "глубинных" уровней. Для этого, в частности, предложен аппарат так называемых лексических функций, играющих при описании смысловой сочетаемости слов роль, сходную с той, которую традиционные категории рода, падежа, числа и т. п. играют при описании синтаксической сочетаемости. Средств строгого описания "смыслового" уровня пока нет, но многим исследователям представляется вероятным, что на таком пути "последовательного приближения" можно надеяться выработать подход к формальному описанию смысла. Это не исключает и иных подходов; в частности, много исследований посвящено способам выражения в естественных языках предикатов, пропозициональных связок, "переводу" с формально-логических языков на естественные и обратно. Сюда же примыкают работы по конструированию так называемых семантических языков, в которых смыслы сопоставляются текстам простыми и строго формальными способами.

Аналитические модели языка важны и потому, что они позволяют уточнить логическую природу многих понятий и категорий традиционного языкознания. Эти модели не всегда носят характер эффективных процедур, поскольку в них могут входить такие понятия, как бесконечное множество грамматически правильных предложений некоторого языка, считающееся заданным. Однако в ряде моделей все исходные данные представляют собой конечные множества и предикативные отношения; в этих случаях входящие в модель процедуры эффективны.

К теории аналитических моделей языка примыкает теория лингвистической дешифровки. Ее предметом является построение процедур, применяемых к "неупорядоченным" данным о языке, но всегда эффективных и позволяющих получать не только абстрактные определения, но и конкретные сведения о строении конкретных языков (например, алгоритмы, автоматически разбивающие множества фонем языка на классы гласных и согласных без использования каких-либо сведений о языке, кроме некоторого достаточно длинного текста).

Теория формальных грамматик занимает в математической лингвистике центральное место, так как она позволяет моделировать наиболее существенный аспект функционирования языка - переработку смыслов в тексты и обратно - и благодаря этому служит связующим звеном между остальными разделами математической лингвистики. По характеру своего аппарата теория формальных грамматик во многом близка к теории алгоритмов и теории автоматов.

Более других разработаны те типы формальных грамматик, которые служат для характеризации множества грамматически правильных предложений языка и приписывания этим предложениям синтаксических структур. Предложения при этом моделируются цепочками (словами) в конечном алфавите, элементы которого интерпретируются как слова естественного языка (поэтому в математической лингвистике термин "цепочка" предпочитают термину "слово", а алфавит часто называют также словарем), и моделью множества грамматически правильных предложений служит некоторый формальный язык. К этому типу относятся порождающие грамматики.

Порождающая грамматика представляет собой по существу частный случай исчисления Поста (класс исчислений, предложенных американским математиком Эмилем Леоном Постом). Она состоит из конечного алфавита, разделенного на две части - основной и вспомогательный алфавиты; конечного множества правил вывода, представляющих собой правила подстановки вида φ «фи» → ψ «пси» (φ, ψ - цепочки) и одной аксиомы (обычно состоящей из одного вспомогательного символа, называемого начальным).

Формальный язык, порождаемый такой грамматикой,- это множество цепочек в основном алфавите, выводимых из аксиомы. Наиболее важный для лингвистики класс порождающих грамматик - грамматики составляющих, у которых каждое правило имеет вид ξ₁А ξ₂→ ξ₁ Ø ξ₂, где ξ₁ «кси», Ø, ξ₂- цепочки в объединении основного и вспомогательного алфавитов, А - вспомогательный символ и Ø «непуста» (непустое множество).

Грамматика составляющих позволяет естественным образом сопоставлять цепочкам порождаемого ею языка размеченные системы составляющих. Этот класс грамматик наиболее важен и в чисто математическом отношении, так как языки, порождаемые грамматиками составляющих, представляют собой простой и весьма важный подкласс класса перечислимых множеств.

Среди грамматик составляющих в свою очередь особенно важны как в теоретическом, так и в прикладном аспектах грамматики бесконтекстные, у которых правила имеют вид А → Ø, где А - вспомогательный символ. К бесконтекстным грамматикам близки грамматики доминационные, также порождающие формальные языки, но сопоставляющие цепочкам этих языков деревья подчинения, и грамматики категориальные, характеризующиеся особым способом задания информации о синтаксических свойствах слов.

Принципиально иной тип формальных грамматик представляют собой грамматики трансформационн ые. Они служат для осуществления преобразований синтаксических структур, не "привязанных" к цепочкам. Эти грамматики представляются наиболее перспективными для описания строения естественных языков, так как позволяют рассматривать синтаксические и линейные отношения между словами раздельно, что лучше отражает языковую реальность.

Теория формальных грамматик наряду с "традиционными" для нее лингвистическими приложениями нашла применение в теории программирования для описания языков программирования и трансляторов. Особенно широко применяются для этих целей бесконтекстные грамматики, но используются и грамматики более общего вида.

В последнее время ученые увлечены принципиально новой идеей: нужно не только увеличивать объем памяти «умной» машины, но и создавать самообучающиеся системы. Смысл нового подхода в том, чтобы машина могла выполнять несколько важнейших операций:

а) извлекать из текста новую информацию,

б) включать ее в уже имеющиеся системы знаний,

в) при нехватке информации задавать для осмысления непонятого вопросы
человеку. По этому принципу работают многие компьютерные программы. Для использования языка кибернетическими системами, моделирующими восприятие и порождение речи, необходимы разработки структурных моделей фонологии, морфемики, морфологии и синтаксиса.

⇐ Предыдущая 49 50 51 52 535455 56 57 58 Следующая ⇒

Date: 2015-07-27; view: 1231; Нарушение авторских прав; Помощь в написании работы --> СЮДА...

mydocx.ru - 2015-2024 year. (0.006 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию