Полезное:

Категории:

Архитектура Астрономия Биология География Геология Информатика Искусство История Кулинария Культура Маркетинг Математика Медицина Менеджмент Охрана труда Право Производство Психология Религия Социология Спорт Техника Физика Философия Химия Экология Экономика Электроника

entailment

⇐ ПредыдущаяСтр 3 из 3

S: (v) sleep, kip, slumber, log Z's, catch some Z's (be asleep)

derivationally related form

sentence frame

Somebody ----s

В состав WordNet включены не только отдельные слова, но и фразеологизмы. Из частей речи описываются только глаголы, существительные, прилагательные и наречия. Служебные части речи в базу не включены. Также в базе не прописаны синтагматические характеристики (сочетаемость). Но модель (как прикладной продукт, который постоянно пополняется) и не претендует на полноту описания.

То, что WordNet описывает многочисленные семантические связи слов, делает эту базу данных удобным источником семантической информации для других компьютерных разработок.

Лексические функции в модели «Смысл – Текст»

Семантические отношения, которые формализованы в проекте WordNet, - это примеры парадигматических отношений. WordNet практически не уделяет внимания синтагматике, не показывает типичную сочетаемость слов. Кроме того, парадигматические отношения могут быть представлены гораздо шире. Например, взаимоотношения между словом «декан» и «факультет» могут быть описаны как «глава Х». Аналогичное взаимоотношение существует между парами «директор – завод», «генерал – армия», «капитан – корабль», «вождь – племя» и т.д. В традиционной семантике такой тип парадигматических связей никак не описывается, хотя для носителей языка он является важным.

Именно на такие типы отношений ориентирована теория «Смысл – Текст» Игоря Мельчука. В его модели эти отношения получили название лексических функций. Расширение набора семантических отношений (функций) открывает дальнейшие возможности для описания взаимосвязей между лексическими единицами. Например, между словами «город» и «городской», «село» и «сельский» существует как семантическое отношение (прилагательное может быть истолковано как «относящееся к Х»), так и отношение грамматическое, точнее, словообразовательное. Эти типы отношений можно обнаружить в парах типа «образование» - «образовательный», «лицо» - «лицевой» и т.д. Лексические функции могут распространяться не только на отдельные слова, но и на словосочетания (например, радость – с радостью). Лексические функции могут также определять синтаксические связи слов (например, «вопрос – задавать»). Таким образом, оказывается, что парадигматические связи не изолированы от связей синтагматических. Взаимосвязи лексических единиц языка как в плане парадигматики, так и в плане синтагматики моделируются в теории «Смысл – Текст».

Теория «Смысл – Текст» разрабатывается с 1960-х годов московскими лингвистами И. Мельчуком и А. Жолковским. Основная идея заключается в создании модели «семантического синтеза», т.е. алгоритма перехода от значения к способу его языкового выражения. Порождение осмысленного текста представляется как совокупность правил, которые должны обеспечивать, с одной стороны, переход от конкретного текста к формальному описанию смысла этого текста, при этом синонимичные тексты должны получать эквивалентные семантические представления. С другой стороны, система правил должна обеспечивать и обратный переход, от формального семантического представления к тексту на естественном языке. При этом естественный язык понимается достаточно своеобразно: это «… особого рода преобразователь, выполняющий переработку заданных смыслов в соответствующие им тексты и заданных текстов в соответствующие им смыслы» (Мельчук __, с.9).

Теория «Смысл – Текст» разрабатывается в основном на материале русского и французского языков. На основе понятия лексической функции создан «Толково-комбинаторный словарь русского языка». Это формализованный семантический словарь особого типа, в котором для каждого содержания (значения) предлагается максимально полный список способов его языкового выражения; например, словарь содержит систематическое описание ограничений на лексическую сочетаемость. В предисловии к словарю дается полный список лексических функций с комментариями.

Толково-комбинаторный словарь – центральный блок семантического компонента теории «Смысл – Текст» (на данный момент существует 1 том для русского языка и 4 для французского). ТКС значительно отличается от привычных нам толковых словарей, словарей сочетаемости и других лексикографических описаний, которые направлены на разъяснение непонятных слов, встретившихся в тексте. Иными словами, задача традиционного словаря – сделать уже имеющийся текст понятным читателю (пользование такими словарями – это часть анализа текста). ТКС относится к словарям так называемого «активного» типа: по замыслу авторов, он должен помогать пользователю порождать тексты, находить адекватные способы языкового воплощения мысли (т.е. они предназначены не для анализа, а для синтеза текста). От других словарей «активного» типа (например, тезаурусов) ТКС отличается тем, что процедура выбора способа языкового выражения мысли сформулирована в виде четких, формализованных правил. ТКС не рассчитан на массового пользователя, скорее, он является частью модели, более пригодной для ее алгоритмизации и компьютерной реализации.

Описание единицы словаря ведется по четырем уровням: семантическому, синтаксическому (дается глубинное и поверхностное представление), морфологическому и фонетико-орфографическому.

Словарная статья ТКС состоит из трех частей: аналитической дефиниции, модели управления, которая описывает синтаксическое окружение, и списка лексических функций, в которых участвует данное слово.

Пример аналитической дефиниции:

G – это так называемый «поверхностно-синтаксический хозяин», т.е. актант, выполняющий функцию вершины именной группы.

Еще один пример аналитической дефиниции:

В данном случае представлены отсылки на близкие по значению слова (квазисинонимы).

Модель управления для лексемы «авторитет» в ее первом значении:

Переход от заданного смысла к тексту (или наоборот, от текста к смыслу) – это процесс, состоящий из нескольких этапов. Нас в наибольшей степени интересует та часть словарного описания, которая формализует парадигматические и синтагматические отношения между словами – лексические функции. Общий список функций – около 60-ти.

Из этого фрагмента текста видно, что лексические функции неоднородны, поэтому они разделяются на группы. Первая группа характеризует хорошо знакомые нам синонимические отношения (функция SYN), точнее, отношения, которые позволяют подбирать близкие по смыслу слова. Квази-синонимы могут иметь более широкое или более узкое значение, могут пересекаться с ключевым словом. Полные синонимы имеют идентичное описание, близкие по значению слова – сходные, но не тождественные описания.

Функция ANTI идентифицирует антонимы, CONV – конверсивы (победить – проиграть). Для указания на роль актантов Мельчук использует числовые индексы: 1 – это агенс, 2 – объект действия, обозначенного ключевым словом.

Функции Syn, Anti, Conv и некоторые другие функции описывают парадигматические отношения между словами (с таким описанием мы уже встречались в модели WordNet).

Второй тип отношений – синтагматический – указывает на сочетаемость слова, т.е. описывает варианты синтаксического окружения слова. Фактически мы имеем дело с моделью управления, в которой устанавливается соответствие между семантической и синтаксической ролями, дается информация о поверхностной реализации синтаксических актантов (например, падежи для существительных), а также указываются ограничения на сочетаемость, т.е. указывается, какие синтаксические актанты не могут употребляться при данном предикате.

Лексические функции отражают и парадигматические, и синтагматические отношения между словами. Вообще под лексической функцией понимается некоторая обобщенная идея (например, «начинать» или «воплощать»). Лексическая функция, связывает со словом набор других слов или словосочетаний, реализующих эту функцию. Например, есть функция Magn, которая выражает идею «очень», «в высокой степени». В описании слов «напряжение» и «температура» эта функция связывает их со словом «высокий», а в описании слова «высота» - со словами «значительная», «огромная», для слова «вибрация» - «сильная», «интенсивная», для слова «качество» - «высокое». Кроме того, данная функция накладывает ограничения на сочетаемость, и коллокации типа «значительная температура» или «высокая вибрация» становятся невозможными.

Теперь на примере лексемы «авторитет» посмотрим, как формализованы ее лексические функции:

Мы видим, что даже взятая в одном из значений, лексема «авторитет» может выполнять множество функций.

С точки зрения информативности модель «Смысл – Текст» и ТКС оказываются более продвинутой моделью по сравнению с другими, так как в нее включены самые разнообразные парадигматические функции и подробно анализируются синтагматические функции, т.е. семантика увязывается с синтаксическими свойствами лексем. Учитывается также и факт многозначности: мы видим, что для каждого значения представлена своя модель управления и свой набор функций.

Недостатком данной модели является громоздкость и трудоемкость описания лексики. Существующий словарь для русского языка охватывает только 250 слов. Это ограничивает прикладные возможности модели.

Своеобразно решается вопрос о соотношении лингвистического и энциклопедического знания: Мельчук не включает отношения «часть – целое» в число лексических функций, поскольку считает, что это – фрагмент энциклопедического знания. Не все сторонники теории «Смысл – Текст» согласны с Мельчуком: действительно, если для описания взаимоотношений между словами «декан» и «факультет» вводится функция Cap – «глава», а для слов «пчела» и «рой» - функция Mult (она связывает группу и ее составляющие) то логично ввести и функцию для связи слов «страница» и «книга».

Прикладная реализация теории «Смысл – Текст»

На этой модели основано несколько систем автоматического перевода (например, система французско-русского перевода ЭТАП-1 и англо-русского перевода ЭТАП-2/3), системы порождения текстов метеорологических сообщений и статистических отчетов (обе системы разработаны в Канаде), многоязычная система порождения текстов прогнозов погоды, созданная в Париже.

Анализ синтаксической сочетаемости как источник информации о семантике

Итак, мы начали рассмотрение лексико-семантических формальных моделей с компонентного анализа, который оказался удобным инструментом описания парадигматических отношений в лексической системе языка. Далее мы остановились на тех моделях, для которых именно парадигматические отношения являются основным объектом описания. Затем мы обратили внимание на то, что парадигматические отношения обязательно должны дополняться отношениями синтагматическими. Оба типа отношений учитываются в модели «Смысл – Текст», однако детальное описание лексем является трудоемким и громоздким.

Сейчас мы кратко охарактеризуем подходы, в которых основное внимание уделяется синтагматическим отношениям. На основе анализа синтаксической информации делаются выводы о семантических свойствах лексики.

Такие исследования активно используют статистические методы и в качестве источника информации задействуют языковые корпуса. В сущности, само существование и развитие синтагматического подхода стало возможно только с появлением корпусов. В силу последнего обстоятельства эти модели нельзя однозначно охарактеризовать как формальные: по сути, мы имеем дело с описанием «снизу вверх», т.е. от эмпирического материала к теории.

Синтагматический подход лучше всего описывается знаменитой фразой Дж. Фёрса “You shall know the word by the company it keeps”. Идея описания сочетаемости корнями уходит в дистрибутивный анализ – один из основных методов структурализма. Очевидно, лучший способ узнать окружение слова – это посмотреть на то, что делают носители языка в повседневной коммуникации. Именно такую информацию предоставляют нам корпусы.

Толчком к развитию синтагматического подхода послужила практическая лексикография. Анализ реального употребления был необходимым этапом в описании многозначных слов и подборе контекстов, иллюстрирующих реализацию того или иного значения. Снова на помощь пришли корпусы – их появление избавило лексикографию от значительной доли субъективизма и опоры только на собственную интуицию лексикографов.

Для описания сочетаемости было введено несколько терминов. Коллокация – это сочетание двух слов в высказывании, такое, в котором регулярно встречающиеся слова синтаксически связаны друг с другом отношениями зависимости. Коллокации можно изучать, составляя конкордансы для интересующего нас слова и анализируя его окружение (левый и правый контексты). Коллигация – это определенный синтаксический паттерн, в котором встречается слово (например, так сопоставляются переходные и непереходные употребления глаголов). Это несколько более широкое понятие, чем модель управления. Наконец, семантическая просодия – это тенденция встречаться в окружении слов с определенной коннотацией, положительной или отрицательной.

В любом варианте описание сочетаемости ведется в терминах частотности. С одной стороны, ясно, что наиболее частотные употребления отражают определенную тенденцию в поведении носителей языка. С другой стороны, статистический анализ позволяет нам проверить объективность полученных результатов, убедиться, что данные действительно отражают тенденцию, а не являются случайным совпадением.

Для статистического анализа данных используются различные индексы. Одним из таких индексов является Индекс Взаимной Информации – он отражает степень ожидаемости того, что некоторые два слова встретятся в тексте рядом. Подсчет индекса может вестись по очень простой формуле:

Ожидаемая частота также вычисляется легко: это произведение частот встречаемости двух слов в корпусе. Положительное значение индекса показывает, что встречаемость двух слов рядом не случайна, отрицательное значение свидетельствует скорее о том, что мы не можем говорить о какой-либо тенденции.

Есть и другие методики анализа частотности, однако они используются чаще в рамках корпусной лингвистики и до сих пор являются предметом дискуссий.

⇐ Предыдущая 1 23

Date: 2015-07-17; view: 703; Нарушение авторских прав

mydocx.ru - 2015-2026 year. (0.619 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию