Главная Случайная страница


Полезное:

Как сделать разговор полезным и приятным Как сделать объемную звезду своими руками Как сделать то, что делать не хочется? Как сделать погремушку Как сделать так чтобы женщины сами знакомились с вами Как сделать идею коммерческой Как сделать хорошую растяжку ног? Как сделать наш разум здоровым? Как сделать, чтобы люди обманывали меньше Вопрос 4. Как сделать так, чтобы вас уважали и ценили? Как сделать лучше себе и другим людям Как сделать свидание интересным?


Категории:

АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника






Застосування математичних методів у мовознавстві





Застосування математичного (точніше, кількісного) критерію в мовознавчих дослідженнях відоме з давніх часів. Такі лінгвістичні поняття, як фонетичний закон, продуктивність морфем, критерій спорідненості мов то­що ґрунтувалися певною мірою на кількісних харак­теристиках. Звукові відповідники, що часто фіксу­ються в мові чи декількох споріднених мовах, є законо­мірними на відміну від аномалій, котрі є рідкісними. Ті морфеми, що часто використовуються для творення нових слів, є продуктивними. Спорідненими мовами є такі, які мають більше спільних рис, ніж неспоріднені. Однак раніше математичний критерій використову­вали стихійно і спорадично. Зараз його застосовують свідомо і цілеспрямовано.

Активне використання математичних методів у ви­вченні мови почалося в середині XX ст. Стимулом для цього послужили перспективи машинного перекладу. У процесі обробки текстів для їх уведення в машину бу­ло одержано різноманітні кількісні оцінки окремих фактів мови, які згодом виявилися корисними не тіль­ки для створення математичних моделей мови, а й для лінгвістичної теорії. Оскільки мова — це ймовірнісна, а не жорстко детермінована система, то для її пізнання квантитативні методи, пов'язані з дослідженням час­тотних, ймовірнісних, градуальних та інших нелогіч­них характеристик, не тільки бажані, але й необхідні.

Розрізняють кількісні й статистичні методи. Кіль­кісні методи зводяться до простого підрахунку час­тоти вживання мовних одиниць. Статистичні ме­тоди передбачають використання різних формул для виявлення правил розподілу мовних одиниць у мов­ленні, для виміру зв'язків між мовними елементами, для встановлення тенденцій у розвитку та функціону­ванні мови та для встановлення залежності між якіс­ними й кількісними характеристиками мови.

Математичні методи мають самостійну цінність у дослідженні мови і, крім того, можуть входити як складова частина в інші методи. Останнім часом вико­ристання цих методів до вивчення мовного матеріалу значно зросло, і можна говорити, що в математичній лінгвістиці виокремилися два розділи, або напря­ми, — лінгвостатистика і стилостатистика.

Основна увага лінгвостатистики звернена на дос­лідження того, що в мові визначається правом вибору мовця, а що зумовлено її іманентною структурою і як ці два параметри кількісно співвідносяться між собою. Виявляється, що одиниці будь-якого мовного рівня ма­ють сталі для певного періоду кількісні показники їх використання. Подібність між членами одного мовно­го колективу полягає не тільки в тому, які мовні оди­ниці (фонеми, лексеми, граматичні форми і синтаксич­ні конструкції) вони використовують, а й у тому, як часто вони їх уживають. Отже, стає зрозуміло, чому нині такого великого поширення набули так звані частотні словники, у яких слова розташовані не за алфавітом, а за спадом частот, тобто першим іде найбільш частотне слово, за ним слово нижче рангом за частотою від пер­шого і т.д. Відомі такі частотні словники: Уоззеїзоп Н. ТЬе Киззіап \¥оіч1 Соипі апй Ггедиепсу Апаїузіз о£ Огаттаїїсаі СаІе£огіез ої Зіашіагсі Ьііегагу Киззіап. — Беїгоіі, 1953; Штейнфельдт 3. А. Частотньїй словарь современного русского литературного язьїка. — Таллинн, 1963 (перевидавався в Москві в 1969 і 1973 рр.); Частотньїй словарь русского язьїка / Под ред. Л. Н. За-сориной. — М., 1977. В Україні в 1981 р. вийшов дво­томний «Частотний словник сучасної української ху­дожньої прози». Частотні словники мають велике практичне значення. На їх основі створюють підруч­ники іноземних мов, тексти яких будуються на най­більш уживаній лексиці, і словники-мінімуми. Якщо зважити на те, що 1100 (за іншими даними — 1000) найбільш частотних слів покриває 80% тексту, то зна­чення частотних словників для лінгводидактики не­оціненне: варто знати 1100 слів і можна розмовляти іноземною мовою, читати й розуміти тексти (значення 20% невідомих слів можна якоюсь мірою визначити за контекстом).

Статистичні закономірності лежать в основі органі­зації словника і тексту будь-якої мови. Американсь­кий дослідник Дж. Ципф дійшов висновку, що існує залежність між числом різних значень одного слова і його відносною частотою вживання. Кількість значен­ня наближається до квадратного кореня від частоти слова: т = V/» де /п — число значень, а / — відносна частота. Інша закономірність, встановлена Ципфом (у науці вона відома як закон Ципф а), має таке форму­лювання: відношення рангу слова в частотному слов­нику до частотності слова в мові становить постійну величину (константу) г/ = с, де г — ранг слова в час­тотному словнику, / — частота слова, с — постійна ве­личина. Слід зазначити, що тісний зв'язок існує також між частотними характеристиками слова в пам'яті та в словнику [Фрумкина 1971: 14 і наст.].


Статистична організація тексту полягає в тому, що покриття тексту різними словами відповідає такій за­кономірності: на початку тексту різних слів більше, а далі їх менше [Пап 1961: 96—100].

Найширше застосовують статистичні методи для визначення семантичної відстані між словами. Най­частіше з цією метою статистичній обробці піддають слова, які сполучаються з аналізованим словом. Для цього використовують статистичну формулу

р(а.Ь) = 2<л=1М(а)-й(а)]і

де а, & — задані слова, р — відстань, £ — сума чисел, /і — числові значення.

Семантичну відстань між словами можна виявити й іншим шляхом. Порівнюючи і зіставляючи сполучу­ваність слів (синонімів чи всієї лексико-семантичної групи або поля), у таблиці ставлять +, якщо слово має таку сполучуваність, і -, якщо не має. Відтак за мето­дикою альтернативних ознак семантичні зв'язки між кожною парою слів установлюють за формулою

Ай-Ьс

Г~ (а + Ь)(с + Л)(а + с)(Ь + д) '

де а — 4-4-, Ь — Н—, с — —Ь, (і — —. Так, наприклад, було встановлено семантичну відстань між словами на означення неточних (нефіксованих) часових відрізків. Найвищий цифровий показник, а відповідно найтісні­ший семантичний зв'язок виявили слова порадоба, далі в порядку зниження ступеня семантичного зв'язку йдуть часдні, порагодина, часпора, пораперіод, епохадоба «епоха», епохаперіод, часдоба «час», часгодина «час», порадні. Найслаб-кіший семантичний зв'язок зафіксовано між словами часмить, часера, часепоха, дніера.

На основі статистичних формул, які враховують ви­падки зникнення в мовах слів основного фонду, можна встановити абсолютну хронологію диференціації мов­них сімей (метод глотохронології М. Сводеша, про який уже йшлося).

Стилостатистика — це визначення і характерис­тика стилістичних особливостей окремих творів або авто­рів через кількісні відношення використаних мовних елементів. В основі статистичного підходу до досліджен­ня стилістичних явищ лежить розуміння літературного стилю як індивідуального способу володіння засобами мо­ви. При цьому дослідник абстрагується від питання про якісну значеннєвість обчислюваних мовних елементів, зосереджуючи свою увагу тільки на кількісному аспекті. Найпростішим різновидом статистичного підходу до вивчення мови письменників або окремих творів є під­рахунок уживаності слів, оскільки багатство словника певним чином характеризує їхню мову. Досить порів­няти такі факти: словниковий запас пересічної людини становить 7—10 тисяч слів, у творах О. Пушкіна вжито 21280 слів, а в російськомовних творах Т. Шевченка — 21548 слів. Значно більшу вагу для характеристики авторсько­го стилю має встановлення середньої частоти вживан­ня слів, яку вираховують за формулою

- £ґ*1+*2-*/ь> х =<=■ ----------------------------,

Щ

де — середня частота, х\9 х2 — вибіркова частота, щ — число вибірок. Так, наприклад, якщо досліджу­вана одиниця в десяти вибірках траплялася відповід­но 12, 14, 10, 8, 16, 18, 12, 17, 13, 20 разів, то


_ 12 + 14 + 10 + 8 + 16 + 18 + 12 + 17 + 13 + 20 лл

Для кожного письменника, як і будь-якого мовця, характерна своя специфічна частотність мовних елемен­тів, іншими словами, кожному авторові притаманні свої улюблені, а тому й частотні слова, словосполучення, фрази, синтаксичні конструкції тощо. Так, скажімо, 56 найчастотніших слів у творах О. Пушкіна покривають 40 відсотків тексту, 1000 слів — 70 відсотків, 8000 — 95 відсотків, інші 13280 слів — усього лише 5 відсот­ків тексту. Саме тому середня частотність використо­вується також для встановлення справжнього авторст­ва виявлених без зазначення автора творів, а також для датування окремих творів того самого автора на основі попередньо проведеного підрахунку середньої частоти вживання ним слів у різні періоди його твор­чості. Специфічними для кожного автора є й рідко­вживані слова.

Як засіб стильової характеристики використовують критерій стабільності середньої частоти найуживані­ших слів. Доведено, що, незважаючи на різні перипетії сюжету в усіх частинах твору, середня частота вжи­вання слів є стабільною. Звідси випливає такий висно­вок: стиль автора можна охарактеризувати певним співвідношенням змінності середньої частоти вживан­ня слова до загальної для певної мови частоти його вживання.

Якщо ж у творі письменника чи його якійсь части­ні є суттєві відхилення вибіркових частот від харак­терної для нього середньої частоти, то це свідчить про зумисне, цілеспрямоване, зумовлене фабулою викорис­тання чи невикористання певних мовних засобів. Як інструмент для визначення випадковості чи суттєвості відхилення вибіркової частоти від середньої викорис­товують так званий «хі-квадрат критерій» (%2).

ха. £(*«_-*)2

X

«Хі-квадрат» дорівнює сумі квадратів відхилень від середньої частоти, поділеної на середню частоту. Отрима­ний результат зіставляють з даними таблиці числових значень «хі-квадрата» і таким чином встановлюють, ви­падковим чи суттєвим є відхилення вибіркових частот від середньої. Наприклад, у творі зроблено дві вибірки, які відповідно становлять 270 і 220. їх середнє дорівнює 245. Підставляємо ці цифри у формулу і обчислюємо:

9_ (270-245)2 [ (220-245)2 245 245

У таблиці числових значень «хі-квадрата» вказано, що ступінь свободи 1 при 5% дорівнює 3,84. Результат у цьому разі значно перевищує цю цифру, звідки випливає висновок, що відхилення від середньої часто­ти є суттєвими. У вивченні мовних функціональних стилів засто­совують два різновиди статистики: ймовірнісний і сим­птоматичний. Ймовірнісна статистика допомагає встановити ступінь достовірності одержаних результа­тів, величину й кількість вибірок для аналізу із зада­ною точністю, вибрати об'єктивні критерії для дифе­ренціації різних стилів, визначити відстань між стиля­ми. Симптоматичну статистику застосовують у статистичному описі функціональних стилів, оскільки за її допомогою можна виявити процентне співвідно­шення між різними типами мовних явищ.Статистичну методику використали вчені відділу структурно-математичної лінгвістики Інституту мово­знавства ім. О. О. Потебні НАН України під керівниц­твом В. С. Перебийніс (див.: Статистичні параметри стилів. — К., 1967, де різні функціональні стилі оха­рактеризовані за частотними параметрами фонем, ти­пів складів, кінцевих афіксів, дієслівних форм, дієслів­ного оточення, сполучників, префіксів і префіксальних словоформ, розділових знаків, а також за розподілом довжини речення). Крім статистичних методів, у мовознавстві застосо­вують методи теорії інформації, математичної логіки, теорії ймовірностей і теорії множин. Дані теорії інформації використовуються для най-економнішої передачі інформації засобами мови. Кож­на мова має значну кількість надлишкової інформації. Щоб переконатися в цьому, варто звернутися до фено­мену телеграми: незважаючи на скорочення слів і усу­нення деяких службових слів, її зміст залишається зрозумілим. У мовленні, зокрема, в одній фразі повто­рюється (інколи по п'ять і більше разів) вказівка на рід, число, відмінок, вживаються підряд синоніми, та сама думка часто дублюється (уточнення, що почина­ються словами тобто, інакше, іншими словами тощо) та ін. Встановлено, що, наприклад, російська мова має 39,8 % надлишкової інформації, англійська — 30,7 %. Різним ступенем надлишковості характеризуються сти­лі тієї самої мови. Найбільша надлишковість притаман­на діловому стилю, менша — публіцистичному і худож­ньо-белетристичному і найменша — непідготовленому усному мовленню. Надлишковість інформації в мові не можна розцінювати як недолік. Часто надлишковість при перешкодах на каналі зв'язку є допоміжним засо­бом сприйняття повної інформації. З математичної логіки мовознавство запозичило символічну мову. Так, зокрема, знак с означає вхо­дження, п — перетин, и — поєднання, л — і, V — або, + — функцію, а, в, с — змінні, > — більше, < — мен­ше, ~ — подібно. Використання елементів математич­ної логіки вплинуло на збагачення прийомів дослі­дження мови — алгоритмізацію, графічні обчислення, матричне визначення істинності функцій складних висловлень тощо. Застосування логіко-математичних методик і прийомів моделювання зумовило появу різ­них видів логіко-математичного моделювання мови, мисленого експерименту і гіпотетико-дедуктивного способу дослідження.


Усе в мові підпорядковується не жорстким, а ймо­вірнісним закономірностям. Тому цілком природно, що в дослідженні мовних одиниць використовують тео­рію ймовірностей1. Під ймовірністю розуміють відно­шення в середньому спостережуваного числа вдалих результатів до загального числа експериментів (подій).

Найпростіше питання, яке допомагає з'ясувати тео­рія ймовірностей, — частотність звуків у мовленні. Якщо огрублено ототожнити звук з буквою, то в будь-якому російському тексті на 1000 букв і пробілів буде 175 пробілів, 90 — о, 62 — а, 53 — т, 45 — с, 40 — р, 38 — в... і тільки 2 — ф. Цей тип ймовірності назива­ється середньою ймовірністю. Подібні дослідження використовують для складання друкарських кас, для опису особливостей окремих мов, різних стилів однієї мови або індивідуального авторського стилю.

Однак звуки в мовленні розташовуються не як-не­будь, а більш-менш визначеними для кожної мови способами (приголосний + голосний + голосний чи приголосний + голосний 4- приголосний тощо). У біль­шості мов світу переважає проміжний тип — приго­лосний + голосний. Знання таких закономірностей дає змогу визначити ймовірність появи в мовленнєвому лан­цюжку голосного чи приголосного. Так, якщо взяти перший тип мов, до яких належать полінезійські, де після приголосного, як правило, йдуть два голосних, то після першого навгад вибраного приголосного ймовір­ність, що наступним звуком буде голосний, практично дорівнює 1. Знання цих обмежень важливе для дешиф­рування тексту. Цей тип ймовірності, де у кожному но­вому експерименті враховується результат попередньо­го експерименту, називають умовною ймовірністю.

Другий тип, як і перший, не відображає суті мов­них явищ. При такій інтерпретації виходить, ніби всі приголосні в середньому однаково часто поєднуються з голосними. У мовленні на суто фонетичну сполучу­ваність накладаються ще й інші обмеження, виклика­ні тим, що деякі можливі звукосполучення мають зміст і є морфемами, а інші не мають змісту і не є морфемами (пор.: смола і жмола, хмола, вмола). Ймо­вірність перших різко зростає, а ймовірність других різко знижується, по суті дорівнює нулю. Цей тип ймовірності називається індуктивною ймовірністю. Для функціонування мови саме він має особливе зна­чення, оскільки людина, сприйнявши декілька зву­ків, очікує певне, а не будь-яке продовження. Індук­тивна ймовірність виражає очікування того чи іншого мовного елемента з погляду людини, яка розуміє зміст мовленнєвого ланцюжка.

Аспект мови, до якого застосовують теорію ймовір­ностей, називається теоретико-ймовірнісним.

Теорію множин використовують для дослідження класів мовних елементів, які складають уже не мовлєн нєвий ланцюжок, а парадигматику мови. Множину трактують як сукупність об'єктів, об'єднаних якоюсь спільною ознакою. Ознака, яка об'єднує об'єкти у складі множини, може бути якою завгодно. Так, скажімо, всі фонеми певної мови, усі словоформи певного тексту, всі тексти української мови можна інтерпретувати як окре­мі множини. Об'єкти, що складають певну множину, на­зивають елементами. Позначають множину фігурними дужками. Наприклад, запис А = {х, у,..., г) читається так: існує множина А, яка складається з елементів х, у,..., г. Множину задають двома способами: простим пере­рахуванням 'її елементів або вказівкою на ознаку цих елементів. Наприклад: А = {ґ, к, х, ґ\ к\ х'} або А є мно­жина задньоязикових приголосних української мови.

Множина може складатися не тільки з багатьох, а й з одного елемента (наприклад, множина середньоязи­кових складається з одного звука [і]), може бути й порожньою (наприклад, множини довгих і коротких голосних в українській мові). Елементом множини мо­же бути інша множина (дзвінкі приголосні — підмно-жина множини приголосних, а приголосні — під мно­жина множини звуків). Належність елемента множині записується так: х є А, що читається: «елемент х нале­жить до множини А», а належність під множини мно­жині записується, як А с М (множина А є підмножи-ною множини М). Дві і більше множин можуть мати спільні елементи. У такому разі говорять, що ці мно­жини перетинаються (наприклад, множини губних приголосних і дзвінких приголосних). Поділ множин на підмножини, які не перетинаються, є класифікаці­єю елементів. Розглянемо фонеми як множину. В мові кожна фо­нема протиставлена всім іншим. Для опису системи фо­нем будь-якої мови достатньо 12 ознак, причому кож­на з цих ознак може бути наявною або відсутньою. Таким чином, множина буде складатися з 2і5, тобто 4096 елементів. Кожен елемент — це певне поєднання однієї ознаки з декількома іншими з дванадцяти. Отже, 12 членів однієї множини можуть поєднуватися 4096 різними способами і утворювати таку кількість підмножин. Скільки є можливих підмножин, стільки може бути і фонем, оскільки кожна підмножина — це певне поєднання ознак фонем.







Date: 2015-07-23; view: 390; Нарушение авторских прав



mydocx.ru - 2015-2024 year. (0.017 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию