Електронний багатомовний

термінологічний словник

Electronic Multilingual Terminological Dictionary


Лінгвістика

Статистична лінгвістика

Статистична лінгвістика – розділ мовознавства, який досліджує за допомогою статистичних методів кількісні закономірності в мові й мовленні, що виявляються в текстах; визначає частоту вживання різних лінгвістичних одиниць (букв, фонем, складів, слів, словосполучень, синтаксичних конструкцій тощо), залежність між частотою і довжиною слова, числом його значень і віком. В основі її лежить припущення, що деякі чисельні характеристики та функціональні залежності між ними, отримані для обмеженої сукупності текстів, характеризують мову в цілому або її функціональні стилі (публіцистичний, науковий, художній тощо). Накопичені дані використовуються для виявлення особливостей стилю окремих авторів, атрибуції текстів, дешифровки історичного письма (стародавньої писемності), для вирішення завдань стенографії, теорії зв’язку, а також інформатики. Статистична лінгвістика при здобутті чисельних характеристик використовує методи математичної статистики і деякі методи теорії інформації для визначення ентропії та надмірності мови, а для встановлення зв’язку між спостережуваними характеристиками та вибору найбільш істотних з них – метод математичних моделей, що базується на поняттях теорії вірогідності та математичної лінгвістики.
Практично важливою і найбільш вивченою числовою характеристикою статистичної лінгвістики є відносна частота вжитку різних лінгвістичних одиниць (букв, фонем, складів, слів, синтаксичних конструкцій), їх класів (наприклад, голосних, приголосних, частин мови) і поєднань (наприклад, послідовностей з n букв). Дані про частоту слів (інколи словосполук) відбиваються в частотних словниках. Можливе ширше розуміння статистичної лінгвістики як використання методів статистики для перевірки лінгвістичних гіпотез, які можуть носити і якісний характер. За допомогою методів статистичної лінгвістики виявляють особливості стилю окремих авторів, здійснюють атрибуцію текстів, дешифрування стародавніх писемностей, визначають лексичний та граматичний мінімум при вивченні іноземної мови та ін. Статистична лінгвістика використовує методи математичної статистики, інформації теорії, моделювання статистичного тощо. Українські лінгвісти широко використовують статистичні методи у своїх наукових дослідженнях.
Статистична лінгвістика виокремилася порівняно недавно, однак кількісні та статистичні методи до мови та мовлення застосовували тисячі років тому. Ще в античному світі (III ст. до н. е.) для творчості Гомера олександрійські граматики підраховували слова для визначення тих, які трапляються лише один раз у творі. Це робили, звичайно, вручну, а не автоматично, як тепер.
Засновником статистичного методу в мовознавстві став ще на початку ХХ ст. відомий вчений Фердинанд де Соссюр. Його ідеї розвивали науковці Л. Єльмслєв, Л. Блумфільд, детально вивчав статистичні методи в лінгвістиці вчений-генетик Георг Мендель, в Росії цим займалися Бодуен де Куртене та Ф. Фортунатов, значний внесок зробили вчені-лінгвісти Н. Хомскі, Р. Фрумкіна та О. Реформатський. Увійшов в історію англійський мовознавець і педагог Палмер, що відібрав три тисячі слів, які дають змогу розуміти 95% тексту.
Під час воєн зростає потреба передати інформацію так, щоб її не міг зрозуміти противник. Тому посилилася увага до криптографії – науки про зашифрування та розшифрування повідомлень, «ламання кодів».
Справжній «вибух» статистичних досліджень відбувся з появою комп’ютерів. Вони уможливили максимальне спрощення механічної роботи, такої, наприклад, як карткування. Якщо раніше для обчислення кількості слововживань у тексті їх треба було рахувати «вручну», то зараз, перевівши текст в електронний вигляд, наприклад, за допомогою програми MicroSoft Word ці дані можна отримати автоматично (опція файл/властивості/статистика/ слова). Також використовують комп’ютерні програми автоматичної лематизації (зведення словоформ до початкової форми), можливості автоматичного сортування та пошуку слів, їх частин тощо.
Лінгвостатистичні дослідження в Україні почалися з 50-х pp. XX ст. Спочатку вони стосувалися відбору лексичного мінімуму іноземних мов, згодом сфера їх застосування значно розширилася. Зокрема, 1963 р. в Інституті мовознавства ім. О.О. Потебні АН УРСР організовано групу структурно-математичної лінгвістики, яка започаткувала планомірне статистичне дослідження українських текстів художнього, науково-технічного та соціально-політичного функціональних стилів, зокрема, виявлено їхні статистичні параметри. Результатом цього стилеметричного дослідження стали зокрема монографії та збірники «Статистичні та структурні лінгвістичні моделі» (К., 1966), «Статистичні параметри стилів» (К., 1967), Перебийніс В. С. «Кількісні та якісні характеристики фонем сучасної української літературної мови» (К., 1970), «Структура мови та статистика мовлення» (К., 1974).
Ще один великий проект, розпочатий ще у 60-х p. XX ст., – укладання серії частотних словників: художньої прози, драми, поезії, публіцистики, наукової прози – триває; зокрема, залучено лабораторію комп’ютерної лінгвістики Київського національного університету імені Тараса Шевченка.
Центрами лінгвостатистичних досліджень, окрім названих, також можна вважати Київський національний лінгвістичний університет, Чернівецький університет імені Юрія Федьковича, Львівський національний університет імені Івана Франка, Національний університет «Львівська політехніка» та ін.

Джерела:

⠀ Бук, С. Н. (2008). Основи статистичної лінгвістики: Навчально-методичний посібник / Відп. ред. проф. Ф.С. Бацевич. – Видавничий центр ЛНУ імені Івана Франка. – 124 с.

⠀ Перебийніс, В. І. (2013). Статистичні методи для лінгвістів Посібник Видання друге, виправлене й доповнене Вінниця Нова Книга.

⠀ Романюк, С. (2015). Застосування статистичних методів у лінгвістичних дослідженнях. Наукові записки Національного університету “Острозька академія”. Серія «Філологічна» (Вип.54). с. 134-137.

Частина мови Іменник
Рід жіночий рід
Істота/неістота неістота
Називний статистична лінгвістика
Родовий статистичної лінгвістики
Давальний статистичній лінгвістиці
Знахідний статистичну лінгвістику
Орудний статистичною лінгвістикою
Місцевий у/в статистичній лінгвістиці