Автоматичне опрацювання мови
Автоматичне опрацювання мови – загальний напрям інформатики, штучного інтелекту та математичної лінгвістики. Він вивчає проблеми комп'ютерного аналізу та синтезу природної мови. Стосовно штучного інтелекту аналіз означає розуміння мови, а синтез – генерацію розумного тексту. Розв'язок цих проблем буде означати створення зручнішої форми взаємодії комп'ютера та людини. «Обробка природної мови – це комп'ютеризований підхід до аналізу тексту, що базується на низці теорій та наборі технологій. Ця галузь не має одного загальноприйнятого визначення, адже вона перебуває у стані постійних досліджень та розробок. Однак, існують певні аспекти, які б об'єднували усі існуючі визначення»[Лідді, с. 25]. Автоматичний синтез – це операція, в якій за заданою граматичною і семантичною інформацією будується той, що містить цю інформацію текст на природній мові; операція виконується по деякому алгоритму відповідно до заздалегідь розробленого опису даної мови. Автоматичний синтез підрозділяється на три етапи: 1) семантичний – перехід від смислового запису фрази до її синтаксичної структури; 2) синтаксичний – перехід від синтаксичної структури фрази до ланцюжка лексико-граматичних характеристик словоформ, що представляє фразу; 3) лексико-морфологічний – перехід від лексико-граматичної характеристики до реальної словоформи [Всі слова]. Зворотна операція називається автоматичним аналізом тексту. Автоматичний аналіз друкованого тексту, також як і аналіз усної мови, починається з його введення в комп'ютер. Для введення інформації в комп'ютер використовуються спеціальні пристрої – клавіатура, миша та ін., але найбільш зручним інструментом для введення великої кількості друкованих текстів є сканер. Щоб комп'ютер зміг перевести графічне (растрове) зображення символів в текстову форму, при якій у кожного символу є свій двійковий код (наприклад, в системі кодувань ASCII), потрібна програма автоматичного розпізнавання символів (англ. OCR = Optical Character Recognition). Автоматичний аналіз тексту включає ряд вельми складних операцій, які комп'ютер виконує над текстом відповідно до заданого алгоритму. При автоматичному аналізі текст послідовно перетворюється в його лексико-морфологічні, синтаксичні та семантичні уявлення, зрозумілі комп'ютеру. Зворотний процес перетворення лексико-морфологічних, синтаксичних і семантичних комп'ютерних уявлень в текст на природній мові називається автоматичним синтезом тексту [Всі слова]. Автоматичний аналіз тексту включає ряд етапів: граматичний аналіз; морфологічний аналіз; синтаксичний аналіз; семантичний аналіз. Існує кілька підходів до обробки природної мови. В основі статистичного підходу до обробки природної мови лежить припущення, що зміст тексту може бути визначено за найуживанішими словами. Основним завданням даного підходу є визначення кількості повторень конкретного слова та словосполучень в тексті [Слюсар]. Латентно-семантичний підхід є різновидом статистичного методу та базується на ідеї, що сукупність усіх контекстів, у яких зустрічається або не зустрічається дане слово, визначає множину взаємних обмежень для виявлення схожостей у значеннях слів. Основна проблема, з якою стикаються статистичні підходи, полягає в розгляді тексту як набору слів без смислового зв'язку. Лінгвістичний підхід до обробки природної мови складається з чотирьох рівнів: графематичного, морфологічного, синтаксичного та семантичного[ Діковицький, Шишаєв]. Перший рівень полягає у виділенні окремих елементів тексту/документу, наприклад, розділів, абзаців, речень і т. д. Другий рівень полягає у визначенні морфологічних характеристик окремого слова. Третій рівень відповідає за визначення синтаксичної залежності слів у реченнях. Останній рівень пов'язаний зі смисловим розумінням тексту, що включає розробки у сфері штучного інтелекту. Дослідницькі досягнення у цій сфері є дуже обмеженими у зв'язку зі складністю людської мови. Символічний підхід до обробки природної мови здійснює глибинний аналіз лінгвістичних явищ та базується на явному представленні знань, що здійснюється шляхом використання добре досліджених схем представлення знань та алгоритмів, що працюють з ними. Джерелом знання про мову можуть виступати словники, формули та правила, розроблені людьми. Даний метод обробки природної мови відповідає за обробку загальних моделей з використанням конкретних прикладів мовних явищ. Найбільш значуща відмінність коннективістського підходу від інших статистичних методів полягає у поєднанні статистичних знань та різних теорій уявлень, що дозволяють працювати з логічними висновками та трансформацією логічних формул. Диференційний метод машинного навчання, що допомагає провести класифікацію слів за категоріями. Даний метод побудований на певній множині властивостей. Вищезгадані методи не є ізольованими один від одного, вони є паралельними процедурами сприйняття змісту тексту[Анісімов, с. 6]. Серед існуючих методів аналізу текстових даних чинне місце посідає метод з використанням векторної моделі. Основна ідея якого полягає в алгебраїчному представленні колекції текстових масивів векторами одного спільного для всієї колекції векторного простору. Векторна модель є основою для вирішення багатьох завдань, таких як: пошук документа за запитом, класифікація документів та кластеризація документів. Іншим ефективним і актуальним засобом вилучення семантики із тексту та її подання є метод латентно-семантичного аналізу (ЛСА) [Zaboleeva-Zotova].
Обро́бка приро́дної мо́ви (англ. Natural-language processing, NLP) – це підрозділ інформаційних технологій, штучного інтелекту та лінгвістики, метою якого є вивчення проблем комп’ютерного аналізу та синтезу природної мови. Повне розуміння та відтворення сенсу мови – надзвичайно складне завдання, оскільки людська мова має цілий ряд особливостей. Стосовно штучного інтелекту аналіз означає розуміння мови, а синтез – генерацію розумного тексту. Розв'язок цих проблем буде означати створення зручнішої форми взаємодії комп'ютера та людини. «Обробка природної мови – це комп'ютеризований підхід до аналізу тексту, що базується на низці теорій та наборі технологій. Ця галузь не має одного загальноприйнятого визначення, адже вона перебуває у стані постійних досліджень та розробок. Однак, існують певні аспекти, які б об'єднували усі існуючі визначення» [Лідді]. Аналіз природної мови як «міждисциплінарну галузь науки, що охоплює методики обчислювальної лінгвістики та теорії штучного інтелекту, основним проблемним полем якої є забезпечення взаємодії людських комунікативних актів (вербальних та невербальних) та комп'ютерних систем»[Іванов]. У процесі обробки природної мови завжди слід враховувати кодування, яке використовується в конкретному документі. Текст може зберігатися в різних кодуваннях: ASCII, UTF-8, UTF-16 або Latin-1. Особливі види обробки можуть знадобитися для знаків пунктуації та для чисел. Іноді доводиться окремо обробляти використання знаків, які відображають емоції (комбінації символів або спеціальні символи), гіперпосилань, розділових знаків що повторюються (... або ---), розширень файлів та імен користувачів, що містять крапки [Reese]. Природна мова є вкрай неоднозначною та мінливою, тому для її обробки необхідно застосовувати і статистичні алгоритми, тому домінантними підходами до сучасної ОПМ є підходи, базовані на статистичному машинному навчанні (statistical machine learning) [Goldberg].
Обробка природної мови (natural language processing ) – дисципліна, яка вивчає проблеми взаємодії комп'ютерів і природних мов. Її метою є підвищення якості машинного аналізу і синтезу повідомлень на природній мові. При цьому під машинним аналізом розуміється здатність комп'ютера отримувати сенс з вхідних природно-мовних повідомлень, а під машинним синтезом – здатність комп'ютера грамотно генерувати вихідні повідомлення на природній мові. Як повідомлення розглядаються усні і письмові повідомлення (мова і текст відповідно). До числа найбільш відомих прикладних задач машинного аналізу текстів природною мовою відносяться: машинний переклад ( machine translation ); інформаційний пошук ( information retrieval); автоматична класифікація і кластеризація текстів {automatic text classification and clustering); автоматичне реферування і анотування текстів {automatic text summarization and annotation ); автоматичне вилучення фактів (знань) з текстів {information extraction, knowledge discovery ); розробка автоматичних питально-відповідних систем {question-answering systems development). Поняття природної мови (natural language) в корпусному мовознавстві розширює свою семантику щодо загальнолінгвістичної і також означає імітовану машиною форму людської мови. Натомість під поняттям штучна мова розуміють передовсім мови програмування і формальну логіку (computer language, machine language, programming language, formal logic), призначені для оброблення природномовної інформації програмними засобами. На сьогодні вихідною в межах корпусної лінгвістики штучною мовою є Стандартна узагальнена мова маркування (Standard Generalized Mark-up Language = SGML), чи певна стандартна система розмічування електронного тексту, на якій базуються комп'ютерні програми оброблення корпусів. Програмне оброблення будь-якого тексту в корпусно-базованих роботах передбачає наявність розмітки (mark-up), тобто формалізовано поданої відповідної текстової та лінгвістичної інформації. Подання текстових і мовних даних у встановленому форматі називається кодуванням (encoding), однозначність застосувань якого до оброблення різних мов визначається міжнародним Стандартом кодування корпусу (Corpus Encoding Standard = CES). Кодування безпосередньо пов'язане з поняттям анотації (annotation), яке інтерпретується, по-перше, як практика додавання визначеної лінгвістичної інформації до машиночитаного тексту, по-друге, – як наявність цієї інформації у тексті, і, по-третє, – як сама така інформація. Залежно від типу анотованої інформації розрізняють: – анафоричну анотацію (anaphoric annotation) – тип анотації, який передбачає наявність займенникових посилань у корпусі; – дискурсну анотацію (discoursal annotation) – тип анотації, яка передовсім маркує елементи організації дискурсу. Через неоднозначність ідентифікації дискурсної інформації в тексті, цей тип анотації непоширений у корпусно-базованих дослідженнях; – просодичну анотацію (prosodic annotation) 2 тип анотації, який охоплює суперсегментний рівень мовлення, передовсім наголос, інтонацію і паузи; – семантичну анотацію (semantic annotation) – тип анотації, який передбачає маркування відношень між семантичними елементами тексту, наприклад розмітка компонентів сюжету або специфіки розгортання сюжету; Нові напрямки досліджень – фонетичну анотацію (phonetic transcription) – тип анотації, яка подає фонетичну специфіку усного мовлення природної мови і має формат фонетичної транскрипції. Повністю фонетично анотованих корпусів існує небагато, більшість фонетичних анотацій міститься в межах просодичної анотації. (morphosyntactic annotation, part-of-speech annotation) – основний і найпоширеніший тип анотації у корпусних дослідженнях, який передбачає маркування частиномовної належності та частиномовних характеристик одиниць лексичного рівня. Частиномовне анотування, чи теґування (tagging) передбачає приписування теґів (tags, одн. tag) – спеціально створених коґдів, за допомогою яких формалізується і задається відповідна морфологічна інформація про конкретне слово, до якого цей код приписано. Наприклад, веснa_Nfsn , де N = іменник, f = жіночий рід, s = однина і п = називний відмінок, тобто код Nfsn несе інформацію про те, що лексема весна – це іменник жіночого роду в формі однини і називного відмінка; говорити_Vin: V = дієслово, і = форма інфінітива, п = недоконаний вид, отже, говорити – дієслово, інфінітив, недоконаного виду; дo6puй_Amqsn: А = прикметник, т = чоловічий рід, q = якісний, s = однина і п = називний відмінок, відповідно добрий – це прикметник чоловічого роду, якісний, у формі однини називного відмінка. Залежно від функціональної специфіки, розрізняють звичайні або одиничні, дубльовані та гібридні теґи. Дубльовані теґи (ditto tag) – це, по-суті, той самий код, приписаний до кожного окремого елемента ідіоми. Через дубльований теґ зберігається ідіоматична єдність між елементами. Гібридні теґи (portmanteau tag), тобто паралельно приписані різні коди до одного мовного елемента, який може мати різні лінгвістичні характерисґтики за умови збереження тих самих формальних ознак, наприклад прикметник і субстантивований іменник в українській мові. У корпусно-базованих дослідженнях теґ окремо, як правило, не функціонує, тут використовуються базовий набір теґів (base tagset), або просто набір теґів (tagset), де базовий набір – спеціальний набір теґів, які детермінують базову структуру елементів документа, в межах якого вони використовуються, а набір теґів – сукупність теґів, застосованих для анотування конкретного корпусу або тексту. Наприклад, в межах проекту Ініціативи кодування тексту (ТЕІ) розроблено вісім базових наборів теґів для: (1) прозових текстів; ( 2 ) поезії; (3) драми; (4) транскрибованого усного мовлення; (5) листів і меморандумів; (6) словникових статей; (7) термінологічних статей; (8) корпусів і фондів. Отже, коли йдеться про частиномовну / морфолого-синтаксичну анотацію, в лінгвістиці корпусу функціонує поняття частиномовне теґування (part-of-speech tagging, або POS tagging). Під частиномовним теґуванням також розуміють комп'ютерний інструментарій, призначення якого приписувати формалізовані частиномовні атрибути до слів у корпусі [Демська-Кульчицька, с. 41-43].
⠀ Всі слова. [Електронний ресурс]. – Режим доступу: http://vseslova.com.ua/word/835u.
⠀ Слюсар, В.И. (2020). Применение торцевого произведения матриц в задачах обработки естественного языка. Нейромережні технології та їх застосування НМТіЗ-2020: збірник наукових праць XIX Міжнародної наукової конференції «Нейромережні технології та їх застос
⠀ Диковицкий, В. В., Шишаев, М. Г. (2010). Обработка текстов естественного языка в моделях поисковых систем//Сборник научных трудов. — С.30
Іванов,О. В. (2013). Класичний контент-аналіз та аналіз тексту: термінологічні та методологічні відмінності / Іванов Олег Валерійович // Вісник Харківського національного університету імені В. Н. Каразіна, Харків: Видавничий центр ХНУ імені В. Н. Каразіна
Демська-Кульчицька О. (2003). Базові поняття корпусної лінгвістики. ISSN1682-3540. Українська мова, №1(6).