Токенізація (tokenization)

Токенізація – процес “сегментації тексту, що є послідовністю символів, таких як букви, пробіли, знаки пунктуації та цифри, на слова і фрази” [Teodorescu, с. 5]. Завданням токенізації є відокремлення слів від синтаксичних знаків, цифр, комплексів літер та цифр, інтернет-адрес, нікнеймів, знаків %, +, -, // тощо. Однак створення досконалого алгоритму машинної ідентифікації та відмежування токенів є невирішеним питанням через наявність у текстах великої кількості одиниць та комбінацій, однозначна автоматична класифікація яких на цьому етапі є неможливою, наприклад: багатослівні токени (Переяслав-Хмельницький); імена, що містять знаки (Мар’яна, Григор’єв); числа, що містять пробіли; наявність у тексті крапки, яка не є ознакою кінця речення (пряма мова, скорочення м. – місто, с. – село), розділових знаків, що містять більше одного символу (напр., три крапки) тощо. На сучасному етапі ці та багато інших випадків не можна класифікувати автоматично, такі процедури виконуються механічним способом. Розв’язання зазначених питань уможливить належний рівень первинного автоматичного опрацювання текстового матеріалу і подальше якісне розпізнавання смислу окремих одиниць та всього тексту в складі певного корпусу.

Джерела:

⠀ Матвєєва, С. Токенізація як спосіб обробки корпусного тексту. https://www.researchgate.net/publication/325071336_TOKENIZACIA_AK_SPOSIB_ OBROBKI_KORPUSNOGO_TEKSTU

⠀ Teodorescu M.H. Machine Learning Methods for Strategy Research. HBS Working Paper 18-011. Harvard Business School, 2017. 59 p.

Частина мови	Іменник
Рід	жіночий рід
Істота/неістота	неістота
Називний	токенізація
Родовий	токенізації
Давальний	токенізації
Знахідний	токенізацію
Орудний	токенізацією
Місцевий	у/в токенізації

Лінгвістика

Токенізація (tokenization)