Токен (token)
Токен – найменша одиниця, на яку поділяється корпус. Такою найменшою одиницею є будь-яка послідовність символів між пробілами або іншими роздільниками: словоформа, число, розділовий знак, символ (смайлик, математичний символ тощо). Розділові знаки в корпусі опрацьовуються як окремі токени. Пробіли не є токенами. Усі токени можна шукати за атрибутом “word”. Крім понять лексикографічна форма слова /лема, словоформа/ словоформи, у корпусному мовознавстві функціонує поняття токена (token), яке перекладають як лексема, і йдеться про кожну конкретну словесну одиницю, з будь-якою квантитативною характеристикою, у тексті [Електрон. доступ Корпус]. У найпростіших випадках поняття «лексема» і «токен» ідентичні, але складніші токенізатори додатково класифікують лексеми з різних типів («ідентифікатор», «оператор», «частина мови» тощо). Розпізнавання лексем у контексті граматики зазвичай здійснюється шляхом їх ідентифікації (або класифікації) згідно з ідентифікаторами (або класами) токенів, що визначаються граматикою мови. При цьому будь-яка послідовність символів вхідного потоку (лексема), яка згідно з граматикою не може бути ідентифікована як токен мови, зазвичай розглядається як спеціальний токен – помилка.
Кожен токен можна розглядати у вигляді структури, що містить ідентифікатор токена (або ідентифікатор класу токена) і, якщо потрібно, послідовність символів лексеми , виділеної з вхідного потоку (рядок, число тощо).
Мета такої конвертації зазвичай полягає в тому, щоб підготувати вхідну послідовність для іншої програми, наприклад для граматичного аналізатора , і позбавити його визначення лексичних подробиць в контекстно-вільної граматики (що призвело б до ускладнення граматики) [Вікіпедія].
⠀ Орися Демська-Кульчицька. Базові поняття корпусної лінгвістики. https://www.academia.edu/5361887/
⠀ http://www.uacorpus.org/Kyiv/ua/instrukciya-do-poshuku-nosketchengine/glosarij-terminiv https://uk.wikipedia.org/wiki/Лексический_анализ#Литература