Token
Wybrane jednostki analizy w językoznawstwie korpusowym (Pawlikowska, A.).
Najczęściej tokeny to po prostu słowa . Zbiór wszystkich unikalnych tokenów w korpusie nazywany jest słownikiem (ang. vocabulary). Pojedynczy token jest reprezentowany przez wektor o długości równej rozmiarowi słownika, zawierający tylko jedną niezerową wartość (Kusak, J.).
⠀ Pawlikowska, A. (2012). Zastosowanie metod językoznawstwa korpusowego i lingwistyki kwantytatywnej w analizie dyskursu. Oblicza komunikacji, 5, 111-125. Retrieved from: https://wuwr.pl/okom/article/view/3221
⠀ Kusak, J. (2020). Przewidywanie sekwencji tekstu na podstawie wcześniejszej części przy użyciu algorytmów uczenia maszynowego. Retrieved from: http://home.agh.edu.pl/~kwant/wordpress/wp-content/uploads/JustynaKusak_praca_magisterska.pdf