Tokenizacja
Tokenizacja to podział tekstu wejściowego na jednostki, które zostaną poddane analizie. W języku polskim za granice wyrazów można przyjąć spację lub znak interpunkcyjny (na przykład przecinek, kropka, cudzysłów zamykający, średnik, dwukropek, wykrzyknik, znak zapytania) (Paryzek, P.).
Trudniejsza jest tokenizacja w przypadku języków aglutynacyjnych, w których słowa zbudowane są z większej liczby morfemów niż w przypadku języków syntetycznych. Ponadto postać tekstu może utrudniać tokenizację, na przykład tekst napisany wyłącznie wielkimi literami (Paryzek, P.).
⠀ Paryzek, P. (2011). Pozyskiwanie danych leksykalnych z tekstówelektronicznych (na materiale czasopisma naukowego). Retrieved from: https://repozytorium.amu.edu.pl/bitstream/10593/1422/1/Piotr%20Paryzek.pdf