Tokenizacja

Tokenizacja to podział tekstu wejściowego na jednostki, które zostaną poddane analizie. W języku polskim za granice wyrazów można przyjąć spację lub znak interpunkcyjny (na przykład przecinek, kropka, cudzysłów zamykający, średnik, dwukropek, wykrzyknik, znak zapytania) (Paryzek, P.).
Trudniejsza jest tokenizacja w przypadku języków aglutynacyjnych, w których słowa zbudowane są z większej liczby morfemów niż w przypadku języków syntetycznych. Ponadto postać tekstu może utrudniać tokenizację, na przykład tekst napisany wyłącznie wielkimi literami (Paryzek, P.).

Źródła:

⠀ Paryzek, P. (2011). Pozyskiwanie danych leksykalnych z tekstówelektronicznych (na materiale czasopisma naukowego). Retrieved from: https://repozytorium.amu.edu.pl/bitstream/10593/1422/1/Piotr%20Paryzek.pdf

Pojedyncza
Część mowy	rzeczownik
Rodzaj gramatyczny	żeński
Mianownik	Tokenizacja
Dopetniacz	Tokenizacji
Celownik	Tokenizacji
Biernik	Tokenizację
Narzednik	Tokenizacją
Miejscownik	Tokenizacji

Lingwistyka

Tokenizacja