Електронний багатомовний

термінологічний словник

Electronic Multilingual Terminological Dictionary


Lingwistyka

Tokenizacja

Tokenizacja to podział tekstu wejściowego na jednostki, które zostaną poddane analizie. W języku polskim za granice wyrazów można przyjąć spację lub znak interpunkcyjny (na przykład przecinek, kropka, cudzysłów zamykający, średnik, dwukropek, wykrzyknik, znak zapytania) (Paryzek, P.).
Trudniejsza jest tokenizacja w przypadku języków aglutynacyjnych, w których słowa zbudowane są z większej liczby morfemów niż w przypadku języków syntetycznych. Ponadto postać tekstu może utrudniać tokenizację, na przykład tekst napisany wyłącznie wielkimi literami (Paryzek, P.).

Źródła:

⠀ Paryzek, P. (2011). Pozyskiwanie danych leksykalnych z tekstówelektronicznych (na materiale czasopisma naukowego). Retrieved from: https://repozytorium.amu.edu.pl/bitstream/10593/1422/1/Piotr%20Paryzek.pdf

Część mowy rzeczownik
Rodzaj gramatyczny żeński
Pojedyncza
Mianownik Tokenizacja
Dopetniacz Tokenizacji
Celownik Tokenizacji
Biernik Tokenizację
Narzednik Tokenizacją
Miejscownik Tokenizacji