Електронний багатомовний

термінологічний словник

Electronic Multilingual Terminological Dictionary


Linguistik

Lemmatisierung

Bedeutung/Definition
1) Linguistik: Aufnahme eines sprachlichen Ausdrucks als Lemma/Stichwort in ein Wörterbuch
2) Linguistik: Zuordnung einer Wortform zu einem Lemma
Anwendungsbeispiele
1) „Das beginnt damit, dass eine Lemmatisierung nur gelingt, wenn ein Begriff vorliegt, der auf sämtliche relevanten elementaren Texteinheiten anwendbar ist und trotzdem zu einer nach Art und Umfang plausiblen Menge von Wörtern führt (…).“
2) „Die Lemmatisierung ist keineswegs eine kategorische Angelegenheit, bei der immer klar wäre, zu welchem Lemma eine Wortform gehört.“ [2]
Beim Verarbeiten von natürlichsprachlichen Texten steht man immer wieder vor der Herausforderung, die unterschiedlichen Formen eines Wortes als zusammengehörig erkennen, um diese einheitlich zu behandeln. Ein einfacher und kostengünstiger Ansatz ist Stemming, bei dem Worte auf ihren jeweiligen Wortstamm reduziert werden. Wenn dieser Ansatz nicht ausreicht, kann die deutlich mächtigere Lemmatisierung eingesetzt werden.
Lemmatisierung ist viel mehr als Stemming
Der rein algorithmische Ansatz des Stemmings liefert in vielen Fällen brauchbare Ergebnisse, leidet aber speziell in der deutschen Sprache unter vielen Ausnahmen und Unregelmäßigkeiten. Darüber hinaus sind die Wortstämme meist keine eigenständigen Worte und können deshalb oft nicht direkt für die Anzeige beim Endbenutzer verwendet werden.
Das Lemmatisieren hat seinen Namen von “Lemma“, der Grundform bzw. Zitierform. Es ist die Form unter der ein Wort in einem Wörterbuch zu finden ist. Das Lemma ist also ein eigenständiges Wort und damit in der Regel für Endanwender auch geläufig.
Welches Lemma einem Wort zugeordnet wird, kann theoretisch frei gewählt werden und hängt teilweise auch vom konrekten Anwendungsfall ab, im allgemeinen Sprachgebrauch haben sich jedoch bestimmte Herangehensweisen etabliert.
So wird für Nomen typischerweise der Nominativ Singular gewählt:
(die) Tische → (der) Tisch
(die) Gesellschaften → (die) Gesellschaft
(den) Schwestern → (die) Schwester
Bei Verben wird normalerweise der Infinitiv Präsens Aktiv verwendet:
(du) träumst → träumen
(sie) sahen → sehen
(ich) bin → sein
Die Umsetzung
Diese Zuordnungen können nur durch umfangreiche Wörterbücher realisiert werden, in denen alle Wortpaare aufgelistet werden. Das Ermitteln eines Lemmas wird dann durch simples Nachschlagen im Wortschatz gelöst.
Da zusammengesetzte Worte eine wichtige Rollen im Deutschen spielen und wesentlich zur Schaffung von neuen Worten beitragen, müssen sie auch bei der Lemmatisierung berücksichtigt werden. Das Lemma eines zusammengesetzen Wortes kann gebildet werden, indem lediglich der Kopf bzw. das Grundwort lemmatisiert wird:
Wohnhäuser → Wohn|haus
Reihenhäuser → Reihen|haus
Krankenhäuser → Kranken|haus
Ganz allgemein:
...|häuser → ...|haus
Anstatt eine große Anzahl an Komposita mit in den Wortschatz mitaufzunehmen, sollte die Lemmatisierung also lieber mit einer Kompositazerlegung kombiniert werden. Der benötigte Wortschatz kann so deutlich reduziert werden.
Für den Fall, dass das Lemma eines Wortes nicht direkt bekannt ist, wird dann zunächst versucht, das Wort als Kompositum zu betrachten und es in seine Bestandteile zu zerlegen. Wenn das gelingt, kann der Kopf lemmatisiert und dann das ursprüngliche Wort aus den Einzelteilen wiederhergestellen werden.
Notwendige Anpassbarkeit
Wie bei der Kompositazerlegung ist es auch bei Lemmatisierung notwendig, auf den konkreten Anwedungsfall einzugehen und entsprechende Anpassungen vornehmen zu können. Hierbei geht es vorallem um die Frage, welche Wortformen unter demselben Lemma zusammengefassen werden sollen. In Fachlexika werden Begriffe teilweise thematisch zusammengefasst, sodass z.B. “der Traum”, “träumen” und “das Träumen” das Lemma “(der) Traum” zugeordnet bekommen.
Aber auch bei Ableitungen wie “vorlesen”, “nachlesen”, “mitlesen” oder “durchlesen” ist nicht zwingend vorgeschrieben, dass diese eigenständige Lemmas haben müssen. Falls keine weitere Unterscheidung sinnvoll oder notwendig ist, können diese auch unter dem Lemma “lesen” zusammengefasst werden. Ähnlich wie bei Fachlexika können so ganze Bedeutungsgruppen völlig unabhängig von der Wortart zusammen gefasst werden:
singen, vorsingen, (der) Gesang, (der) Sänger, singend, gesungen, ... → singen [3]
fliegen, geflogen, (der) Flug, (die) Fliege, fliegend, Abflug, ... → (der) Flug [3]
Fazit
Die Lemmatisierung ist ein wichtige Alternative zum Stemming. Beim Verarbeiten von natürlichsprachlichen Texte ist der Einsatz von einem dieser beiden Methoden fast unerlässlich. Durch den Wörterbuch-basierten Ansatz bietet Lemmatisierung eine höhere Flexibilität und kann so im Deutschen deutlich besser mit Unregelmäßigkeiten und den vielen unterschiedlichen Wortformen umgehen. Zusätzlich bietet sich die Möglichkeit, den Wortschatz auf den konkreten Anwendungsfall anzupassen und dadurch ein besseres Ergebnis zu erhalten. Der rein algorithmische Ansatz des Stemmings bietet diese Möglichkeit nicht. Wird die Lemmatisierung mit einer Kompositazerlegung kombiniert, können auch Wortneuschöpfungen durch Komposition automatisch korrekt behandelt werden. [3]
Bedeutungen:
Linguistik: Aufnahme eines sprachlichen Ausdrucks als Lemma/Stichwort in ein Wörterbuch
Linguistik: Zuordnung einer Wortform zu einem Lemma
Herkunft:
Ableitung zum Stamm des Verbs lemmatisieren mit dem Derivatem (Ableitungsmorphem) -ung.
Beispiele:
„Das beginnt damit, dass eine Lemmatisierung nur gelingt, wenn ein Begriff vorliegt, der auf sämtliche relevanten elementaren Texteinheiten anwendbar ist und trotzdem zu einer nach Art und Umfang plausiblen Menge von Wörtern führt.“ [4]
„Die Lemmatisierung ist keineswegs eine kategorische Angelegenheit, bei der immer klar wäre, zu welchem Lemma eine Wortform gehört.“ [4]
Beispiele:
Schließlich sortierte man die Zettel nach Stichwörtern gegliedert in Kästen ein. Schreiben, schrieb, geschrieben – alle Zettel damit landeten im gleichen Karton. Wissenschaftler sagen, die Zettel wurden lemmatisiert. [5]
Dieses Tool wird verwendet, um Korpora zu lemmatisieren (also Flexionsdifferenzen zu normalisieren) und grammatisch zu annotieren. [5]
Die Pronomina er, sie, es kommen sowohl in je eigenen Zellen als auch in einer gemeinsamen Zelle in der Tabelle vor, da der TreeTagger reflexive (er–es–sie) und irreflexive Pronomina […] auf diese Weise unterschiedlich lemmatisiert. [5]
David Levithan lemmatisiert die Liebe [Überschrift] Die lexikalische Ordnung hat etwas Faszinierendes: Mit unerbittlicher Strenge reiht das Alphabet die Kokotte an die Kokosnuss und lässt auf die Infantilität sogleich den Infarkt folgen. [5]
War der Index des Corpus nur unvollständig lemmatisiert, so gibt die CD‑Rom Auskunft über mehr als 20.000 Titel der Primär‑ und Sekundärliteratur. [5]
Lemmatisierung
Die lexikographische Reduktion der Flexionsformen eines Wortes auf eine Grundform, also die Festlegung der Grundform eines Lexems und die Anordnung der Lemmata wird auch Lemmatisierung genannt. Eine Teilmenge unmittelbar aufeinander folgender Lemmata bildet eine Lemmastrecke.
Unter Lemmatisierung wird außerdem die Bestimmung (oder auch Rückführung) einer Vollform zum entsprechenden Lemma verstanden. Dieser Vorgang ist je nach Anwendung in der Sprachtechnologie von Bedeutung. Beim Einsatz von statistischen Modellen etwa eignet sich die Lemmatisierung eines sehr kleinen Textkorpus manchmal dazu, die Frequenz einzelner Lexeme zu erhöhen und dadurch das statistische Rauschen zu verringern. Die Vollformen des Korpus werden dabei vor der statistischen Auswertung durch ihr Lemma ersetzt. Gab es vorher beispielsweise die Wortformen „traf“, „treffe“, „trifft“ und „treffen“ jeweils einmal im Korpus, so gibt es nach der Lemmatisierung nur noch das Lemma „treffen“ – allerdings mit einer Frequenz von vier. Das Lexem „treffen“ hat damit ein potenziell viel höheres Gewicht im Korpus, als es die einzelnen Vollformen vor der Lemmatisierung hat. [6]
Die Lemmatisierung von Textdaten gehört zu den wichtigen Preprocessing-Schritten in der Textverarbeitung. Dabei werden alle Wörter (Token) eines Textes auf ihre Grundform zurückgeführt. So werden beispielsweise Flexionsformen wie „schneller” und „schnelle” dem Lemma „schnell” zugeordnet. [7]

Quellen:

⠀ Deklination des Substantivs. – Ressource: https://www.lernhelfer.de/schuelerlexikon/deutsch/artikel/deklination-des-substantivs#

⠀ Lemmatisierung. Wortbedeutung. – Ressource: https://www.wortbedeutung.info/Lemmatisierung/

⠀ Lemmatisierung. Wiktionary. – Ressource: https://de.wiktionary.org/wiki/Lemmatisierung

⠀ Peter Eisenberg: Anglizismen im Deutschen. In: Deutsche Akademie für Sprache und Dichtung, Union der deutschen Akademien der Wissenschaften (Herausgeber): Reichtum und Armut der deutschen Sprache. Erster Bericht zur Lage der deutschen Sprache. de Gruyter,

⠀ Vivien Altmann, Gabriel Altmann: Anleitung zu quantitativen Textanalysen. Methoden und Anwendungen. RAM-Verlag, Lüdenscheid 2008, ISBN 978-3-9802659-5-9

⠀ Winfried Ulrich: Wörterbuch linguistische Grundbegriffe (= Hirts Stichwortbücher), 5., völlig neu bearbeitete Auflage. Borntraeger, Berlin / Stuttgart 2002, ISBN 3-443-03111-0.

die Wortarten Substantiv
Одушевленное/неодушевленное abstrakt
Genger feminin
Singular
Nominativ die Lemmatisierung
Genitiv der Lemmatisierung
Dativ der Lemmatisierung
Akkusativ die Lemmatisierung
Plural
Nominativ die Lemmatisierungen
Genitiv der Lemmatisierungen
Dativ den Lemmatisierungen
Akkusativ die Lemmatisierungen