Computerlinguistik
Die Computerlinguistik ist das Fachgebiet, das sich mit der maschinellen Verarbeitung natürlicher Sprache beschäftigt. Sie ist im Überschneidungsbereich von Informatik und Linguistik angesiedelt, aber die Wurzeln der Computerlinguistik reichen bis in die fünfziger Jahre zurück. In diesem halben Jahrhundert seit ihrem Entstehen hat sie sich mittlerweile national und international erfolgreich etabliert, so dass auf dem Wissen aus der Informatik und der Linguistik aufbauend neue und eigenständige Methoden für die maschinelle Verarbeitung gesprochener und geschriebener Sprache entwickelt wurden. [2]
In der Computerlinguistik (CL) oder linguistischen Datenverarbeitung (LDV) [3, Batori] wird untersucht, wie natürliche Sprache in Form von Text- oder Sprachdaten mit Hilfe des Computers algorithmisch verarbeitet werden kann. Sie ist Schnittstelle zwischen Sprachwissenschaft und Informatik. In der englischsprachigen Literatur und Informatik ist der Begriff natural language processing (NLP) gebräuchlich.
Computerlinguistik lässt sich als Begriff (oder dessen Umschreibung) in die 1960er Jahre zurückverfolgen. Mit den Anfängen der künstlichen Intelligenz war die Aufgabenstellung schon nahegelegt. Noam Chomskys Syntactic Structures von 1957 präsentierte die Sprache in einem entsprechend passenden neuen formalen Gerüst. Hinzu kamen die Sprachlogiken von Saul Kripke und Richard Montague. Die teilweise aus dem US-Verteidigungsbudget sehr hoch geförderten Forschungen brachten jedoch nicht die erhofften Durchbrüche. Besonders Chomsky und Joseph Weizenbaum dämpften die Erwartungen an Automatisierungen von Sprachübersetzung. Der Wende von behavioristischen Wissenschaftskonzeptionen zu mentalistischen (Chomsky) folgten umfassende Konzipierungen in den Kognitionswissenschaften.
In den siebziger Jahren erschienen zunehmend häufiger Publikationen mit dem Begriff Computerlinguistik im Titel. Es gab bereits finanziell aufwändige Versuche exegetischer Anwendungen (Konkordanzen, Wort- und Formstatistik), aber auch schon größere Projekte zur maschinellen Sprachanalyse und zu Übersetzungen. Die ersten Computerlinguistik-Studiengänge in Deutschland wurden an der Universität des Saarlandes und in Stuttgart eingerichtet. Die Computerlinguistik bekam mit der Verbreitung von Arbeitsplatzrechnern (Personal Computer) und mit dem Aufkommen des Internets neue Anwendungsgebiete. Im Gegensatz zu einer Internetlinguistik, die insbesondere menschliches Sprachverhalten und die darüber induzierten Sprachbildungen im und mittels Internet untersucht, entstand in der Computerlinguistik eine stärker informatisch-praktische Ausrichtung. Doch gab das Fach die klassischen philosophisch-linguistischen Fragen nicht ganz auf und wird heute in theoretische und praktische Computerlinguistik unterschieden.
Aufgabe der Computerlinguistik
„Computerlinguistik erforscht die maschinelle Verarbeitung natürlicher Sprachen. Sie erarbeitet die theoretischen Grundlagen der Darstellung, Erkennung und Erzeugung gesprochener und geschriebener Sprache durch Maschinen.“
Computer verarbeiten Sprache entweder in der Form von Schallinformation (wenn die Sprache akustisch vorliegt) oder in der Form von Buchstabenketten (wenn die Sprache in Schriftform vorliegt). Um die Sprache zu analysieren, arbeitet man sich schrittweise von dieser Eingangsrepräsentation in Richtung Bedeutung vor und durchläuft dabei verschiedene sprachliche Repräsentationsebenen. In praktischen Systemen werden diese Schritte typischerweise sequentiell durchgeführt, daher spricht man vom Pipelinemodell, mit folgenden Schritten:
Spracherkennung
Falls der Text als Schallinformation vorliegt, muss er erst in Textform umgewandelt werden.
Tokenisierung
Die Buchstabenkette wird in Wörter, Sätze etc. segmentiert.
Morphologische Analyse
Personalformen oder Fallmarkierungen werden analysiert, um die grammatische Information zu extrahieren und die Wörter im Text auf Grundformen zurückzuführen, wie sie z. B. im Lexikon stehen.
Syntaktische Analyse
Die Wörter jedes Satzes werden auf ihre strukturelle Funktion im Satz hin analysiert (z. B. Subjekt, Objekt, Modifikator, Artikel etc.).
Semantische Analyse
Den Sätzen bzw. ihren Teilen wird Bedeutung zugeordnet. Dieser Schritt umfasst potentiell eine Vielzahl verschiedener Einzelschritte, da Bedeutung schwer fassbar ist.
Dialog- und Diskursanalyse
Die Beziehungen zwischen aufeinander folgenden Sätzen werden erkannt. Im Dialog könnten das z. B. Frage und Antwort sein, im Diskurs eine Aussage und ihre Begründung oder ihre Einschränkung.
Es ist allerdings nicht so, dass sämtliche Verfahren der Computerlinguistik diese komplette Kette durchlaufen. Die zunehmende Verwendung von maschinellen Lernverfahren hat zu der Einsicht geführt, dass auf jeder der Analyseebenen statistische Regelmäßigkeiten existieren, die zur Modellierung sprachlicher Phänomene genutzt werden können. Beispielsweise verwenden viele aktuelle Modelle der maschinellen Übersetzung Syntax nur in eingeschränktem Umfang und Semantik so gut wie gar nicht; stattdessen beschränken sie sich darauf, Korrespondenzmuster auf Wortebene auszunutzen. [4, Ruth Fulterer]
Am anderen Ende der Skala stehen Verfahren, die nach dem Prinzip Semantics first, syntax second arbeiten. So baut die auf dem MultiNet-Paradigma beruhende, kognitiv orientierte Sprachverarbeitung auf einem semantikbasierten Computerlexikon auf, das auf einem im Wesentlichen sprachunabhängigen semantischen Kern mit sprachspezifischen morphosyntaktischen Ergänzungen beruht. Dieses Lexikon wird beim Parsing von einer Wortklassen-gesteuerten Analyse zur unmittelbaren Erzeugung von semantischen Strukturen eingesetzt.
Beispiele für Probleme der Sprachverarbeitung
• Auflösung syntaktischer Mehrdeutigkeiten. In einigen Fällen lässt sich ein Satz auf mehrere Arten analysieren und deuten. Die richtige auszuwählen, erfordert manchmal semantische Information über den Sprechakt und die Intention der Sprecher, mindestens jedoch statistisches Vorwissen über das gemeinsame Auftreten von Wörtern. Beispiel: „Peter sah Maria mit dem Fernglas“ – hier ist nicht zwangsläufig klar, ob Peter Maria gesehen hat, die ein Fernglas in der Hand hielt, oder ob Peter Maria mit Hilfe eines Fernglases sehen konnte.
• Bestimmen der Semantik. Die gleiche Wortform kann je nach Kontext eine andere Bedeutung aufweisen (vergleiche Homonym, Polysem). Man muss die für den Kontext zutreffende Bedeutung auswählen. Auf der anderen Seite braucht man Formalismen zur Repräsentation von Wortbedeutungen.
• Erkennen der Absicht einer sprachlichen Äußerung (siehe Pragmatik). Manche Sätze sind nicht wörtlich gemeint. Beispielsweise erwartet man auf die Frage „Können Sie mir sagen, wie spät es ist?“ nicht eine Antwort wie „Ja“ oder „Nein“, sondern bittet damit um Auskunft über die Uhrzeit.
Anwendungen in der Praxis
Praktische Computerlinguistik ist ein Begriff, der sich im Lehrangebot einiger Universitäten etabliert hat. Solche Ausbildungsgänge sind nahe an konkreten Berufsbildern um die informatisch-technische Wartung und Entwicklung von sprachverarbeitenden Maschinen und ihrer Programme. Dazu gehören zum Beispiel:
- Die Unterstützung des Computerbenutzers bei der Textverarbeitung, beispielsweise:
• die automatische Korrektur von Tipp- und Rechtschreibfehlern,
• die Prüfung auf grammatische Richtigkeit oder
• die Umwandlung in Bedeutungszeichen in Japanisch oder Chinesisch.
- Das Auffinden von Informationen in großen sprachlichen Datenmengen (Text Mining, Informationsextraktion):
von der automatischen Suche nach relevanten Textstellen (Information Retrieval und Suchmaschinen) bis hin zur direkten Beantwortung von Fragen (Question Answering (QA)).
- Die Unterstützung beim Übersetzen von Texten in eine andere Sprache (Computer-aided Translation (CAT)) oder auch die vollständige automatische Übersetzung.
- Die Verarbeitung von gesprochener Sprache, zum Beispiel bei:
• digitalen Diktiergeräten (Spracherkennung) oder
• Lesegeräten für Blinde (Sprachsynthese).
- Die Generierung von natürlichsprachlichen Texten wie Wegbeschreibungen oder Wettervorhersagen.
- Die Aufbereitung von sprachlich vorliegenden Daten, beispielsweise die automatische:
• Verschlagwortung von Literatur,
• Anfertigung von Registern und Inhaltsverzeichnissen,
• Herstellung von Zusammenfassungen und Abstracts.
- Die Unterstützung von Autoren beim Verfassen von Texten, zum Beispiel das Finden:
• des treffenden Ausdrucks oder
• der richtigen Terminologie,
etwa bei der Verwendung eines kontrollierten Vokabulars in der technischen Dokumentation.
- Die sprachliche Interaktion mit einem Benutzer im Rahmen eines Dialogsystems, z.B.:
• bei telefonischen Auskunftsdiensten, aber auch
• zur Sprachsteuerung technischer Geräte oder Computer.
- Die automatisierte Messung von persönlichen Stärken anhand natürlicher Gespräche wie offenen Interviews, Bewerbungsgesprächen, Talkshows, Podiumsdiskussionen oder Gruppendiskussionen.
- Visualisierung von Argumentationsdiskursen (Argumentation Mining) zur Analyse der Inhalte von Texten und Sozialen Medien und zur Entwicklung von Lerntools. [5]
Computerlinguistik ist eines der Hauptanwendungsgebiete an der Schnittstelle zwischen Menschen und Computer
Das Fach Computerlinguistik ist eine eher junge Disziplin, die sehr stark mit den Entwicklungen in der Informationstechnologie verbunden ist: flexible Suchmaschinen, automatisierte Dialogsysteme, durch Sprache bedienbare Büromaschinen und Werkzeuge, e-Lernen für Unterrichtsmaterial... Die Entwicklung und Verbesserung dieser Anwendung hängt in hohem Grad ab von der gelungenen Integration sprachlicher bzw. linguistischer Datenstrukturen. Und genau darin liegt das Hauptinteresse der Computerlinguistik, nämlich linguistische Datenstrukturen so zu modellieren, dass menschliche Sprache(n) von Computern verarbeitet und verstanden werden.
Wenige Dinge haben einen so starken Einfluss auf unseren Alltag wie Sprache und Kommunikation.
Sprache ist das wichtigste Mittel zur Kommunikation und Interaktion zwischen Menschen. Obwohl Sprache äußerst komplex ist und einige sprachliche Phänomene äußerst schwer zu erklären sind, wird sie in einem äußerst kurzen Zeitraum erworben und ist eng verknüpft mit dem Denken. Auf diese Weise ist die menschliche Sprache zu einer der erstaunlichsten Erfindungen innerhalb der kulturellen Entwicklung geworden. Dafür steht auch der außerordentliche Reichtum an Sprachen, Dialekten, und Sondersprachen (bspw. Zeichensprachen), die in den vergangenen Jahrtausenden entstanden sind.
Der Computer und die moderne Kommunikation
Im Rückblick auf die kulturelle Entwicklung des 20. Jahrhunderts kann der Computer als eine der entscheidenden Erfindungen angesehen werden, die einen nachhaltigen und in letzter Konsequenz noch nicht absehbaren Einfluss auf unser Berufs- und Freizeitleben ausgeübt hat. Wurden Computer anfänglich noch als Rechenmaschinen angesehen, richtete sich schon nach kurzer Zeit das Interesse auf Daten, die über den reinen Zahlenbereich hinausgingen: die menschliche Sprache in geschriebener und gesprochener Form. Und da Sprache ein äußerst effizientes Mittel zur Kommunikation ist, wird sie auch als entscheidend für die Weiterentwicklung von Computern und modernen Kommunikationsmitteln angesehen: einerseits für die Übertragung einer Sprache in eine andere Sprache, Form oder ein anderes Medium, andererseits als Interaktionsmittel zwischen Menschen und Maschinen.
Worin besteht die größte Herausforderung der Computerlinguistik?
Menschen benutzen zur Kommunikation sog. "natürliche Sprachen", ein äußerst komplexes System aus Lauten und Zeichen, das einem ständigen Wandel unterliegt und ausreichend robust ist, um in äußerst vielen, störanfälligen Situationen gebraucht zu werden. Computer hingegen sind auf sog. "formale Sprachen" beschränkt, die anfällig sind gegenüber Mehrdeutigkeit, Veränderungen und Spontanität. Die wichtigste Aufgabe der Computerlinguistik besteht demnach darin, adäquate formale Modelle bereitzustellen, die diese besonderen und gegensätzlichen Eigenschaften natürlicher Sprachen innerhalb der formalen Einschränkungen von Rechnersprachen erfassen.
Computerlinguistik ist mehr als eine Verbindung zweier Disziplinen
Auf den ersten Blick erscheint Computerlinguistik häufig als Verbindung der Disziplinen Linguistik und Informatik; jedoch ist das Spektrum der Wissenschaften, die für die Computerlinguistik von Belang sind, weitaus vielfältiger. Es bestehen enge Verbindungen zur Kognitiven Psychologie, zur Mathematik, zu den Einzelphilologien und letztlich zur Philosophie. Der Stoff mit dem sich Studierende der Computerlinguistik auseinandersetzen können, reicht durchaus von den frühesten Überlegungen zur menschlichen Sprache (bspw. den ersten Sanskrit-Grammatiken) bis hin zu den neuesten Entwicklungen der Informationstechnologie (bspw. dem Simputer).
"Fremde Federn": Computerlinguistik definiert von der "Association of Computational Linguistics - ACL":
"Vereinfacht gesagt, ist Computerlinguistik das wissenschaftliche Studium der Sprache aus der Perspektive des Computers. Die Computerlinguistik ist von daher darin interessiert, unterschiedlichste sprachliche Phänomene so zu modellieren, dass sie durch Computer verarbeitet werden künnen. Diese Modelle können wissensbasiert und von Hand eingegeben oder datenorientiert, d.h. statistischer bzw. empirischer Natur sein. Arbeiten in der Computerlinguistik sind in einigen Fällen aus einer wissenschaftlichen Perspektive motiviert, derart, dass versucht wird, eine formal-rechnerische Erklärung für ein besonderes linguistisches oder psycholinguistisches Phänomen zu geben. In anderen Fällen ist die Motivation rein technologischer Natur, indem eine Komponente für eine sprachbasiertes Systeme erstellt wird. In der Tat ist die Arbeit von Computerlinguisten in vielen erprobten Systemen zu finden, u.a. Spracherkennern, Modulen zur Sprachsynthese, automatisierten Dialogsystemen, Suchmaschinen, Text-Editoren, Sprachlehrmaterialien usw." (Übersetzung von der "What is CL?"-Webseite der "Association for Computational Linguistics" - ACL)
https://uni-tuebingen.de/fakultaeten/philosophische-fakultaet/fachbereiche/neuphilologie/seminar-fuer-sprachwissenschaft/studium-lehre/studiengaenge/faq/was-ist-computerlinguistik/
Was ist Computerlinguistik?
„Einfach ausgedrückt, ist die Computerlinguistik die wissenschaftliche Untersuchung der Sprache aus einer rechnergestützten Perspektive. Computerlinguisten sind daran interessiert, Computermodelle für verschiedene Arten von linguistischen Phänomenen bereitzustellen.“
Ergänzungen dieser Definition der Assoziation vor Computational Linguistik stellen zusätzlich heraus, dass sich Computerlinguistik mit den mathematischen Eigenschaften von natürlichen und künstlichen Sprachen befasst. Im Mittelpunkt steht die Erforschung verschiedener Formalismen, sprachliche Sachverhalte in einer für den Computer verständlichen Form zu repräsentieren.
Die genannten Aspekte lassen auch für Laien die vielen praktischen Anwendungen des Feldes im digitalen Alltag bereits erahnen.
Computerlinguistik: Interdisziplinäres Feld mit vielen Anwendungsbereichen
Die moderne Computerlinguistik verbindet Informatik und Mathematik (insbesondere Statistik) mit der Linguistik in ihren Teilbereichen wie Morphologie, Syntax oder Semantik. Je nach konkreter Aufgabenstellung gelten Philosophie und Logik als relevante Nebenfächer. In Kombination führen diese Felder zur Entwicklung von Systemen, die Sprache erkennen und auf der Grundlage dieser Sprache eine Aufgabe erfüllen können.
Ergebnisse und Methoden aus dem Bereich Computerlinguistik sind die Grundlage für konkrete Softwarelösungen, in denen die Verarbeitung von Sprache zentral ist. Computerlinguistische Anwendungen kommen zum Einsatz:
o in Suchmaschinen
o bei der maschinengestützten Beantwortung von Fragen, etwa in Chatbots
o der automatischen Fehlerkorrektur in Textverarbeitungsprogrammen
o in Filterprogrammen zur Erkennung von unerwünschten Online-Inhalten
o bei Spracherkennung in Sprachassistenten wie Apples Siri
o SaaS-Lösungen zur automatischen Übersetzung von Texten
o Studium und Jobs im Bereich Computerlinguistik
Geeignet für ein Studium der Computerlinguistik sind Schulabgänger, die sowohl eine Begabung für Sprache mitbringen, aber auch gleichzeitig analytisches Denken und Abstraktionsvermögen zu ihren Fähigkeiten zählen. Grundkenntnisse und prinzipielle Affinität für Mathematik bzw. Informatik helfen beim erfolgreichen Bachelor- bzw. Master-Studium der Computerlinguistik.
Zu den Top-Adressen für Computerlinguistik in Deutschland zählen die Institute der Universitäten in Potsdam, München (LMU), Saarbrücken, Heidelberg und Bielefeld. International führend im Forschungsbereich Computerlinguistik sind Hochschulen wie die Stanford University, die Carnegie Mellon University, die Johns Hopkins University oder die Columbia University.
Die Aussichten für Forschungsfeld und Berufszweig gelten als ausgezeichnet. Ein wichtiger Treiber der steigenden Nachfrage von Expertise im Bereich Computerlinguistik sind die technischen Entwicklungen von Hardware und Software. Sowohl öffentliche Hand als auch etablierte Unternehmen und Start-ups investieren in Zukunftstechnologien, in denen Computerlinguisten gefragt sind.
Jobs für die deutschlandweit pro Jahr weniger als 100 Absolventen des Faches bieten sich entweder in der Forschung und Lehre an einer der genannten Hochschulen. Wen es in die Wirtschaft zieht, findet als Computerlinguist leicht einen Job in der Tech-Branche. Überall dort, wo Spezialisten Anwendungen rund um Natural Language Understanding und Natural Language Generation entwickeln, ist Fachwissen aus dem dynamischen Bereich Computerlinguistik gefragt. [6]
Die Computerlinguistik ist noch ein verhältnismäßig junges Fach: Die ersten Studiengänge sind weltweit in den achtziger Jahren entstanden. Computerlinguisten erforschen menschliche Sprache, wofür sie formale Modelle verwenden, die auf dem Computer realisiert werden können.
Computerlinguistik verbindet also Inhalte und Methoden aus der Informatik und der Sprachwissenschaft und benutzt dabei Teile der Mathematik (vor allem formale Logik und Statistik) als Grundlage. Auf diese Weise gewinnt sie Erkenntnisse über die Lautstruktur, die Satzstruktur und die Bedeutungsstruktur von Sprachen und über die Art und Weise, wie Menschen Sprache verstehen, produzieren und lernen.
Diese Erkenntnisse werden zur Entwicklung von Computersystemen angewendet. Beispiele für sprachverarbeitende Systeme sind:
Natürlichsprachliche Zugangssysteme, die den Dialog mit dem Computer in gesprochener und geschriebener Sprache ermöglichen – z.B. unser sprechender Fahrstuhl :-)
Textverstehende Systeme, die automatisch Wissen aus Dokumenten extrahieren – mit der Frage, wie man Grammatik aus Texten extrahiert, befasst sich zum Beispiel das NEGRA-Projekt.
Maschinelle Übersetzungssysteme wie das System des berühmten Verbmobil-Projektes.
Systeme für Rechtschreib-, Grammatik- und Stilkorrektur, die das Formulieren in einer Fremdsprache erleichtern.
Wenn man ehrlich ist, muss man allerdings hinzufügen, dass die heute verfügbaren Systeme noch nicht der Weisheit letzter Schluss sind. Es muss also noch viel Grundlagenforschung betrieben werden. Auch in diesem Bereich gibt es in Saarbrücken einige Projekte (zum Beispiel diese hier).
Wer sollte Computerlinguistik studieren?
Wer gerne Rechner programmiert, mit mathematischer Methodik arbeitet und Freude am Umgang mit lebendiger Sprache hat, ist ein idealer Anwärter für das Studium der Computerlinguistik!
Wichtig ist die Bereitschaft, sich auf die verschiedenen Teilbereiche des Studiums einzulassen. Ihr werdet linguistische Formalismen und mathematische Verfahren, aber auch Hilfsmittel wie Unix-/Linux-Werkzeuge verwenden und auch Programmierkursen folgen.
Besondere Vorkenntnisse sind dazu nicht nötig – das Abitur und Aufgeschlossenheit gegenüber Sprachen, Mathematik und Computern genügen, den Rest lernt ihr beim Studium. Ihr solltet außerdem Englisch verstehen, da Literatur und teilweise ganze Vorlesungen in englischer Sprache sein können.
Berufsbild und Berufsaussichten für Computerlinguisten
Forschung
Auch wenn computerlinguistische Produkte zunehmend von Firmen eingesetzt und entwickelt werden, ist Computerlinguistik immer noch eine Schwellentechnologie: Die Techniken und Arbeitsmittel zum Bau sprachverarbeitender Systeme werden gerade an Forschungsinstituten und Universitäten noch intensiv erforscht und verbessert. Zurzeit gibt es eine ganze Reihe von computerlinguistischen Forschungsvorhaben dort und in der EDV-Industrie.
Language Engineering
Kodierung des grammatischen Wissens für eine bestimmte Sprache (Grammatikentwicklung)
Erfassung des Wortschatzes mit den für die Verarbeitung notwendigen Informationen
Entwicklung von Transferlexika, die in maschinellen Übersetzungssystemen die Strukturen einer Sprache in die Strukturen einer anderen Sprache überführen.
Zukunftsaussichten
In den nächsten Jahren wird sich der Markt für die Sprachtechnologie enorm ausweiten und verschiedene Lebensbereiche nachhaltig verändern. Die Nachfrage nach Wissenschaftlern mit Computerlinguistik-Abschluss wird dann stark steigen.
Das Berufsbild wird sich stärker in den Servicebereich verlagern, wie Wartung und Update von Sprachtechnologiesystemen und Kundenberatung (z.B. beim Zuschnitt von Lexika und Datenbasen für ein persönliches Übersetzungssystem).
⠀ Deklination des Substantivs. – Adresse von der Ressource: https://www.verbformen.de/deklination/substantive/?w=Linguistik
⠀ Kai-Uwe Carstensen, Susanne J. Jekat & Ralf Klabunde. Computerlinguistik – Was ist das? – Adresse von der Ressource: https://link.springer.com/chapter/10.1007/978-3-8274-2224-8_1
⠀ Bátori, J. Krause, H. D. Lutz (Hrsg.): Linguistische Datenverarbeitung. Versuch einer Standortbestimmung im Umfeld von Informationslinguistik und Künstlicher Intelligenz. Niemeyer Verlag, Tübingen 1982.
⠀ Computerlinguistik. – Adresse von der Ressource: https://de.wikipedia.org/wiki/Computerlinguistik
⠀ Was ist Computerlinguistik? // Seminarsprachwissenschaft. – Adresse von der Ressource: https://uni-tuebingen.de/fakultaeten/philosophische-fakultaet/fachbereiche/neuphilologie/seminar-fuer-sprachwissenschaft/studium-lehre/studiengaenge/faq/was-ist-compute