Електронний багатомовний

термінологічний словник

Electronic Multilingual Terminological Dictionary


Linguistik

Korpuslinguistik

Die Korpuslinguistik ist ein Bereich der Sprachwissenschaft. Darin werden neue Erkenntnisse über Sprache generell oder über bestimmte einzelne Sprachen erlangt oder bestehende Hypothesen überprüft, wobei als Grundlage quantitative oder qualitative Daten dienen, die aus der Analyse von speziellen Textkorpora oder (seltener) Korpora gesprochener Sprache gewonnen werden. Große Verbreitung fand die Korpuslinguistik im deutschsprachigen Raum ab der zweiten Hälfte der 1990er Jahre. Sie verhält sich, wissenschaftstheoretisch betrachtet, komplementär zum Generativismus. Es ist nach wie vor umstritten, ob es sich bei der Korpuslinguistik um eine Methode oder um einen eigenen neuen Zweig der Sprachwissenschaft handelt.
Datenmaterial und Forschungsgegenstand
Gegenstand der Korpuslinguistik ist die Sprache in ihren verschiedenen Erscheinungsformen. Die Korpuslinguistik ist dabei durch das Verwenden von authentischen Sprachdaten charakterisiert, die in großen Korpora dokumentiert sind. Bei solchen Textkorpora handelt es sich um Sammlungen von sprachlichen Äußerungen, die nach bestimmten Kriterien und mit einem bestimmten Forschungsziel zusammengestellt werden. Die Erkenntnisse der Korpuslinguistik basieren somit auf natürlichen Äußerungen einer Sprache, also auf Sprache, wie sie tatsächlich verwendet wird. Diese Äußerungen können entweder schriftlich entstanden sein oder es kann sich um spontane oder elizitierte gesprochene Sprache handeln. Die meisten Korpora liegen heute in digitaler Form vor und sind mittels bestimmter Software für die linguistische Recherche nutzbar.
Ziel der Korpuslinguistik ist es, anhand dieser Daten entweder bestehende linguistische Hypothesen zu überprüfen (bestätigen oder widerlegen) oder durch explorative Datenanalyse neue Hypothesen und Theorien über den Gegenstand zu gewinnen. Man spricht im ersten Fall von „korpusgestützter“ linguistischer Analyse und im zweiten Fall von „korpusbasierter“ linguistischer Analyse.
Korpuslinguistische Fragestellungen betreffen sowohl das sprachliche System selbst („Langue“ nach Ferdinand de Saussure bzw. „Kompetenz“ nach Noam Chomsky) als auch den Gebrauch von Sprache („Parole“ nach de Saussure bzw. „Performanz“ nach Chomsky). Die Korpuslinguistik ist also dahingehend im Begriff, die in der Linguistik dominierende dichotome Sprachbetrachtung aufzuheben.
Eine typische Fragestellung das Sprachsystem betreffend ist beispielsweise:
Kann das Vorfeld eines deutschen Satzes mehrfach besetzt sein? Wenn ja, mit welchen Satzgliedern? Gibt es Regeln, die die Möglichkeiten der mehrfachen Vorfeldbesetzung beschreiben können?
Typische Fragestellungen den Sprachgebrauch betreffend sind etwa:
Kommt es in Texten von E-Mails öfter zu Schreibfehlern als in traditionellen Briefen? Welche Typen von Fehlern sind charakteristisch für E-Mails?
Welche Fehler machen Lernende des Deutschen (verschiedener Ausgangssprache) auf einem bestimmten Niveau besonders häufig, werden bestimmte Wörter oder grammatische Konstruktionen von diesen Lernenden vermieden?
Bei zahlreichen Forschungsfragen, die die Korpuslinguistik versucht zu beantworten, ist jedoch nicht eindeutig zu entscheiden, welchem der beiden Domänen Langue und Parole ein Phänomen zuzuordnen ist, wie beispielsweise bei den Fragen:
Mit welchen Adjektiven tritt das Nomen „Haar“ typischerweise gemeinsam auf?
Werden Partikel in der gesprochenen Sprache häufiger, weniger häufig oder anders verwendet als in geschriebener Sprache?
Denn einerseits kann die Verteilung der Adjektive mit „Haar“ und der Modalpartikeln als Phänomen einer bestimmten Sprache oder – nach Vergleich mit anderen Sprachen – als Merkmal von Sprache generell gelten, aber andererseits auch als Ergebnis eines spezifischen Sprachgebrauchs angesehen werden. (Einen Einblick in die Facetten korpuslinguistischer Forschung bieten z. B. die Arbeiten von Lemnitzer/Zinsmeister (2010) für das Deutsche und McEnery/Xiao/Tono (2006) für das Englische.)
Methodische Probleme
Ein bedeutendes methodisches Problem der Korpuslinguistik ist das Verhältnis der Datenbasis, also des Korpus, zum untersuchten Gegenstand. Die Datenbasis könnte theoretisch den Gegenstand komplett abdecken, wenn es sich um eine heute noch verwendete Sprache handelt. Doch man kann einen Korpus nicht als eine im Sinne der schließenden Statistik valide Stichprobe betrachten, da der Gegenstand, auf den sich die Stichprobe bezieht, in der Praxis als Ganzes – also eine bestimmte Sprache oder ein bestimmter Sprachgebrauch – nicht erfassbar ist.[2] Man behilft sich heute damit, ein Korpus nicht mehr (wie ursprünglich gefordert) als „repräsentativ“ im statistischen Sinne für den untersuchten Gegenstand zu bezeichnen und Erkenntnisse, die auf Grund von Korpora gewonnen werden, lediglich als vorläufig plausibel zu betrachten. Die Zusammenstellung von großen Korpora soll daher „ausgewogen“ sein, also in einem bestimmten Verhältnis aus unterschiedlichen Textsorten bestehen.
Die Grundannahme der Korpuslinguistik, dass Erkenntnisse über Sprache anhand von realen sprachlichen Äußerungen gewonnen oder überprüft werden können, bringt zwei weitere methodische Probleme oder Einwände mit sich:
Irreführende positive Evidenz: In spontanen gesprochenen und sogar in überlegt formulierten schriftsprachlichen Äußerungen können bis zu einem gewissen Grad Abweichungen von der sprachlichen Norm auftreten. Bei der Untersuchung eines Korpus kann es im Einzelfall schwierig sein zu entscheiden, ob eine (meist kleine) Menge von Belegen eines bestimmten sprachlichen Phänomens Ausdruck eines tatsächlich existierenden systematischen Sprachgebrauchs ist und somit eine linguistische These stützt oder ob man diese Belege als normabweichendend bzw. fehlerhaften Sprachgebrauch ansehen muss.
Negative Evidenz: Viele Aussagen zu sprachlichen Phänomenen lassen sich dann selbst in sehr großen Korpora nicht belegen, wenn der Gebrauch bestimmter sprachlicher Konstruktionen sehr selten ist. Aus dem Nichtvorhandensein einer solchen gesuchten Konstruktion im Korpus kann aber nicht zwingend geschlossen werden, dass es nicht existiere oder ungrammatisch wäre.
Im ersten Fall kann man Ergebnisse, die durch Korpusanalyse gewonnen wurden, durch eine parallele Sprecherbefragung zu stützen versuchen. Im zweiten Fall hilft nur die Untersuchung weiterer Daten oder, als ultima ratio, ebenfalls eine Sprecherbefragung.
Korpuslinguistik vs. Generative Grammatik
Die Korpuslinguistik geht vom Gebrauch natürlicher Sprachen aus. Sie ist eine induktive/empirische Methode zum Gewinn von Wissen über die Sprache: Die Beobachtung von möglichst vielen konkreten Einzelbeispielen führt zur Formulierung einer allgemeinen Aussage über den Gegenstand. Dieses Vorgehen („vom Speziellen zum Allgemeinen“) ist dem Empirismus zuzuordnen, der davon ausgeht, dass alles Wissen auf Erfahrung beruht. Im Gegensatz dazu steht die deduktive Methode, die sich aus der philosophischen Tradition des Rationalismus herleitet: Ausgehend von der Überlegung, wie ein bestimmtes sprachliches Phänomen beschaffen ist, wird versucht, in den Sprachen Belege als Bestätigung dafür zu finden („vom Allgemeinen zum Speziellen“).
Das unterscheidet die Korpuslinguistik grundsätzlich von der von Noam Chomsky begründeten Generativen Transformationsgrammatik und ihren Nachfolgern, deren erklärtes Ziel auch die Untersuchung der Sprachfähigkeit des kompetenten Sprechers als eine kognitive Leistung ist. Chomsky selbst hat mehrfach klar den Wert von authentischen Sprachbelegen für den linguistischen Erkenntnisgewinn bestritten. Er stellte fest, dass für die Untersuchung der Performanz authentische Sprachdaten, wie sie in Textkorpora vorliegen, ungeeignet sind, da bei der Produktion von Sprache immer Fehler auftreten. [2] Daher könnten anhand so erhaltener Daten keine gültigen Aussagen über das sprachliche System getroffen werden. Chomsky konzentrierte sich daher methodisch auf Introspektion und auf Sprecherurteile, die unter Laborbedingungen von kompetenten Muttersprachlern elizitiert werden. Die Korpuslinguistik dagegen verzichtet auf die Betrachtung des Unterschieds zwischen Sprachkompetenz und -performanz, den Chomsky für wesentlich hält.
Es ist in jüngster Zeit aber eine Annäherung zwischen diesen beiden Positionen zu beobachten. In beiden Lagern betrachtet man mittlerweile die eigene Datenbasis kritischer und ist bereit, die von der jeweils anderen Seite bevorzugten Daten zumindest als Instrument zur Kontrolle der eigenen Erkenntnisse heranzuziehen.
Geschichte und Anwendungsgebiete
Die weite Verbreitung und die hohe Bedeutung der englischen Sprache sowie eine insgesamt hohe Affinität zur empirischen Forschung in der Sprachwissenschaft sind zwei Gründe, weshalb sich die computergestützte Datenanalyse, wie sie die Korpuslinguistik eine ist, zuerst im anglo-amerikanischen Raum entwickelt hat.
Die dortige moderne Korpuslinguistik wurde 1967 von Henry Kucera (1925–2010) und Nelson Francis durch ihre Arbeit „Computational Analysis of Present-Day American English“ begründet. Deren Ergebnisse wurden anhand des „Brown-Corpus“ (genau: „Brown University Standard Corpus of Present-Day American English“) gewonnen. Dieses umfasste ursprünglich rund 1 Million Wörter. Weitere englischsprachige Korpora folgten, wie etwa in den 1980er Jahren das gleich große „Lund-Oslo-Bergen-Korpus“ (LOB). Eine neue Wegmarke wurde durch die Erstellung eines diese Zahl weit überschreitenden Textkorpus im Rahmen der lexikographischen Arbeiten beim englischen Collins Verlag erreicht. Dessen Ergebnis war die erste Auflage des „Collins Cobuild Dictionary of English“. Ihm folgte in einer neuen Größenordnung die nicht-kommerzielle Erstellung eines ausgewogenen, 100 Millionen laufende Wörter umfassenden „British National Corpus“, das heute immer noch als Referenzkorpus für linguistische Untersuchungen des britischen Englisch verwendet wird. Ihm tritt heute das „American National Corpus“ zur Seite. Andere regionale Varietäten des Englischen werden im „International Corpus of English“ (ICE) erfasst.
Vorreiter der deutschen Korpuslinguistik waren das Institut für Kommunikationswissenschaft und Phonetik (IKP) an der Universität Bonn und das Institut für Deutsche Sprache in Mannheim. Heute sind als deutschsprachige Korpora besonders folgende zu nennen:
o das „Deutsche Referenzkorpus“ (DeReKo) am Institut für Deutsche Sprache in Mannheim, das mehrere Milliarden Textwörter umfasst
o das Kernkorpus des „Digitalen Wörterbuchs der Deutschen Sprache“ (DWDS) an der Berlin-Brandenburgischen Akademie der Wissenschaften
o das Korpus des Projekts „Deutscher Wortschatz“ an der Universität Leipzig (vorwiegend Texte aus Online-Medien)
o das „Schweizer Textkorpus“ der Universität Basel (heute am Schweizerischen Idiotikon, mit gegen 25 Mio. Textwörtern)
Neben diesen der Öffentlichkeit kostenlos zugänglichen Korpora mit garantierter Langzeitpflege gibt es eine Vielzahl von Spezialkorpora für viele Sprachstufen und Varietäten des Deutschen. (Eine Übersicht hierüber geben Lemnitzer / Zinsmeister (2010).)
Korpora werden, wie das Beispiel des Collins Cobuild Projekts, aber auch das American Heritage Dictionary (1969) zeigen, von einer Lexikographie genutzt, die dem Benutzer nicht nur präskriptive (wie soll ein Wort benutzt werden), sondern auch deskriptive (wie wird ein Wort tatsächlich benutzt) Beschreibungen anbieten will. Quantitative Erhebungen zu Worthäufigkeitsstatistiken können die Lemmaauswahl für viele Arten von Wörterbüchern steuern und objektivieren. Heute ist die Verwendung von Korpora auch in deutschen Wörterbuchverlagen etabliert. Einige Arten von lexikalischen Informationen können erst auf Grund der Analyse großer Textkorpora gewonnen werden (z. B. zeitlich gestaffelte Frequenzprofile), andere können durch Korpora besser abgesichert werden als durch die Sprachkompetenz einzelner Lexikographen.
Korpora werden heute auch vermehrt in der Sprachdidaktik als Forschungsgrundlage genutzt. Anhand der Ergebnisse, wie eine Sprache tatsächlich gebraucht wird, werden auch die Unterrichtsmaterialien gestaltet, und so genannte Lernerkorpora zeigen auf, in welchen Lernstadien welche Fehler bei der Sprachproduktion vorherrschen.
Für spezielle linguistische Fragestellungen werden in zunehmendem Ausmaß auch andere spezielle Korpora erarbeitet, die im Umfang erklärlicherweise weitaus kleiner sind als Referenzkorpora, die eine Sprache insgesamt erfassen sollen. Solche gibt es beispielsweise im Bereich der Untersuchungen des Sprachgebrauchs in der Politik und in den Medien.
Korpuslinguistik – Methode oder Disziplin?
Die Frage, ob die Korpuslinguistik eine Methode der Allgemeinen oder der Angewandten Linguistik ist oder eine eigene sprachwissenschaftliche Disziplin darstellt, ist noch nicht abschließend beantwortet.
Für die Einschätzung als Methode spricht, dass viele Zweige der Linguistik, von der Theoretischen bis zur Forensischen Linguistik, sich einer empirischen, korpusbezogenen Analysetechnik in methodisch reflektierter Weise bedienen, wenn auch meistens nicht ausschließlich. Ein genuiner Gegenstand der Korpuslinguistik ist hingegen nicht erkennbar. Ein solcher wäre aber notwendig, wollte man ihr den Status einer eigenständigen wissenschaftlichen Disziplin zusprechen.
Für die Einschätzung, dass die Korpuslinguistik eine eigenständige Disziplin ist, spricht der Umstand, dass sie dezidiert den Sprachgebrauch als ihren Erkenntnisgegenstand bestimmt und sich damit von Schulen der Linguistik absetzt, die die Sprachfähigkeit des Menschen oder die generellen Strukturen von Sprache als semiotisches System zum Gegenstand haben.
Ungeachtet dieser grundsätzlichen Erwägung hat sich die Korpuslinguistik als Wissenschaftszweig im akademischen Leben etabliert. Darauf deuten die Existenz mehrerer thematischer Fachzeitschriften, eines zwei Bände umfassenden Handbuchs (Lüdeling / Kytö 2008, 2009) sowie zweier dedizierter Lehrstühle an der Universität Birmingham und an der Berliner Humboldt-Universität hin. [2]
Korpuslinguistik ist das Teilgebiet der Sprachwissenschaft, das sich mit ausschließlich „authentischen Sprachdaten“ – also mit Korpora – beschäftigt. Diese Beschäftigung kann zwei Formen annehmen:
Die Erstellung von Korpora (sowie von Systemen für die Suche in und Auswertung von Korpora, s.u.): Diese erfordert oft nicht nur linguistische sondern auch Informatik- und Programmierkenntisse, denn insbesondere große linguistisch annotierte Korpora können nur mit Hilfe extra für diesen Zweck entwickelter Computerprogramme erstellt werden.
Die Verwendung von Korpora als Datenquelle: Dabei werden bestimmte (Typen von) Daten in den Korpora (meist mit spezialisierten Suchmaschinen) gesucht und anschließend nach verschiedenen Verfahren zur Unterstützung linguistischer oder sprachtechnologischer Analyse oder Anwendung ausgewertet. Hierin zeigt sich die Korpuslinguistik als Methodologie, die sowohl in der theoretischen Linguistik als auch in vielen Anwendungsgebieten der Sprachwissenchaft, z.B. maschinelle Sprachverarbeitung und Übersetzung, Lexikographie (die Erstellung von Wörterbüchern), Sprachunterricht, die Erforschung von Sprachstörungen usw. eingesetzt werden kann.
Sowohl bei der Erstellung eines Korpus als auch bei der Wahl eines existierenden Korpus als Datenquelle für linguistische Recherchen gibt es eine Reihe von Kriterien zu berücksichtigen; diese Kriterien bestimmen die Eigenschaften des Korpus und bilden somit eine Korpustypologie. In diesem Seminar werden wir ausschließlich schon bestehende Korpora als Datenquelle für verschiedene Auswertungen verwenden; dafür sind die wichtigsten Kriterien der Korpustypologie die Repräsentativät und die linguistische Aufbereitung.
Korpus und Korpuslinguistik
Ein Korpus (Plural Korpora) ist, nach einer ganz allgemeinen Definition, eine „Sammlung von authentischen Sprachdaten“ (Scherer). Wobei authentisch meint „dass diese Daten im Rahmen linguistisch unreflektierter Kommunikationssituationen entstanden sein sollten“ (Lemnitzer/Zinsmeister), im Gegensatz etwa zu Beispielen, die sich Linguisten durch Introspektion selbst ausdenken, um ihre Theorien zu testen.
Korpora werden meistens aus Textquellen wie z.B. Romanen, Sach- und Fachliteratur, Zeitungen, Webseiten usw., aber auch aus Transkriptionen von Filmen, Interviews, spontanen Gesprächen usw. zusammengestellt.
Viele Korpora werden speziell für linguistische Recherchen erstellt und aufbereitet: „Die Bestandteile [solcher Korpora], die Texte, bestehen aus den Daten selber sowie möglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind“ (Lemnitzer/Zinsmeister).
Besonders nützlich für linguistische und sprachtechnologische Forschung sind sehr große Korpora, bei denen der Einsatz des Computers aber unumgänglich ist: „Die Daten des Korpus sind typischerweise digitalisiert, d.h. auf Rechnern gespeichert und maschinenlesbar“ (Lemnitzer/Zinsmeister).
Korpussuche
Eine linguistische Suchmaschine funktioniert im Grunde wie Internet-Suchmaschinen: Man gibt eine Suchanfrage ein und bekommt die Ergebnisse angezeigt. Damit man die Belege, die die gesuchten Merkmale aufweisen, im Korpus auch finden kann, müssen die Anfragen (auch Abfragen genannt) nach bestimmten Regeln formuliert werden; diese Regeln definieren die so genannte Anfragesprache (oder Abfragesprache) der Suchmaschine.
Eine Standard-Anzeige bei linguistischen Suchmaschinen, welche die Suchergebnisse (auch Treffer genannt) schnell erkennen lässt, ist die Konkordanz: eine Liste, die die Treffer jeweils zentriert in einem einzeiligen Kontext innerhalb des verwendeten Korpus zeigt. Diese Art von Anzeige wird auch KWIC-Index oder KWIC-Liste genannt (KWIC = key word in context). Darüber hinaus haben die meisten linguistischen Suchmaschinen auch eine Volltext-Anzeige des ganzen Satzes (oder des Korpusausschnitts), in dem der Treffer vorkommt. (Bei Baumbanken enthält die Anzeige sinnvollerweise eine geparste syntaktische Struktur ist, denn so erkennt man am leichtesten die im Korpus annotierten syntaktischen Beziehungen.)
Abfragesysteme
Zusammen bilden eine Suchmaschine und ihre Anfragesprache den Kern eines Abfragesystems. Meistens enthält ein Abfragesystem auch Werkzeuge, um die Eingabe der Anfragen zu erleichtern (z.B. durch Eingabe-Assistenten oder graphische Eingabe) und die Anzeige der Suchergebnisse zu gestalten (z.B. nach bestimmten Kriterien sortieren). Darüber hinaus gibt es oft zusätzliche Werkzeuge für die Verarbeitung der Suchergebnisse (z.B. ein Teilkorpus daraus bilden und diese Suchergebnisse in eine Datei exportieren, evtl. auch mit Metadaten und Annotationen) oder auch einige statistische Auswertungen. In der Regel verfügt ein Abfragesystem über eigens für das System linguistisch aufbereitete Korpora.
Für die Recherche mit deutschsprachigen Korpora sind die Internet-basierten Abfragesysteme DWDS und COSMAS II die wohl bekanntesten und meist verwendeten Abfragesysteme. Das länger etablierte COSMAS II verfügt zwar über mehr Korpora als DWDS und die von COSMAS II verwendete Anfragesprache bietet einige Möglichkeiten, die es in der DWDS-Anfragesprache nicht gibt (dennoch sind die beiden Anfragesprachen in ihren wesentlichen Eigenschaften sehr ähnlich). Andererseits ist COSMAS II meist umständlicher in der Verwendung und langsamer in der Verarbeitung als DWDS. Außerdem verfügt DWDS mit dem Kernkorpus über ein Referenzkorpus, das den Anspruch der Repräsentativät (für das geschriebene Deutsch des 20. Jahrhunderts) erhebt, was für statistiche Auswertungen besonders interessant ist. Aus diesen Gründen ist DWDS für den Einstieg in die korpuslinguistische Recherche gut geeignet und daher werden wir uns in diesem Seminar ausschließlich mit diesem Abfragesystem befassen.
Korpusauswertung
Für die linguistische Auswertung von Korpusdaten gibt es drei Ansätze:
Bei quantitativen Auswertungen geht es um „das Bestimmen von Häufigkeiten im Korpus und die sich daraus ergebende Möglichkeit, Ergebnisse unmittelbar miteinander zu vergleichen“ (Scherer). Bei einem rein quantitativen Ansatz werden solche Daten „von rohen, also nicht linguistisch annotierten, Korpora mit Hilfe statistischer Verfahren extrahiert und ausgewertet“ (Lemnitzer/Zinsmeister).
Bei qualitativen Auswertungen geht es um „die Ermittlung, die Klassifizierung, die Einordnung und Interpretation von bestimmten Phänomenen“ (Scherer). Demnach „berücksichtigen [Linguisten] Korpusdaten als zusätzliche Quelle der Evidenz. [...] Es wird in [Korpora] gezielt nach relevanten (meist syntaktischen) Konstruktionen gesucht, um Voraussagen einer Theorie zu bestätigen oder widerlegen.“ (Lemnitzer/Zinsmeister). Dabei können die linguistische Aufbereitung des Korpus und die Möglichkeiten der Anfragesprache eine entscheidende Rolle spielen.
Quantitativ-qualitative Auswertungen kombinieren Methoden beider Ansätze: statistische Verfahren werden angewandt aber „die Daten, die aus Korpora abgeleitet sind, [bleiben] nicht uninterpretiert“ (Lemnitzer/Zinsmeister), z.B. können Annotationen wie Wortart, syntaktische Funktion usw. berücksichtigt werden.
Bei der Auswertung von Suchergebnissen muss man berücksichtigen, dass es unter den Treffern auch sogenannte falsche Treffer geben kann, also Treffer, welche die gesuchten Merkmale nicht aufweisen. Diese können aus zwei Gründen vorkommen: (1.) weil die Anfrage nicht „gut“ (d.h. nicht präzise) genug formuliert worden ist, oder (2.) weil die Aufbereitung des Korpus Fehler enthält (was bei großen mit Hilfe von Computerprogrammen erstellten Korpora im Grunde unvermeidlich ist).
Im ersten Fall kann man immer versuchen – im Rahmen der Möglichkeiten der Anfragesprache – die Anfrage zu optimieren, wobei der dafür erforderliche zeitliche Aufwand auch eine Rolle spielt.
Im zweiten Fall bleibt einem grundsätzlich nichts anderes übrig als die Suchergebnisse im einzelnen zu überprüfen und die falschen Treffer manuell herauszufiltern.
In beiden Fällen spielen die Größe des Korpus und die Art der Anfrage eine Rolle: Wenn die Anfrage viele Tausende Treffer ergibt (bei großen Korpora keine Seltenheit), ist es praktisch unmöglich, sie im einzelnen zu überprüfen. Die einzige vernünftige Alternative – insbesondere im Rahmen einer quantitativen Auswertung – ist, eine überschaubare Zufallsstichprobe aus dem Treffer zu ziehen (damit beschäftigen wir uns im letzten Themenblock dieses Seminars).
In diesem Seminar geht es in erster Linie um die Grundlagen der quantitativen Korpusanalyse. Wir werden lernen, wie man die Ergebnisse von Suchanfragen in verschiedener Weise quantitativ erfassen kann; wie man Verteilungen der Ergebnisse von Suchanfragen in mehreren Korpora sowie in mehreren Teilen eines Korpus bilden, grafisch darstellen und auch in verschiedener Weise quantitativ beschreiben kann; und wie man von solchen Ergebnissen Rückschlüsse auf die Sprache im Allgemeinen, aus der die Korpusdaten stammen, ziehen kann, und wie zuverlässig (oder statistisch signifikant) solche Rückschlüsse sind.
Die Berechnungen und Grafiken kann man bis zu einem gewissen Umfang mit Programmen zur Tabellenkalkulation wie z.B. Microsoft Excel, LibreOffice Calc, Gnumeric usw. erstellen. Aber für komplexere und tiefergehende Analysen sind meistens spezielle Statistik-Programme erforderlich; besonders erwähnenswert darunter ist R, ein sehr mächtiges und frei verfügbares Computersystem für die Verarbeitung und statistische Analyse von Daten, sowie für die (insbesondere grafische) Darstellung der Daten und der Analysen. Daher verwenden wir R in diesem Seminar, auch wenn wir uns dabei auf einfachere statistische Auswertungen beschränken.
Um quantitative Korpusanalysen durchzuführen, müssen wir die Ergebnisse von Suchanfragen aus dem Abfragesystem in R eingeben. Bevor wir uns damit beschäftigen, müssen wir also zunächst den Umgang mit dem DWDS-Abfragesystem und der DWDS-Anfragesprache kennenlernen. [3]
Bedeutung/Definition
1) Linguistik, Korpuslinguistik: Disziplin, die sich mit der Erstellung und Auswertung von Korpora (Textsammlungen) befasst.
Begriffsursprung
1) Determinativkompositum aus (das) Korpus und Linguistik
Übergeordnete Begriffe
1) Linguistik, Sprachwissenschaft, Sprache
Anwendungsbeispiele
1) Die Korpuslinguistik befasst sich u.a. mit der automatischen Erstellung von Wörterbüchern zu einem Textkorpus.
1) „Die Korpuslinguistik thematisiert die automatische, explorative Analyse von Korpora natürlichsprachlicher Texte.“
1) „Die Korpuslinguistik befasst sich mit Aufbau und Auswertung dieser Korpora.“
1) „Eine weitausgebaute Korpuslinguistik hat bewirkt, dass viele alte Fragen neue und zunehmend verlässlichere Antworten finden.“
1) „Die Ziele der Korpuslinguistik sind aber andere als die der Textanalyse, beide jedoch sind berechtigt und sowohl wissenschaftlich als auch praktisch von Bedeutung.“
1) „Der Beitrag knüpft an die Arbeit des Programmbereichs Korpuslinguistik des IDS an.“ [4]
Untersuchung und Beschreibung sprachlicher Erscheinungen und Strukturen anhand des mit Hilfe von Korpora erschlossenen Sprachgebrauchs
Beispiele:
Die Korpuslinguistik ist eine Methode der Sprachwissenschaft und beschäftigt sich mit der Analyse von Sprache basierend auf realen Sprachdaten. [5]
»In der Korpuslinguistik geht es um Muster in der Sprache, über die sich der normale Mensch keine Gedanken machen muss, die die Sprache aber zu einem Werkzeug machen« [5].
Ermöglicht wurde das »Austrian Media Corpus« durch eine enge Zusammenarbeit des Instituts für Corpuslinguistik und Texttechnologie (ICLTT) der ÖAW mit der österreichischen Nachrichtenagentur APA. [5]
Zu Mukherjees Forschungsschwerpunkten gehören die computergestützte Korpuslinguistik und die angewandte Linguistik, in der er unter anderem südasiatische Varianten des Englischen untersucht. [5]
Die Korpuslinguistik beschäftigt sich mit dem Aufbau, der Aufbereitung und der Auswertung von (elektronischen) Korpora. [5]

Quellen:

⠀ Deklination des Substantivs. – Ressource: https://www.verbformen.de/deklination/substantive/?w=Linguistik

⠀ Korpuslinguistik. WikipediA. – Ressource: https://de.wikipedia.org/wiki/Korpuslinguistik

⠀ Korpuslinguistik. Wortbedeutung. – Ressource: https://www.wortbedeutung.info/Korpuslinguistik/

⠀ Reinhard Fiehler, Peter Wagener: Die Datenbank Gesprochenes Deutsch (DGD). In: Gesprächsforschung – Online-Zeitschrift zur verbalen Interaktion. Band 6, 2005, S. 136–147.

⠀ Winfried Lenders: Computational lexicography and corpus linguistics until ca. 1970/1980. In: R. H. Gouws, U. Heid, W. Schweickard, H. E. Wiegand (Hrsg.): Dictionaries – An International Encyclopedia of Lexicography. Supplementary Volume: Recent Developmen

die Wortarten Substantiv
Одушевленное/неодушевленное abstrakt
Genger feminin
Singular
Nominativ die Linguistik
Genitiv der Linguistik
Dativ der Linguistik
Akkusativ die Linguistik