Korpus
Ein Korpus (Plural Korpora) ist, nach einer ganz allgemeinen Definition, eine „Sammlung von authentischen Sprachdaten“ (Scherer). Wobei authentisch meint „dass diese Daten im Rahmen linguistisch unreflektierter Kommunikationssituationen entstanden sein sollten“ (Lemnitzer/Zinsmeister), im Gegensatz etwa zu Beispielen, die sich Linguisten durch Introspektion selbst ausdenken, um ihre Theorien zu testen.
Korpora werden meistens aus Textquellen wie z.B. Romanen, Sach- und Fachliteratur, Zeitungen, Webseiten usw., aber auch aus Transkriptionen von Filmen, Interviews, spontanen Gesprächen usw. zusammengestellt.
Viele Korpora werden speziell für linguistische Recherchen erstellt und aufbereitet: „Die Bestandteile [solcher Korpora], die Texte, bestehen aus den Daten selber sowie möglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind“ (Lemnitzer/Zinsmeister).
Besonders nützlich für linguistische und sprachtechnologische Forschung sind sehr große Korpora, bei denen der Einsatz des Computers aber unumgänglich ist: „Die Daten des Korpus sind typischerweise digitalisiert, d.h. auf Rechnern gespeichert und maschinenlesbar“ (Lemnitzer/Zinsmeister).
Korpussuche
Eine linguistische Suchmaschine funktioniert im Grunde wie Internet-Suchmaschinen: Man gibt eine Suchanfrage ein und bekommt die Ergebnisse angezeigt. Damit man die Belege, die die gesuchten Merkmale aufweisen, im Korpus auch finden kann, müssen die Anfragen (auch Abfragen genannt) nach bestimmten Regeln formuliert werden; diese Regeln definieren die so genannte Anfragesprache (oder Abfragesprache) der Suchmaschine.
Eine Standard-Anzeige bei linguistischen Suchmaschinen, welche die Suchergebnisse (auch Treffer genannt) schnell erkennen lässt, ist die Konkordanz: eine Liste, die die Treffer jeweils zentriert in einem einzeiligen Kontext innerhalb des verwendeten Korpus zeigt. Diese Art von Anzeige wird auch KWIC-Index oder KWIC-Liste genannt (KWIC = key word in context). Darüber hinaus haben die meisten linguistischen Suchmaschinen auch eine Volltext-Anzeige des ganzen Satzes (oder des Korpusausschnitts), in dem der Treffer vorkommt. (Bei Baumbanken enthält die Anzeige sinnvollerweise eine geparste syntaktische Struktur ist, denn so erkennt man am leichtesten die im Korpus annotierten syntaktischen Beziehungen.)
Abfragesysteme
Zusammen bilden eine Suchmaschine und ihre Anfragesprache den Kern eines Abfragesystems. Meistens enthält ein Abfragesystem auch Werkzeuge, um die Eingabe der Anfragen zu erleichtern (z.B. durch Eingabe-Assistenten oder graphische Eingabe) und die Anzeige der Suchergebnisse zu gestalten (z.B. nach bestimmten Kriterien sortieren). Darüber hinaus gibt es oft zusätzliche Werkzeuge für die Verarbeitung der Suchergebnisse (z.B. ein Teilkorpus daraus bilden und diese Suchergebnisse in eine Datei exportieren, evtl. auch mit Metadaten und Annotationen) oder auch einige statistische Auswertungen. In der Regel verfügt ein Abfragesystem über eigens für das System linguistisch aufbereitete Korpora.
Für die Recherche mit deutschsprachigen Korpora sind die Internet-basierten Abfragesysteme DWDS und COSMAS II die wohl bekanntesten und meist verwendeten Abfragesysteme. Das länger etablierte COSMAS II verfügt zwar über mehr Korpora als DWDS und die von COSMAS II verwendete Anfragesprache bietet einige Möglichkeiten, die es in der DWDS-Anfragesprache nicht gibt (dennoch sind die beiden Anfragesprachen in ihren wesentlichen Eigenschaften sehr ähnlich). Andererseits ist COSMAS II meist umständlicher in der Verwendung und langsamer in der Verarbeitung als DWDS. Außerdem verfügt DWDS mit dem Kernkorpus über ein Referenzkorpus, das den Anspruch der Repräsentativät (für das geschriebene Deutsch des 20. Jahrhunderts) erhebt, was für statistiche Auswertungen besonders interessant ist. Aus diesen Gründen ist DWDS für den Einstieg in die korpuslinguistische Recherche gut geeignet und daher werden wir uns in diesem Seminar ausschließlich mit diesem Abfragesystem befassen.
Korpusauswertung
Für die linguistische Auswertung von Korpusdaten gibt es drei Ansätze:
Bei quantitativen Auswertungen geht es um „das Bestimmen von Häufigkeiten im Korpus und die sich daraus ergebende Möglichkeit, Ergebnisse unmittelbar miteinander zu vergleichen“ (Scherer). Bei einem rein quantitativen Ansatz werden solche Daten „von rohen, also nicht linguistisch annotierten, Korpora mit Hilfe statistischer Verfahren extrahiert und ausgewertet“ (Lemnitzer/Zinsmeister).
Bei qualitativen Auswertungen geht es um „die Ermittlung, die Klassifizierung, die Einordnung und Interpretation von bestimmten Phänomenen“ (Scherer). Demnach „berücksichtigen [Linguisten] Korpusdaten als zusätzliche Quelle der Evidenz. [...] Es wird in [Korpora] gezielt nach relevanten (meist syntaktischen) Konstruktionen gesucht, um Voraussagen einer Theorie zu bestätigen oder widerlegen.“ (Lemnitzer/Zinsmeister). Dabei können die linguistische Aufbereitung des Korpus und die Möglichkeiten der Anfragesprache eine entscheidende Rolle spielen.
Quantitativ-qualitative Auswertungen kombinieren Methoden beider Ansätze: statistische Verfahren werden angewandt aber „die Daten, die aus Korpora abgeleitet sind, [bleiben] nicht uninterpretiert“ (Lemnitzer/Zinsmeister), z.B. können Annotationen wie Wortart, syntaktische Funktion usw. berücksichtigt werden.
Bei der Auswertung von Suchergebnissen muss man berücksichtigen, dass es unter den Treffern auch sogenannte falsche Treffer geben kann, also Treffer, welche die gesuchten Merkmale nicht aufweisen. Diese können aus zwei Gründen vorkommen: (1.) weil die Anfrage nicht „gut“ (d.h. nicht präzise) genug formuliert worden ist, oder (2.) weil die Aufbereitung des Korpus Fehler enthält (was bei großen mit Hilfe von Computerprogrammen erstellten Korpora im Grunde unvermeidlich ist).
Im ersten Fall kann man immer versuchen – im Rahmen der Möglichkeiten der Anfragesprache – die Anfrage zu optimieren, wobei der dafür erforderliche zeitliche Aufwand auch eine Rolle spielt.
Im zweiten Fall bleibt einem grundsätzlich nichts anderes übrig als die Suchergebnisse im einzelnen zu überprüfen und die falschen Treffer manuell herauszufiltern.
In beiden Fällen spielen die Größe des Korpus und die Art der Anfrage eine Rolle: Wenn die Anfrage viele Tausende Treffer ergibt (bei großen Korpora keine Seltenheit), ist es praktisch unmöglich, sie im einzelnen zu überprüfen. Die einzige vernünftige Alternative – insbesondere im Rahmen einer quantitativen Auswertung – ist, eine überschaubare Zufallsstichprobe aus den Treffer zu ziehen (damit beschäftigen wir uns im letzten Themenblock dieses Seminars).
In diesem Seminar geht es in erster Linie um die Grundlagen der quantitativen Korpusanalyse. Wir werden lernen, wie man die Ergebnisse von Suchanfragen in verschiedener Weise quantitativ erfassen kann; wie man Verteilungen der Ergebnisse von Suchanfragen in mehreren Korpora sowie in mehreren Teilen eines Korpus bilden, grafisch darstellen und auch in verschiedener Weise quantitativ beschreiben kann; und wie man von solchen Ergebnissen Rückschlüsse auf die Sprache im Allgemeinen, aus der die Korpusdaten stammen, ziehen kann, und wie zuverlässig (oder statistisch signifikant) solche Rückschlüsse sind.
Die Berechnungen und Grafiken kann man bis zu einem gewissen Umfang mit Programmen zur Tabellenkalkulation wie z.B. Microsoft Excel, LibreOffice Calc, Gnumeric usw. erstellen. Aber für komplexere und tiefergehende Analysen sind meistens spezielle Statistik-Programme erforderlich; besonders erwähnenswert darunter ist R, ein sehr mächtiges und frei verfügbares Computersystem für die Verarbeitung und statistische Analyse von Daten, sowie für die (insbesondere grafische) Darstellung der Daten und der Analysen. Daher verwenden wir R in diesem Seminar, auch wenn wir uns dabei auf einfachere statistische Auswertungen beschränken.
Um quantitative Korpusanalysen durchzuführen, müssen wir die Ergebnisse von Suchanfragen aus dem Abfragesystem in R eingeben. Bevor wir uns damit beschäftigen, müssen wir also zunächst den Umgang mit dem DWDS-Abfragesystem und der DWDS-Anfragesprache kennenlernen. [2]
Korpora werden, wie das Beispiel des Collins Cobuild Projekts, aber auch das American Heritage Dictionary (1969) zeigen, von einer Lexikographie genutzt, die dem Benutzer nicht nur präskriptive (wie soll ein Wort benutzt werden), sondern auch deskriptive (wie wird ein Wort tatsächlich benutzt) Beschreibungen anbieten will. Quantitative Erhebungen zu Worthäufigkeitsstatistiken können die Lemmaauswahl für viele Arten von Wörterbüchern steuern und objektivieren. Heute ist die Verwendung von Korpora auch in deutschen Wörterbuchverlagen etabliert. Einige Arten von lexikalischen Informationen können erst auf Grund der Analyse großer Textkorpora gewonnen werden (z. B. zeitlich gestaffelte Frequenzprofile), andere können durch Korpora besser abgesichert werden als durch die Sprachkompetenz einzelner Lexikographen.
Korpora werden heute auch vermehrt in der Sprachdidaktik als Forschungsgrundlage genutzt. Anhand der Ergebnisse, wie eine Sprache tatsächlich gebraucht wird, werden auch die Unterrichtsmaterialien gestaltet, und so genannte Lernerkorpora zeigen auf, in welchen Lernstadien welche Fehler bei der Sprachproduktion vorherrschen.
Für spezielle linguistische Fragestellungen werden in zunehmendem Ausmaß auch andere spezielle Korpora erarbeitet, die im Umfang erklärlicherweise weitaus kleiner sind als Referenzkorpora, die eine Sprache insgesamt erfassen sollen. Solche gibt es beispielsweise im Bereich der Untersuchungen des Sprachgebrauchs in der Politik und in den Medien. [3]
Was ist eigentlich ein Korpus? – ,,Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen in einer oder mehreren Sprachen. Die Daten des Korpus sind digitalisiert, d.h. auf Rechnern gespeichert und maschinenlesbar. Die Bestandteile des Korpus, die Texte oder Äußerungsfolgen, bestehen aus den Daten selbst sowie möglicherweise aus Metadaten, die diese Daten beschreiben, und aus linguistischen Annotationen, die diesen Daten zugeordnet sind.“, so lautet die Definition nach Lemnitzer und Zinsmeister. Doch worauf muss man bei einer Analyse von Korpusdaten achten? Wie trifft man die geeignete Wahl eines Korpus für linguistische Recherchen? Welche Typen von Daten können in welchen Korpora untersucht werden? Diese aber auch andere Fragestellungen gelten als Ausgangspunkt jeder wissenschaftlichen Untersuchung. Wie schon erwähnt ist Korpuslinguistik somit eine `wissenschaftliche Tätigkeit, d.h. sie muss wissenschaftlichen Prinzipien folgen und wissenschaftlichen Ansprüchen genügen. Sprachwissenschaftler untersuchen unter anderem folgende Fragestellungen: `Welche Pluralform von Konto ist die üblichste: Kontos, Konten, oder Konti?`, `Welche Schreibweise kommt am häufigsten vor: Schiffahrt oder Schifffahrt?`, `Was sind die häufigsten Kollokationen für folgende Wörter: Hund, Katze, Maus, rot, Karte, weiß, Haus, Mutter, Vater ?
Nach Scherer lautet die Definition wie folgt:
,,Ein Korpus ist eine Sammlung von Texten oder Textteilen, die bewusst nach bestimmten sprachwissenschaftlichen Kriterien ausgewählt und geordnet werden. Unter Text sind in diesem Zusammenhang nicht nur Produkte der Schriftsprache wie Zeitungsartikel, Romane, Kochbücher, E-Mails, Briefe oder Tagebücher zu verstehen, sondern auch mündliche Äußerungen, sei es in Form von Vorträgen, Radiosendungen, Telefongesprächen oder dem zwanglosen Gespräch am Mittagstisch.“ [4] Ein Korpus dient also als Datengrundlage für empirische Untersuchungen und beinhaltet sog. Primärdaten. Es dient dazu, unter anderem die Sprache in ihrer Gesamtheit, aber auch Varietäten, d.h. Ausprägungen der Sprache (z.B. die Sprache von Jugendlichen oder die Fachsprache der Medizin) zu untersuchen.
Sprechergruppenabhängige Varietäten weisen auch arttypische Texte auf. So enthält ein Korpus der Jugendsprache überwiegend SMS-Nachrichten, Chatverläufe oder aber auch Gesprächsprotokolle unter Freunden. Bei der Analyse der Standardsprache, wäre es nicht effektiv, wenn ein Korpus nur Texte von Jugendlichen beinhalten würde. Denn dafür wären genaue Aussagen über alle Bereiche der Standardsprache nötig.
Wie ist ein Korpus aufgebaut?
Korpora werden durch bestimmte sprachwissenschaftliche Faktoren bestimmt: Größe, Inhalt, Beständigkeit und Repräsentativität. [5]
Erstellung von Korpora
Für ein Korpus müssen die Texte in einem einheitlichen Format vorliegen. Zunächst stellt sich also das Problem, Texte, die idealerweise bereits elektronisch vorliegen, aber völlig unterschiedliche Formate aufweisen, zu vereinheitlichen. Die Dokumentstruktur beispielsweise (Titel, Fettdruck, Abstracts etc.) ist je nach Textart unterschiedlich. Texte können mit Metadaten ergänzt sein, z.B. Angaben zur AutorIn, Datumsangaben, Seitenumbrüche etc., die ggf. extrahiert oder speziell markiert werden müssen.
Diese Aufbereitung der Rohdaten muss immer wieder neu angepasst werden und geschieht meistens halbautomatisch.
Normalerweise werden neuere Korpora in XML (eXtensible Markup Language) codiert. Dieses Format ist einfach zu lesen, absolut kompatibel mit allen Betriebssystemen und Programmen und es gibt eine Reihe von Werkzeugen zur Verarbeitung von XML, die frei erhältlich sind. [6]
⠀ Deklination des Substantivs. – Ressource: https://www.verbformen.de/deklination/substantive/?w=Korpus
⠀ Allgemeine Begriffe der Korpuslinguistik. – Ressource: https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Allgemeines.html
⠀ Korpuslinguistik. WikipediA. – Ressource: https://de.wikipedia.org/wiki/Korpuslinguistik
⠀ Das Internet als Korpus? Aktuelle Fragen und Methoden der Korpuslinguistik. – Ressource: http://www.academia.edu/332185/Das_Internet_als_Korpus_Aktuelle_Fragen_und_Methoden_der_Korpuslinguistik
⠀ Merve Kosmaz. Einführung in die Korpuslinguistik. Wie funktioniert eine Korpusuntersuchung? – Ressource: https://www.grin.com/document/463785
⠀ Noam Chomsky: Knowledge of Language. Praeger, New York 1986.
⠀ Rainer Perkuhn, Holger Keibel, Marc Kupietz: Korpuslinguistik. Fink/ UTB, Paderborn 2012, ISBN 978-3-8252-3433-1.