II.2 Text als Instanz des Sprachsystems – Nicht-kanonische grammatische Konstruktionen im Sprachvergleich Englisch-Deutsch (2011-2013) PDF Drucken
II Gegenwartssprachliche Corpora - II.2 Text als Instanz des Sprachsystems (2011-2013

Corpora liefern die notwendige empirische Grundlage zur Erforschung der Eigenschaften von Texten bzw. Textklassen, wie etwa Registern oder Dialekten (vgl. 2.1). Aber auch für die Betrachtung des Sprachsystems sind Corpora unverzichtbar, insbesondere für die Beschreibung und Modellierung grammatischer und lexikalischer Phänomene (vgl. 1.2).

Ziel des vorliegenden Projektvorhabens ist die empirische, auf Corpusdaten basierende Überprüfung der sprachtheoretischen Hypothese, dass natürlichsprachliche Grammatiken

Systeme von Konstruktionen bilden, in deren Zentrum die kanonischen Satzmuster der Sprache stehen, die von einer Menge von peripheren, nicht-kanonischen Konstruktionen komplementiert werden. Den spezifischen theoretischen Ausgangspunkt bilden hierbei die Annahmen,
(i) dass jede Satzform mit einem distinktiven linguistischen Funktionsbereich assoziiert ist,
(ii) dass die kanonischen Satzformen größere Funktionsbereiche besitzen als die nicht-kanonischen, und
(iii) dass sie somit zusammen mit den jeweiligen nicht-kanonischen Konstruktionen derselben Grammatik unterschiedliche Konstruktionssysteme bilden. Um diesen Hypothesen nachzugehen, sollen nicht-kanonische Strukturen des Englischen, wie etwa Inversion, Extraposition, Spaltsätze u.ä., und ihre deutschen Äquivalente in ihren Gebrauchsbedingungen kontrastiv untersucht und grammatisch modelliert werden.

In Bezug auf den Einsatz computergestützter Methoden sind bei der Bearbeitung dieser Aufgabe zwei aktuell intensiv beforschte Bereiche impliziert:

1) Die Gewinnung von Daten aus verschiedenen Datenquellen

Nicht-kanonische Konstruktionen sind relativ zu ihren kanonischen Pendants (SVO bzw. SOV) relativ selten. Um Gebrauchsbedingungen zu erforschen, ist es aber notwendig, ausreichend viele Instanzen aus möglichst vielen verschiedenen Gebrauchskontexten betrachten zu können. Daher muss ein breites Spektrum an Datenquellen/Corpora als Untersuchungsgrundlage herangezogen werden.

2) Die Aufbereitung der gewonnenen Daten zu einer linguistischen Ressource

Müssen Daten aus verschiedenen Datenquellen gewonnen werden, trifft man auf das bekannte Problem der Integration/Harmonisierung heterogener Daten. Hier existieren verschiedene Verfahren, z.B. PAULA (Potsdamer Austauschformat für linguistische Annotationen), die auch im vorliegenden Kontext verwendet werden können. Die integrierten Daten müssen dann zu einer linguistischen Ressource aufbereitet werden. Hierzu eignet sich eine Modellierung in Form einer relationalen Datenbank, z.B. das im Rahmen des SFB 632 „Informationsstruktur: Die sprachlichen Mittel der Gliederung von Äußerung, Satz und Text“ entwickelte ANNIS.