Gegenwartssprachliche Corpora

Gegenwartssprachliche Corpora unterscheiden sich von historischen Corpora dadurch, dass sie sich auf moderne Sprachstufen beziehen und prinzipiell offen und erweiterbar sind. Sie bilden daher innerhalb der Corpuslinguistik ein eigenes Untersuchungsgebiet, das sich mittlerweile als höchst differenziert darstellt. So gibt es u.a. eine Forschungsrichtung, die mit einigen wenigen Basistechnologien auf rohen, d.h. unannotierten Corpora, arbeitet (z.B. Konkordanzen, Wortfrequenzlisten u.ä.) und eine zweite Forschungsrichtung, in der Verfahren der automatischen bzw. halbautomatischen Annotation und Datenanalyse eingesetzt bzw. eigens entwickelt werden .

Die Projektvorhaben im Bereich ‚Gegenwartssprachliche Corpora’ verfolgen letztere Richtung und setzen sich zum Ziel, anhand von ausgewählten, an gegenwartssprachliche Texte gestellten Fragen im engen Austausch miteinander sowie mit den anderen Projektbereichen (insbes. 1: Historische Corpora), neuere computertechnische Verfahren der Textdatenanalyse für die linguistische Corpusanalyse nutzbar zu machen. In drei Teilprojekten sollen drei inhaltlich komplementäre Aspekte der textdatenorientierten linguistischen Forschung bearbeitet werden: Text als Produkt (2.1: Maschinelles Lernen für die Corpusanalyse), Text als Instanz des Sprachsystems (2.2: Nicht-kanonische grammatische Konstruktionen im Sprachvergleich Englisch-Deutsch) und Text als Prozess (2.3: Linguistische Eigenschaften von kollaborativ erstellten Texten im Web 2.0). Die Teilprojekte  stellen sich gemeinsam die folgenden Fragen:

1) Methodische Vorgehensweisen. Welche Methoden und Verarbeitungstechniken werden typischerweise für die Analyse gegenwartssprachlicher Corpora eingesetzt? Welche Verarbeitungsschritte sind dabei impliziert (Work Flows/Processing Pipelines)? Welche Verfahren werden unabhängig von der konkreten Analyseaufgabe eingesetzt (z.B. Segmentierung, Tokenisierung, Wortartentagging, syntaktische Annotation), welche sind aufgabenspezifisch (z.B. Kohäsionsanalyse, Erfassung von Schreibprozessen)? Wird neben automatischer Annotation auch manuelle Annotation durchgeführt?

2) Daten. Was ist die typische Größe und Beschaffenheit der Daten? Wird ein relativ stabiles Datenset verwendet oder ist es wichtig, mit vielen verschiedenen Datensets zu arbeiten? Wird ein ganzes Corpus verarbeitet oder nur Teile davon? Welche Rolle kommt der quantitativen, welche der qualitativen Analyse zu? Mit welchen Verfahren werden Analysen ausgewertet?

Auf der methodischen Ebene sollen Unterschiede und Gemeinsamkeiten in den methodischen Vorgehensweisen und dem Einsatz entsprechender Technologien bei der Repräsentation und der Analyse von gegenwartssprachlichen Corpora identifiziert werden. Im größeren Zusammenhang ist insbesondere zu prüfen, ob und wie die für gegenwartssprachliche Corpora eingesetzten informationstechnologischen Methoden der Textdatenanalyse auch bei der Analyse historischer Corpora, in der Editionsforschung sowie in der Historischen Semantik sinnvoll angewendet werden können. Z.B. könnte das Verfahren der Topic Models aus Teilprojekt 2.1 zur Frage des Themenuniversums im Werk von Hofmannsthal (Teilprojekt 3.1) oder zum Thema der Entwicklung der politischen Semantik (Teilprojekt 1.3) eingesetzt werden.

Auf der theoretischen Ebene ist das gemeinsame Ziel des vorliegenden Projektbereichs, die jeweiligen linguistischen Analysen im Hinblick auf semiotische Produkte und Prozesse zu interpretieren, d.h. zu einer Theoriebildung in den ausgewählten thematischen Gebieten – Text als Produkt, Text als Instanz des Sprachsystems, Text als Prozess – einen Beitrag zu leisten.

Längerfristig verspricht die Zusammenarbeit an der Schnittstelle der historischen Wissenschaften und der modernen Sprachwissenschaft grundlegend neue Erkenntnisse zu bislang unzureichend erforschten kulturellen Phänomenen, insbesondere zu Fragen semiogenetischer Prozesse aus diachroner vs. synchroner Perspektive, die in weiterführenden Forschungsprojekten explizit adressiert werden sollen.