Historische Corpora

Textcorpora, die sich auf historische Sprachstufen beziehen, unterscheiden sich von Textcorpora aus Gegenwartssprachen in verschiedener Hinsicht: Zum einen sind „moderne“ Corpora prinzipiell offen und jederzeit beliebig erweiterbar, während „historische“ Corpora immer einen durch die überlieferte Textmenge begrenzten Umfang haben. Aufgrund der damit gegebenen Eins-zu-Eins- Relation zwischen Überlieferungsmasse und Corpusumfang hat sich für historische Sprachstufen bzw. nur temporär überlieferte Sprachen deshalb seit längerem der Terminus „Corpussprache“ verbreitet (mit Unterbegriffen wie „Groß-“ und „Kleincorpussprache“). Zum anderen tritt bei „historischen“ Corpora vielfach ein Problem in den Vordergrund, das für gegenwartssprachliche Corpora nur in Sonderfällen relevant ist, nämlich dass die Überlieferung in der einen Sprache von derjenigen in einer anderen Sprache abhängt, indem die Textmasse in ihrer Gesamtheit oder in überwiegendem Maße Übersetzungen repräsentiert oder mit Überlieferungen in anderen Sprachen parallel verläuft (beides gilt z.B. im Falle von Bibelübersetzungen). Hieraus ergeben sich Querbezüge, die sich teilweise in den Corpora selbst manifestieren (als „Übersetzungseinflüsse“), teilweise für die betreffenden Sprachstufen insgesamt charakteristisch sind (z.B. semantische Konvergenzen). Hinzu kommen historische Relationen zwischen Corpora verschiedener diachroner Schichten (Sprachstufen) einer Sprache oder Sprachfamilie, die sich als Sprachwandelerscheinungen greifen lassen und deren Eruierung seit jeher eine spezifische Aufgabe der historischen (diachronen und vergleichenden) Sprachwissenschaft darstellt.

Im Projektbereich „Historische Corpora“ sollen durch ein neu zu entwickelndes Mehrebenenannotationsschema bereits verfügbare und neu zu erstellende Textcorpora für diesbezügliche Fragestellungen der Historischen Sprachwissenschaft, der Historischen Semantik und benachbarter Disziplinen aufbereitet werden (vgl. 2 analog dazu). Kern des Projektbereichs ist die wissenschaftliche Konzipierung und Weiterentwicklung computergestützter empirischer Methoden der vergleichenden Corpusanalyse (Datenaufbereitung, Datenanalyse), die sich in einem frei skalierbaren Corpusmanagementsystem manifestieren sollen. Auf der Grundlage der Daten sollen in drei Teilprojekten u.a. Übersetzungsbeziehungen, Sprachwandelerscheinungen und sonstige Wechselbezüge zwischen verschiedenen Sprachen bzw. Sprachstufen behandelt werden.