Multimodales Corpusmanagement

(2011-2014)

Eine Voraussetzung für die Erforschung von Sprach- und Bildstrukturen in historischen und gegenwartsprachlichen Corpora ebenso wie in multimedialen Corpora der dialogischen Kommunikation bildet die texttechnologische Repräsentation und algorithmische Modellierung der in den Einzelprojekten untersuchten Datenstrukturen. In diesem Zusammenhang übernimmt das Corpusmanagement die Aufgabe der texttechnologischen Integration der am LOEWE-Schwerpunkt beteiligten Projekte, die Sicherung der informationellen Nachhaltigkeit ihrer Ressourcen sowie die Aufgabe der Erforschung von Algorithmen zur teilautomatischen Analyse geisteswissenschaftlicher Artefakte. Im Einzelnen betrifft dies folgende Aufgabenzusammenhänge:

Mehrebenenannotation: Ein wesentliches Charakteristikum geisteswissenschaftlicher Datenstrukturen bildet ihre Strukturierung auf unterschiedlichen, teils komplementären, teils einander überschneidenden Beschreibungsebenen. Zur Verwaltung, Suchbarmachung und Exploration von Annotationen dieser Beschreibungsebenen ist ein Repräsentationsformat erforderlich, das netzwerkartige, graphbasierte Strukturen wie auch Baumstrukturen und relationale Datenbankstrukturen effizient zu verarbeiten erlaubt. Die Entwicklung einer entsprechenden texttechnologischen Datenbank bildet daher eine zentrale Aufgabe des Corpusmanagements, da hiervon die Zugänglichkeit und Suchbarkeit aller im Schwerpunktzusammenhang analysierten Daten abhängt.

Multimodalität: Insbesondere die Erforschung von Bild-Bild- und Text-Bild-Beziehungen macht es notwendig, dass die Einzelprojekte des Schwerpunkts die Segmentierung und Relationierung (Verknüpfung) von Text- und Bildeinheiten sehr flexibel handhaben können. Es geht unter anderem darum, Bildsegmente auszuzeichnen und mit Segmenten textueller Einheiten zu verknüpfen, und zwar so, dass die Segmentierungs- und Verknüpfungsresultate selbst zum Gegenstand einer Corpusanalyse gemacht werden können. Das Corpusmanagement verfolgt damit das Ziel, die Analyse von Bild-Bild-Beziehungen auf der einen Seite und Text-Bild-Beziehungen auf der anderen Seite auf eine vergleichbare texttechnologische Grundlage zu stellen, wie sie für textuelle Daten bereits vielfach üblich ist. Das macht es erforderlich, multimodale Datenstrukturen zu entwickeln und algorithmisch zu handhaben, die über herkömmliche textuelle Datenstrukturen hinausgehen. Folgerichtig besteht eine der wesentlichen Aufgaben des Corpusmanagements in der Integration der text- und bildorientierten Einzelprojekte des Schwerpunkts.

Statistische Analyse: Mit der Erzeugung von Datenmodellen geisteswissenschaftlicher Artefakte und der Annotation dieser Artefakte zur Generierung von Instanzen dieser Datenmodelle ist die Grundlage für eine weitergehende explorative Analyse gegeben. Dies betrifft Aufgaben der unüberwachten Klassifikation und des (teil-)überwachten maschinellen Lernens von Zeichenaggregaten (Texte, Bilder) ebenso wie Vorhaben zu ihrer teilautomatischen Segmentierung. Zur Unterstützung dieses explorativen Aufgabenzusammenhangs entwickelt das Corpusmanagement Werkzeuge für die statistische Analyse geisteswissenschaftlicher Datenstrukturen. Dies umfasst verteilungsorientierte Modelle, Netzwerkmodelle zur Analyse komplexer Netzwerke mono- und multimodaler Einheiten sowie matrizenbasierte Modelle zur Bildung semantischer Räume. Die prozedurale, algorithmische Modellierung geisteswissenschaftlicher Artefakte fasst das Corpusmanagement daher als eine natürliche Erweiterung der in der Texttechnologie in Teilen bereits standardisierten strukturorientierten Modellierung (Annotation) auf.

Flexibles Annotationsmodell: Die Einzelprojekte des Schwerpunkts zielen unter anderem auf die texttechnologische Modellierung geisteswissenschaftlicher Datenstrukturen zur Schaffung informationeller Mehrwerte für Forschungsprojekte auch außerhalb des Schwerpunkts. Für diese Aufgabe ist – wie für Modellierungsaufgaben im Allgemeinen – eine modellbezogene Flexibilität kennzeichnend. Das bedeutet, dass der Annotation zugrundeliegende Informationsmodelle im Zuge der Modellierung oftmals Anpassungs- und Modifikationszyklen unterliegen. Um die mit dieser Flexibilität einhergehende Dynamik texttechnologisch beherrschbar zu machen, erforscht und entwickelt das Corpusmanagement Technologien, welche die Adaptierung und Erweiterung von Annotationsmodellen im Zuge ihrer Nutzung erlauben. Auch die solcherart dynamisierten Annotationsmodelle erfordern Datenstrukturen, die über baumartige Strukturen hinaus das Spektrum von allgemeineren Graphen ausschöpfen. Die Verwaltung, Suchbarmachung und statistische Exploration dieser graphorientierten Annotationsmodelle und ihrer corpusbasierten Instanzen bildet daher eine weitere integrationsstiftende Aufgabe des Corpusmanagements im Rahmen des LOEWE-Schwerpunkts. Ein wesentliches Ziel dieser Aufgabe besteht in der Gewährleistung texttechnologischer Nachhaltigkeit der im Projektzusammenhang zu erstellenden und zu explorierenden Corpora. Konsequenterweise zielt das Corpusmanagement darauf, die texttechnologische Zugänglichkeit und Explorierbarkeit sämtlicher im Schwerpunktzusammenhang genutzter bzw. erstellter Ressourcen zu ermöglichen, und zwar für die beteiligten Projekte ebenso wie für zukünftige Forschungsprojekte.