Verweise in Texten (Koreferenzen) und Sprachtechnologie

Publikationsdatum: 2019-04-08
Letzte Änderung: 2019-04-10
Schlagwörter: sprachliche Verweise, Koreferenz, Textverstehen, kognitive Suchmaschine

Es gibt nicht wenige sprachliche Phänomene, die für den Menschen so einfach und natürlich sind, dass sie gewaltig unterschätzt werden. Eines dieser Phänomene ist die Koreferenz. Sie liegt dann vor, wenn mit mehreren verschiedenen sprachlichen Ausdrücken dasselbe bezeichnet wird. Dies trifft praktisch bei jedem Auftreten eines Pronomens (Fürworts) zu. Ein Beispiel:

Der Mann sitzt am See.
Er möchte dort angeln.

In diesen Sätzen finden sich bereits zwei Fälle von Koreferenz. „Der Mann“ aus dem ersten Satz und „er“ aus dem zweiten Satz bezeichnen die gleiche Person. „Am See“ aus dem ersten Satz und „dort“ im zweiten Satz verweisen auf den gleichen Ort. Der Mensch erkennt dies, ohne auch nur einen Augenblick darüber nachzudenken. Für uns sind Koreferenzen intuitiv verstehbar. Dabei ist bemerkenswert, dass es weniger grammatische Informationen sind, die uns helfen, die Koreferenz aufzulösen. Zwar muss zwischen dem Pronomen und dem bezeichneten Nomen eine gewisse grammatische Übereinstimmung vorliegen, aber das ist auch schon alles. So ist „der Mann“ maskulin und „er“ ebenso. Der beschriebene See aus dem ersten Satz ist grammatisch jedoch ebenfalls maskulin. Niemand würde aber davon ausgehen, dass es der See ist, der im zweiten Satz angeln möchte. An dieser Stelle kommen Kontext und Weltwissen ins Spiel. Wie genau der Mensch zum richtigen Ergebnis kommt, ist eine Frage u.a. für Forscher der Linguistik und der kognitiven Psychologie. Für uns ist hier lediglich festzuhalten, dass grammatisches Wissen allein nicht ausreicht, um Koreferenzen richtig zu deuten.

Bezüge in Texten: algorithmische Auflösung am Beispiel. — Bezüge in Texten: algorithmische Auflösung am Beispiel (aus Wikipedia).

Für eine Suchmaschine ist das Entschlüsseln von Koreferenzen ungleich schwieriger. Warum gerade dies jedoch von sehr großer Wichtigkeit ist, soll an einem weiteren Beispiel erläutert werden. Wie in anderen Blog-Artikeln bereits vorgestellt, ist es mit der kognitiven Suchmaschine SEMPRIA-Search auch möglich, mit Fragen zu suchen. Für eine erfolgreiche Recherche ist es natürlich notwendig, dass die gesuchte Information tatsächlich in den zugrundeliegenden Daten zu finden ist. Für unser Beispiel nehmen wir die deutschsprachige Wikipedia als Daten-Grundlage. Die Suchanfrage soll lauten: „Wer schrieb Krieg und Frieden?“. Die richtige Antwort auf diese Frage ist in der Wikipedia leicht zu finden, wie das folgende Zitat beweist:

„1862 heiratete Tolstoi die 18-jährige deutschstämmige Sofja Andrejewna Behrs, mit der er insgesamt 13 Kinder hatte. In den folgenden Jahren schrieb er die monumentalen Romane Krieg und Frieden ...“ (Quelle: Wikipedia-Artikel Tolstoi, abgerufen am 05.04.2019)

Wie der Mensch leicht feststellt, enthält dieses Zitat die gesuchte Information, was aber erst durch die richtige Aufschlüsselung der Koreferenz erkennbar wird. Im zweiten Satz des Zitates wird der Name Tolstoi nämlich nicht erwähnt, er enthält lediglich das Pronomen „er“, das auf Tolstoi verweist. Ohne eine korrekte Koreferenzanalyse würde der semantischen Suchmaschine somit eine eigentlich offensichtliche Information verborgen bleiben (der herkömmlichen Suchmaschine sowieso).

Pronomen deuten allgemein auf Koreferenz hin, doch die Abwesenheit von Fürwörtern bedeutet nicht, dass keine Koreferenz vorliegt. Im Gegenteil, durch Koreferenz können Texte nicht nur abwechslungsreicher gestaltet werden, es ist außerdem möglich Informationen durch Koreferenz zu verdichten, wie das folgende Beispiel zeigt:

„Klitschko zur britischen Zeitung „The Sun“: „Sag niemals nie, Dinge können sich ändern.“ Der Ukrainer schwärmte von seinen 27 tollen und ereignisreichen Jahren im Sport ...“ (Quelle: BILD-Artikel, abgerufen am 07.02.2019)

Die Beschreibung „der Ukrainer“ aus dem zweiten Satz bezieht sich, wie für den Menschen offensichtlich ist, auf Klitschko. So wurde nicht nur vermieden, den Namen doppelt zu erwähnen oder diesen schlicht durch ein Pronomen zu ersetzen, es wurde außerdem eine zusätzliche Information untergebracht, nämlich über Klitschkos Nationalität. Ohne Koreferenz wäre dies nicht ersichtlich und mit „der Ukrainer“ könnte eben jeder der fast 43 Millionen Einwohner der Ukraine gemeint sein. Wieder stellt das, was für den Menschen nahezu trivial erscheint, für die meisten Suchmaschinen ein unüberwindliches Hindernis dar.

Einige traditionelle Suchmaschinen glauben eine Antwort auf die Probleme, die aus Koreferenz entstehen, zu haben: das so genannte Bag-of-words-Modell. Vereinfacht gesagt bedeutet dies: Was zusammensteht, wird wohl auch zusammengehören. Es ist durchaus denkbar, dass dieser Ansatz in Satz 3 richtig rät, dass Tolstoi der Autor von Krieg und Frieden ist, obgleich Tolstoi in dem entsprechenden Satz nicht namentlich erwähnt wird. In Satz 4 wird es bereits schwieriger, da hier nicht unbedingt ersichtlich ist, dass überhaupt ein Fall von Koreferenz vorliegt. Zusätzlich gibt es Sätze, in denen der Bag-of-words-Ansatz zu fehlerhaften, beinahe absurden Ergebnissen kommt:

„Der blinde Scholz ist dem Erfinder der Blindenschrift sehr dankbar.“

Das Bag-of-Words-Modell erzeugt die Hypothese, dass es sich bei Herrn Scholz und dem Erfinder der Blindenschrift um dieselbe Person handelt. Das ergibt, wie der Mensch leicht erkennt, wenig Sinn. Es ist eben kein Verlass darauf, dass das, was zusammensteht, auch tatsächlich zusammengehört. Es ist wichtig, dass eine Suchmaschine erkennt, wann Koreferenz vorliegt und wann nicht.

SEMPRIA-Search enthält eine sich stetig verbessernde, lernfähige Komponente, die allein für die Entdeckung und Auflösung von Koreferenzen zuständig ist. Noch hat unsere Suchmaschine das menschliche Leistungsniveau auf diesem Gebiet noch nicht erreicht. Dennoch erzielt sie schon heute erstaunliche Erfolge. Für die deutsche Wikipedia mit aktuell 110 Millionen Sätzen findet die Maschine 75 Millionen Koreferenzen; das heißt 2 von 3 Sätzen enthalten eine Koreferenz! Für die Texte, auf denen SEMPRIA-Search eingesetzt wird, bedeutet dies, dass die Texte auf einmal sehr viel mehr Information enthalten.

Bild/Video: © SEMPRIA GmbH

Kommentare

Hier können Sie einen Kommentar abgeben.