Wie sparsam unsere Sprache doch sein kann. Da heißen Dinge wie andere Dinge, egal wie wenig sie miteinander zu tun haben, und Personen wie andere Personen, auch wenn sie unterschiedlicher kaum sein könnten. Und als wäre das nicht schon kompliziert genug, gibt es dann auch noch Personen, die heißen wie Dinge, und Dinge, die heißen wie Personen. Da wäre zum Beispiel der Bach namens Johann Sebastian, in dem noch niemand gebadet hat, oder die gute Hannelore, deren Tage als politische Kraft fürs Erste gezählt zu sein scheinen. Um bei wachsenden Ansprüchen eine gute Figur zu machen, muss sich eine moderne Suchmaschine in diesem Verwirrspiel, das unsere Sprache ist, behaupten.
Dabei sieht es auf den ersten Blick einfach aus. Denn für uns Menschen ist es leicht, Dinge von Personen zu unterscheiden, auch wenn sie den gleichen Namen haben. Wenn aber eine Suchmaschine über die gleiche Fähigkeit zur Unterscheidung verfügen soll, dann ist es hilfreich, sich die Mechanismen, die wir Menschen (wenn auch unbewusst) zur Disambiguierung nutzen, einmal genauer anzusehen.
Einer der obigen Sätze stammt aus dem Wikipedia-Artikel zu Altkanzler Helmut Kohl, der andere aus dem Artikel über Grünkohl. Es sollte dem Leser nicht schwer fallen, die Sätze richtig zuzuordnen. Aber wie genau machen wir das eigentlich? Es folgen verschiedene Ansätze, die allesamt für den Menschen funktionieren, sich aber nicht unbedingt für eine Suchmaschine eignen.
Es ist wohl der offensichtlichste Ansatz. Wir Menschen wissen, was ein Bundeskanzler ist, und somit ist uns auch bewusst, dass ein Gemüse für ein solches Amt denkbar ungeeignet ist. Es muss sich im zweiten Satz also um eine Person handeln. Das ist so offensichtlich, dass uns die Erklärung beinahe lachhaft erscheint. Allerdings ist ein solcher Ansatz nicht der geeignetste für eine Suchmaschine, denn er setzt Weltwissen voraus, was nicht immer ganz leicht zu vermitteln ist und außerdem recht schnell einen gewaltigen Umfang annimmt. Schließlich wollen wir, dass unsere Suchmaschine nicht bloß Gemüse von Bundeskanzlern unterscheiden kann, sondern derartige Differenzierungen in nahezu jedem Kontext bewältigen kann, was wiederum Weltwissen für nahezu jeden Kontext erfordert.
Im Standarddeutschen ist es nicht üblich, vor Personen Artikel zu verwenden. Im zweiten Satz heißt es „Kohl unternahm...“, nicht „DER Kohl unternahm...“ Das ist bereits ein Hinweis, dass es sich um eine Person und nicht um ein Ding handelt. Allerdings ist dieser Ansatz unzuverlässig. Zum einem kann es in der Umgangssprache oder in regionalen Dialekten vorkommen, dass Personen mit Artikel versehen werden. Zum anderen wollen wir nicht bloß Personennamen von Dingen unterscheiden, sondern auch Produktnamen, Firmennamen oder Ähnliches. Spätestens dann ist der Artikel kein Hilfsmittel mehr.
Um zu erkennen, ob es sich im zweiten Satz um eine Person oder ein Gemüse handelt, ist es im Grunde völlig ausreichend, wenn nur ein einziges Wort verstanden wird - das Verb „unternehmen“. Man kann sich ein Verb ein wenig wie das Gerüst eines Satzes vorstellen. Das Verb „unternehmen“ hat dabei zwei Leerstellen, die gefüllt werden müssen. Zum einen verlangt das Verb „den Unternehmenden“ und zum anderen „das Unternommene“. An jede Leerstelle sind gewisse Anforderungen gekoppelt, die ein Wort erfüllen muss, wenn es diese füllen soll. „Der Unternehmende“ muss dabei eine handlungsfähige Person sein, „das Unternommene“ ein abstrakter Vorgang. Kurz gesagt: Etwas, das etwas unternimmt, muss ein Mensch sein. Damit ist die Zuordnung geglückt. Dieses (etwas vereinfacht dargestellte) Wissen kann einer semantischen Suchmaschine vermittelt werden. So glückt die Zuordnung mit diversen Namen und Dingen in diversen Kontexten, solange das genutzte Verb bekannt ist.
Die Disambiguierung von Namen und Dingen ist nur einer von vielen Vorteilen eines semantischen Lexikons als Grundlage einer Suchmaschine. Es gibt keine sprachliche Kompetenz ohne sprachliches Wissen und so ist es von entscheidender Bedeutung, der Suchmaschine dieses Wissen zu vermitteln.
Zu beachten ist, dass die bedeutungsorientierte Suche aus Gründen der Vollständigkeit nicht völlig von den Methoden der Stichwortsuche u.ä. absieht. So kann es vorkommen, dass sich falsche Treffer an hinteren Stellen einschleichen, welche aber anhand der niedrigen Bewertung leicht als problematisch erkannt werden können.
Bild: © SEMPRIA GmbH
Hier können Sie einen Kommentar abgeben.
© 2009-2024 SEMPRIA GmbH, Datenschutz, Impressum ®: SEMPRIA ist eine eingetragene Wortmarke.