Es ist sicherlich im Sinne des Fortschritts, hin und wieder mal einen Blick zurückzuwerfen. So können Verbesserungen und Weiterentwicklungen gewürdigt werden. Zugleich kann man jene Bereiche erkennen, in denen sich noch nicht genug getan hat. Das gilt auch für die Suchtechnologie. Denn dort ist in den letzten Jahren und Jahrzehnten einiges passiert und manchmal kann es vorkommen, dass diverse technologische Weiterentwicklungen, die heute zum Standard gehören, für selbstverständlich gehalten werden. Dies wird deutlich anhand der sogenannten Teilstring-Suche, die gerade im Kontext von Content-Management-Systemen wie WordPress oder Drupal eine Art Renaissance erlebt. Auf den ersten Blick scheint die Teilstring-Suche dort bessere Ergebnisse zu liefern als die herkömmliche Suchmaschine. Dass diese Erfolge allerdings zweifelhaft sind, zeigt der zweite Blick. Wir sahen uns dafür die Teilstring-Suche auf der zentralen Webseite des Landes Nordrhein-Westfalen (www.land.nrw) einmal genauer an. Anmerkung: Die Website und die Suchmaschine wurden im November 2021 neu aufgesetzt. Seitdem ist zum Glück die Teilstring-Suche durch einen Stichwort-Suche ersetzt, die aber hinter den heutigen Möglichkeiten auf andere Art zurückbleibt.
Teilstring-Suche bedeutet, dass die vom Nutzer eingegebene Suchanfrage schlicht und einfach als Zeichenkette (String) im Dokument wiedergefunden wird. Damit kann man ohne linguistisches Hintergrundwissen bei der Suche „Maschine“ auch das Kompositum „Suchmaschine“ finden. Bekommt man so Komposita wirklich in den Griff oder ist es nicht eher eine Komposita-Analyse für Arme, die teuer erkauft werden muss (bspw. durch geringe Genauigkeit)? Ein wenig Experimentieren offenbart schnell, wie weit die Fähigkeiten einer solchen Suche hinter den aktuellen Möglichkeiten liegen. Es folgen drei eindrucksvolle Beispiele.
(1) Die Eingabe „pink“ findet auf den ersten Blick stolze 671 Treffer (Stand: August 2020). Der zweite Blick offenbart jedoch, dass fast alle Suchergebnisse gar nichts mit der Farbe Pink zu tun haben, sondern sich auf Professor Pinkwart beziehen.
(2) Teilstring-Suche bedeutet auch, dass der als Lese-Erleichterung oft sinnvolle Bindestrich in Komposita alle Treffer ohne Bindestrich verliert. Ein aktuelles Beispiel zeigt, dass die Suche nach „Masken-Pflicht“ kaum Treffer aufweist, nur „Maskenpflicht“ findet die gewünschten Dokumente. Die Schreibweise mit Bindestrich ist nach der deutschen Rechtschreibung durchaus zulässig und wird unter bestimmten Umständen sogar empfohlen (Regel aus dem Duden). Umgekehrt versagt die Teilstring-Suche auch: sie findet nichts bei einer Suchanfrage ohne Bindestrich, falls die Dokumente stets den Bindestrich verwenden.
(3) Die Suche nach „PCB“ entlarvt eine weitere Schwäche der Drupal-Suchmaschine. Diese Suche liefert als prominenten Treffer einen Artikel zur Soforthilfe für Kultur- und Weiterbildungseinrichtungen vom 20. März 2020. Was das mit polychloriertem Biphenyl zu tun hat? Nichts. Dieser Artikel und viele weitere vermeintliche Treffer werden nur angezeigt, weil sich zufällig die Zeichenkette „pcb“ in die Beschreibung eines hinterlegten Bildes eingeschlichen hat. Diese Beschreibung ist für den Nutzer nicht sichtbar (und sollte es auch nicht sein). Eine intelligente Suchmaschine ignoriert derartige Beschreibungen und konzentriert sich auf den Content.
Diese Beispiele zeigen, dass Suchmaschinen durchaus mehr leisten könnten. Doch auch Suchmaschinen, denen derartige Patzer nicht unterlaufen, können keineswegs als goldener Standard gelten. Sie haben ebenfalls große Schwächen, da sie noch immer nicht in der Lage sind, die Suchanfragen der Nutzer sowie die zu durchsuchenden Dokumente inhaltlich zu verstehen. In dieser Hinsicht ist die kognitive (tiefe semantische) Suchmaschine die Zukunft. Und wer weiß, vielleicht schauen wir in einigen Jahren auf die herkömmlichen Suchmaschinen zurück, so wie wir heute auf die Teilstring-Suche zurückblicken.
Bild: © SEMPRIA GmbH
Hier können Sie einen Kommentar abgeben.
© 2009-2024 SEMPRIA GmbH, Datenschutz, Impressum ®: SEMPRIA ist eine eingetragene Wortmarke.