Viele schätzen eine gute Website-Suche, d.h. eine Suchbox auf einer Webseite wie dlf.de.
Im Unternehmen kommt dann oft die Frage auf:
Können wir nicht „so etwas für alle unsere Dokumente“ haben?
Ein klares Ja. Eine solche Lösung ist dann eine sogenannte Enterprise-Suche oder Corporate-Search.
Aber dabei treten aus unserer Erfahrung schwerwiegende Probleme auf, die gelöst werden wollen,
damit die Erwartungen der Nutzerschaft erfüllt werden können.
9 ausgewählte Probleme diskutieren wir im Folgenden. Die Reihenfolge soll keine Gewichtung andeuten.
Für den einen Anwendungsfall stehen Metadaten und ausgefeiltes Nutzer-Interface im Vordergrund, für
eine andere Firma die Mehrsprachigkeit der Dokumente und die Rechtesysteme;
siehe einige Erfahrungsberichte.
Bei Website-Suche gibt es typischerweise nur ein System, das Artikel in einheitlichem Format liefert; typischerweise ein Content-Management-System, das HTML-Artikel verwaltet. Bei Enterprise-Search treten weitere Quellen hinzu: Dateisysteme, Microsoft SharePoint, Mailserver, DMS, Wikis u.v.m.
Mit den Quellen ändern sich auch die Formate. Es treten Office-Formate wie DOCX, PPTX und XLSX hinzu, aber auch alte Schätze als RTF. Und natürlich Unmengen an PDFs. Für jedes Format muss die genaue Extraktion des Textes (und zwar in Lesereihenfolge, was bei manchen PDFs gar nicht trivial ist) programmiert werden.
Die Website-Suche kann oft einen umfassenden Satz an Metadaten (Autor, Schreibdatum, Änderungsdatum, Stichwörter etc.) aus dem CMS übernehmen. Bei Enterprise-Search muss für jedes Quellsystem eine spezielle Übernahme in ein harmonisiertes Metadaten-Schema der Suchmaschine programmiert werden. Und manchmal ist es genauer oder verlässlicher, ein Metadatum wie Schreibdatum aus dem Namen oder Anfang des Dokuments zu extrahieren.
Oft kommt folgende Ernüchterung nach Einführung einer internen Suchmaschine auf: „Wir haben doch dieses tolle PDF, in dem alles steht, aber es wird nie gefunden.“ Dann stellt sich schnell heraus, dass viele PDFs (und andere Dateiformate) gar keinen Text für die eigene Suchmaschine liefern können, da sie nur Rastergrafiken aus einem Scanner oder Kopierer sind. Eine gute kognitive Enterprise-Search schaltet dort eine optische Zeichenerkennung (OCR) vor, so dass auch diese Dokumente inhaltlich erschlossen werden können. Manchmal lohnt es sich sehr, die OCR für die Besonderheiten der Dokumente zu trainieren.
Video-Dateien und Audio-Dateien enthalten oft wichtige Informationen, aber meist ohne Text. Analog zu OCR bei Scans ist hier Spracherkennung (ASR) einzusetzen, um Texte hinzuzufügen, die man per Suchanfrage in Textform finden kann.
Bei Website-Suche kommt man oft mit einem minimalen Suchschlitz von 20 Zeichen aus. Ganz anders bei Enterprise-Suchmaschinen. Hier hat man viel mehr Metadaten und Informationen zu den Quellen und Quellsystemen. Schnell ist ein gesamter Bildschirm gefüllt mit einer Suchmaske ggf. mit Untermasken. Für die Power-Nutzerschaft ist das natürlich ein mächtiges Tool, aber für den Otto-Normal-Sucher ist es angemessener, zusätzlich ein vereinfachtes Such-Interface anzubieten, das nur die wichtigsten Auswahlen bei Metadaten und Facetten beinhaltet.
Viele Quellen, die in eine Enterprise-Search eingehen, haben ein ausgeklügeltes Rechtesystem (ActiveDirectory, LDAP etc.). Aus Suchmaschinensicht interessiert besonders, wer darf welche Dokumente lesen? Dies muss durch die Enterprise-Search genau nachgebildet werden.
Viele Website-Suchmaschinen sind einsprachig, da nur deutsche Dokumente vorhanden sind. Im Enterprise-Umfeld ist Mehrsprachigkeit der Standard. Besonders deutsche und englische Dokumente sollen gefunden werden, egal ob man auf Englisch oder Deutsch Suchanfragen formuliert.
Bei Site-Suche sind Duplikate eher selten; in Enterprise-Suchmaschinen sehen wir Duplikatsquoten von 25 % bis 75 %. Ohne eine clevere Duplikatserkennung und bei einer Duplikatsquote von 75 % bedeutet dies, dass (im Schnitt) 3 von 4 Dokumenten in Treffern redundant sind. Die Lesezeit und Recherchezeit können sich also unnötig vervierfachen! Duplikate sind nicht einfach nur Byte-identische Dokumente, sondern man sollte sie auch über Formatgrenzen hinweg erkennen, z.B. ein PDF aus einem DOCX oder XLSX generiert. Welches Format in den Treffern bevorzugt angezeigt wird, ist Teil der Konfiguration oder Personalisierung einer internen Suchmaschine.
Auf den ersten Blick sieht eine Enterprise-Suche erst mal harmlos aus, wie eine große Website-Suchmaschine. Das stimmt aber keineswegs!
In den Details verstecken sich viele Probleme, die gelöst werden müssen. Über die oben genannten hinaus gibt es noch einige mehr. So haben viele Firmen Dokumente mit unterschiedlichen Orthographie-Systemen - je nach Schreibdatum. Aber da sind wir wohl bei einem zukünftigen Thema für unseren Blog angelangt.
Hier können Sie einen Kommentar abgeben.
© 2009-2024 SEMPRIA GmbH, Datenschutz, Impressum ®: SEMPRIA ist eine eingetragene Wortmarke.