Suchindex
Das Indexschema des GVI ist auf die Recherche optimiert und bietet für exakte und für unscharfe Recherchen optimierte Suchfelder.
Für die Anzeige in potentielle Suchoberflächen macht der GVI keine Vorgaben sondern gibt die Suchtreffer im Austauschformat der Verbundbibliotheken MarcXML aus. Daraus kann eine den lokalen Bedürfnissen entsprechende Titelanzeige generiert werden.
Eigenschaften des GVI
Daten
Im GVI sind die Verbunddaten aller Partner (OBVsg in Vorbereitung) in einem Suchsystem zusammen gespielt und werden täglich aktualisiert. Zusammen sind dies über 180 Millionen Titeldatensätze.
(Mehr dazu auf den Technikseiten.)
Vergleichbarkeit
Im GVI sind alle Daten der Verbünde in einem gemeinsamen System verfügbar, gefundene Bestandsinformationen sind somit vergleichbar. Der GVI kann daher zur Suchunterstützung quellenübergreifendes Ranking und Facetten anbieten.
Meta-Suchmaschinen wie der Karlsruher Virtueller Katalog (KVK) bieten oft mehr Datenquellen an. Aufgrund der anderen Technik 'kennt' immer nur die ersten Einträge der Trefferlisten unterschiedlicher Quellen. Dabei ist nicht einmal sicher, dass alle Trefferlisten nach identischen Kriterien sortiert sind. Darum können die Treffer unterschiedlicher Quellen nicht vergleichen, sortiert oder gar auf mögliche Dubletten untersucht werden.
Unscharfe Suche
Der GVI ist eine Anwendung der Software SOLR und kann von vielen Möglichkeiten zur unscharfen Suche profitieren. So kann bei Suchanfragen neben den üblichen Jokerzeichen (Wildcards) auch die Levenshtein-Distanz angegeben werden. Diese gibt an bei viele Zeichen Abweichungen toleriert werden. ("Haus~1" findet so auch "Maus" und "Hans" weil beide Treffer um nicht mehr als ein Zeichen abweichen).
Intern werden weitere Abstraktionsmöglichkeiten genutzt. Als ein Beispiel das Stemming, bei dem Worte auf Ihre Grundform zurückgeführt werden. (Häuser -> Haus)
(Mehr dazu auf den Technikseiten.)
Nutzung der „Gemeinsame Normdatei“ (GND)
Sind in den Titeldaten Referenzen auf die Gemeinsame Normdatei (GND) erfasst, werden in den Suchfeldern auch alternative Schreibweisen, Synonyme und Pseudonyme berücksichtigt. Das ist auch eine unscharfe Suchmöglichkeit und entspricht einer Wörterbuchsuche.
Zum Beispiel kann so mit der Suche nach dem Pseudonym „Peter Panter“ auch „Kurt Tucholski“ gefunden werden. Intern ist der GVI so konfiguriert, dass direkte Treffer bei der Relevanzsortierung höher gewertet werden als Treffer über das Wörterbuch.
Clustering / Deduplizierung
Der GVI enthält Suchfelder über die sich Suchergebnisse gruppieren lassen.
Beispielsweise kann man Treffer zusammenfassen, die potentiell das gleiche Medium beschreiben. Beispiel: Suchergebnis auf BOSS
Zum Zusammenfassen (Gruppieren) potentieller Dubletten können Matchkeys¹ und Clusterinformationen² genutzt werden. Die von den Verbünden gelieferten Titelinformationen werden dabei nicht modifiziert. Auch werden erkannte Dubletten in den Suchergebnissen des GVI nicht unterdrückt. Dubletten werden nur als solche markiert und entsprechend einsortiert.
- Beim Einspielen der Daten generiert GVI zu jedem Titel einen Fingerabdruck (Matchkey) der es erleichtert Titelaufnahmen zu vergleichen. In verschiedenen Projekten wurde gezeigt, dass sich so ein Fingerabdruck nicht als universelle Referenz eignet. Zum Gruppieren sehr ähnlicher Titelaufnahmen ist ein Matchkey jedoch ein wertvolles Hilfsmittel.
- Bei Projekten die versuchen Dubletten (Titelaufnahme A und Titelaufnahme B beschreiben die gleiche Expresion eines Werks) zuverlässig zu identifizieren entstehen Zuordnungslisten der unterschiedlichen Beschreibungen identischer Titels ('A' isSimilar 'B'). Diese Listen können beim Einspielen der Daten berücksichtigt und als Alternative zu den Matchkeys genutzt werden.
Filter
Im GVI sind Suchfelder vorgesehen, die es ermöglichen Suchanfragen auf den Bestand einzelner Datenquellen und sogar auf den Bestand einzelner Bibliotheken (über deren ISIL) einzuschränken.