Eine Suchmaschine, die „menschlich“ formulierte Fragestellungen versteht, wird von Internet-Visionären bereits seit geraumen Jahren propagiert. Bislang ist es jedoch noch keinem Anbieter gelungen, der Stichwort-basierten Suchabfrage von Google & Co. eine alternative Syntax-Interpretation mit wirklichem Mehrwert entgegenzusetzen.

Einer der Pioniere auf dem Gebiet der Sprach-Interpretation war die Suchmaschine Ask.com, die zu einer einfachen Frage-Syntax korrekte Antworten liefern kann. Allerdings ist die Syntax-Interpretation von Ask.com komplexere Fragen werden nicht interpretiert. Da dieser eingegrenzte Syntax-Raum für den täglichen Anwendungsbedarf nicht ausreichend ist, animiert die Ask.com-Suche die Nutzer auch nicht dazu, „menschlich“ zu fragen. auf einen äusserst limitierten Frageraum begrenzt („how old is ..“, „how big is ..“), Einen weiter reichenden Ansatz zur „Natural Language Extraction“ verspricht das Startup Powerset, das wegen einer 12,5-Millionen US-Dollar VC-Finanzierung im Sillicon Valley mit grosser Spannung verfolgt wird. Natürlich sind Ankündigungen von
„revolutionärer“ Technologie stets mit Vorsicht zu geniessen ...
Einen anderen Ansatz zum besseren Verständnis des „Sinns“ von Suchanfragen verfolgt die US-Firma Vivísimo. Über heuristische (lernende) Clustering-Algorithmen ordnet Vivismo Dokumente und Suchanfrage „on the fly“ bestimmten „Sinnclustern“ zu, die sich gegenseitig überlappen können. Mit den so gebildeten Clustern entstehen Empfehlungen, die dem Nutzer bei einer Suchanfrage weiterführende Filtermöglichkeiten oder ergänzende Stichwörter liefern. Eine Suchanfrage nach einer „KfZ-Versicherung“ liefert somit verwandte Stichwörter wie „Autoversicherung“, „Versicherungsvergleich“, „Haftpflicht“ und „Versicherungsmakler“. Die Clustering-Technologie wird nicht nur auf der Vivísimo-eigenen Suchmaschine Clusty (www.clusty.com) eingesetzt, sondern auch auf Partner-Suchmaschinen wie Ask.com oder Indeed.
Auch wenn sich die Natural Language Extraction bei Suchanfragen noch nicht durchgesetzt hat, lässt sie sich bereits heute hervorragend für die Gewinnung von strukturierten Daten aus Texten klar umrissener Themengebiete einsetzen. Eines der eindrucksvollsten Beispiele liefert die „Suchmaschine“ Zoominfo, die sich auf die Gewinnung von strukturierten Personen- und Firmendaten aus den unstrukturierten Texten des Internets spezialisiert hat.
Hierzu durchsucht und indexiert Zoominfo wie Google & Co. alle im Netz verfügbaren Textdokumente. In einem zweiten Schritt werden die unstrukturierten Texte über eine Personen-bezogene Syntaxanalysen in strukturierte und damit filterbare Informationen überführt. Dazu „transponiert“ die Syntax-Analyse einen Satz wie „Michael Müller, born in Illinois, became Vice President Marketing of Coca Cola in 1997“ in strukturierte Datenfelder (‚Name’, ‚Company’, ‚Position’ und ‚Geburtsort’), die dann relational miteinander verknüpft werden können.
Zu jeder „Fundstelle“ generiert Zoominfo aus diesen Daten ein detailliertes Personenprofil, das u.a. bisherige Arbeitsstationen, den Bildungsweg (Universitäten), Aufsichtsratsposten in anderen Firmen sowie Verlinkungen zu Arbeitskollegen anzeigt. In den Firmenprofilen finden sich u.a. Kontaktadressen, Geschäftszahlen, Listen von Mitarbeitern sowie Verlinkungen von Wettbewerbern. All diese Informationen werden vollautomatisch aus frei verfügbaren Text-Dokumenten im Internet generiert und können von den jeweiligen Personen und Firmen manuell korrigiert werden.
Mit seinen Algorithmen zur automatisierten Profilerstellung eröffnet Zoominfo eine neue Ära: Zumindest theoretisch kann die Suchmaschine die Bewegung aller Menschen verfolgen, von denen sich Daten im Internet finden. Dank der Skalierbarkeit des Systems ist die Anzahl der verarbeitbaren Informationen und Profile faktisch unbegrenzt: So hatte Zoominfo bis Ende 2006 bereits 33 Mio. Personen- und 2 Mio. Firmenprofile erstellt, pro Monat kommen ca. 450.000 weitere Profile hinzu.
Natürlich sind die automatisch generierten Informationen von Zoominfo noch fehleranfällig und können daher nur als Ausgangspunkt einer Recherche dienen. Für Headhunter, Recruiter oder Analysten, denen Zoominfo einen Premium-Zugang mit weiterführenden Suchfunktionalitäten verkauft, ist das System aufgrund seiner Reichweite jedoch geldwert (allein zu IBM findet Zoominfo rund 20.000 Mitarbeiter in verschiedenen Positionen einschliesslich ihres jeweiligen Kollegenkreises). Zu den Kunden des Dienstes zählen nach Angaben von Zoominfo rund 20% aller Fortune 500-Unternehmen.
Ein Datenschutz-Problem durch das automatische Spidering sieht Zoominfo-Vorstandschef Jonathan Stern nicht. Schliesslich kompiliere Zoominfo nur Informationen, die ohnehin frei im Netz verfügbar seien. Darüber liesse sich diskutieren: Einmal erfasste Personendaten bleiben bei Zoominfo gespeichert, selbst wenn sie aus den entsprechenden Internetquellen entfernt werden. Herr X, der die Firma Y im Jahr 2005 verlässt, verschwindet z.B. von deren Website, bei Zoominfo bleibt seine Station erhalten. Damit kann Zoominfo Menschen über einen längeren Zeitraum „tracken“ und einen persönlichen Lebenslauf erstellen, der über die aktuell im Netz verfügbaren Informationen hinausgeht.
Kommentare