Wir l[i]eben Datenbanken

News

Vergleich von Linguistischen Stemmern für Elasticsearch

Sollen deutsche Texte durchsuchbar gemacht werden, sind unregelmäßige Verben, zusammengesetzte Wörter (Komposita) und grammatikalisch leicht zu verwechselnde Wörter wie „Messer“ und „Messe“ ein Herausforderung, die sich nicht über die üblichen heuristischen Stemmer lösen lassen.

Einer unserer Kunden hat einen Vergleich von kommerziellen linguistischen Stemmern durchgeführt, den wir hier als Beispiel für die Komplexität der zugrundeliegenden Möglichkeiten wiedergeben.

Verglichen wurden vier Produkte. Der Markt selbst ist übersichtlich, mehr als ein dutzend Anbieter für die deutsche Sprache gibt es nicht.

Wenn Sie Fragen oder Anregungen zu dieser Seite oder dem Vergleich haben, freuen wir uns über Ihre Rückmeldung.

Download

Entscheidungsmatrix Linguistische Stemmer (PDF-Dokument)

Query2Index_alle

Query2Index_alle_inverted

compare_ergebnisse_01

compare_ergebnisse_02