Kurz zum Reflektieren – Die Ähnlichkeitssuche hat doch so ihre Tücken

Dies ist mein erster Kurzbeitrag über Dinge, die in der Anwendung oft nicht ganz bis zu Ende durchdacht wurden und deren tatsächlicher Aufwand unterschätzt wird.  

Unabhängig vom Algorithmus, der im jeweiligen Datenbankmanagementsystem (DBMS) integriert ist – so denn überhaupt – wird oft völlig vernachlässigt, dass man meist gar nicht weiß, welcher Inhalt eigentlich der „korrekte“ und welcher der ähnliche ist.

Die Krux bei der Ähnlichkeitssuche ist also nicht nur, überhaupt einen Algorithmus „im System“ für die Fuzzy-Suche zu haben (nicht nur Soundex wie im SQL-Server sondern bspw. auch Similiar oder Ratcliff), sondern damit eine auswertbare Ergebnismenge zu finden, diese überhaupt irgendwie auswerten zu können und stets die korrekte Entscheidung treffen zu können, bspw. in einer Tabelle nicht gerade den Datensatz mit dem „richtigen“ Inhalt zu „entsorgen“. Aus meiner Erfahrung ist gerade bei der Auswertung Schluss mit „automatisch“.