Fuzzy vyhledávání textových informací je hledání řetězců podobných nebo blízkých vyhledávacímu dotazu.
Míra neostrosti či podobnosti textových řetězců se přitom nejčastěji posuzuje pomocí editační vzdálenosti (Levenshtein distance). A editační vzdálenost dvou řetězců je minimální počet operací nahrazování, vkládání a mazání znaků potřebných k transformaci jednoho řetězce na jiný. Transpozici dvou sousedních znaků lze také považovat za platnou editační operaci (vzdálenost Damerau-Levenshtein).
Fuzzy vyhledávání v CSV příkladu pro danou hodnotu fuzziness 2 úprav je vyhledávací dotaz „stromy“ a výsledek vyhledávání „tyto“. Zde je znak "r" nahrazen "h" a znaky "e" a "s" jsou transponovány. To znamená, že vzdálenost Damerau-Levenshtein pro tato dvě slova je v tomto fuzzy vyhledávání v CSV příkladu 2.
K implementaci fuzzy vyhledávání se nejčastěji používají následující metody:
Chcete-li v této aplikaci získat fuzzy shodu slov v CSV, musíte zadat požadovaný počet chyb (hodnota fuzziness) od 1 do 9 znaků. Můžete také nastavit možnost vyhledávat slova pouze s minimálním počtem rozdílů nebo hledat všechna slova v rámci daného počtu rozdílů.
Knihovna GroupDocs.Search má mnoho dalších možností fuzzy shody. Můžete například nastavit počet rozdílů mezi slovy jako lineární funkci délky slova nebo dokonce nastavit počet rozdílů individuálně pro každou hodnotu délky slova.
Můžete také provádět fuzzy vyhledávání v mnoha dalších formátech souborů. Úplný seznam naleznete níže.