Fuzzy vyhľadávanie textových informácií je vyhľadávanie reťazcov podobných alebo blízkych vyhľadávaciemu dopytu.
Zároveň sa miera neostrosti alebo podobnosti textových reťazcov najčastejšie posudzuje pomocou editačnej vzdialenosti (Levenshteinova vzdialenosť). A editačná vzdialenosť dvoch reťazcov je minimálny počet operácií nahradenia, vloženia a vymazania znakov potrebných na transformáciu jedného reťazca na iný. Za platnú editačnú operáciu možno považovať aj transpozíciu dvoch susedných znakov (vzdialenosť Damerau-Levenshtein).
Nejasné vyhľadávanie v príklade CSV pre danú hodnotu fuzziness 2 úprav je vyhľadávací dopyt „stromy“ a výsledok vyhľadávania „tieto“. Tu je znak "r" nahradený "h" a znaky "e" a "s" sú transponované. To znamená, že vzdialenosť Damerau-Levenshtein pre tieto dve slová je v tomto fuzzy vyhľadávaní v príklade CSV 2.
Na implementáciu fuzzy vyhľadávania sa najčastejšie používajú tieto metódy:
V tejto aplikácii, aby ste získali fuzzy zhodu slov v CSV, musíte zadať požadovaný počet chýb (hodnota fuzziness) od 1 do 9 znakov. Môžete si tiež nastaviť možnosť hľadať slová len s minimálnym počtom rozdielov alebo hľadať všetky slová v rámci daného počtu rozdielov.
Knižnica GroupDocs.Search má mnoho ďalších možností fuzzy zhody. Môžete napríklad nastaviť počet rozdielov medzi slovami ako lineárnu funkciu dĺžky slova alebo dokonca nastaviť počet rozdielov individuálne pre každú hodnotu dĺžky slova.
Môžete tiež vykonávať fuzzy vyhľadávanie v mnohých iných formátoch súborov. Úplný zoznam nájdete nižšie.