Fuzzy vyhľadávanie textových informácií je vyhľadávanie reťazcov podobných alebo blízkych vyhľadávaciemu dopytu.
Zároveň sa miera neostrosti alebo podobnosti textových reťazcov najčastejšie posudzuje pomocou editačnej vzdialenosti (Levenshteinova vzdialenosť). A editačná vzdialenosť dvoch reťazcov je minimálny počet operácií nahradenia, vloženia a vymazania znakov potrebných na transformáciu jedného reťazca na iný. Za platnú editačnú operáciu možno považovať aj transpozíciu dvoch susedných znakov (vzdialenosť Damerau-Levenshtein).
Príkladom fuzzy vyhľadávania pre danú hodnotu fuzziness 2 úprav je vyhľadávací dopyt „stromy“ a výsledok vyhľadávania „tieto“. Tu je znak "r" nahradený "h" a znaky "e" a "s" sú transponované. To znamená, že vzdialenosť Damerau-Levenshtein pre tieto dve slová je v tomto príklade fuzzy vyhľadávania 2.
Na implementáciu fuzzy vyhľadávania sa najčastejšie používajú tieto metódy:
Ak chcete v tejto aplikácii získať fuzzy zhodu slov v dokumente, musíte zadať požadovaný počet chýb (hodnota neostrosti) od 1 do 9 znakov. Môžete si tiež nastaviť možnosť hľadať slová len s minimálnym počtom rozdielov alebo hľadať všetky slová v rámci daného počtu rozdielov.
Knižnica GroupDocs.Search má mnoho ďalších možností fuzzy zhody. Môžete napríklad nastaviť počet rozdielov medzi slovami ako lineárnu funkciu dĺžky slova alebo dokonca nastaviť počet rozdielov individuálne pre každú hodnotu dĺžky slova.
Fuzzy vyhľadávanie môžete vykonávať v mnohých formátoch súborov. Úplný zoznam nájdete nižšie.