Fuzzy søgning af tekstuelle oplysninger er søgen efter strenge ligner eller tæt på søgeforespørgslen.
Samtidig vurderes graden af uklarhed eller lighed mellem tekststrenge oftest ved hjælp af redigeringsafstanden (Levenshtein-afstand). Og redigeringsafstanden for to strenge er det mindste antal tegnsubstitutions-, indsættelses- og sletningshandlinger, der kræves for at omdanne en streng til en anden. En transponering af to tilstødende tegn kan også betragtes som en gyldig redigeringsoperation (Damerau-Levenshtein afstand).
En uklar søgning i CSV eksempel på en given uklarhedsværdi på 2 redigeringer er søgeforespørgslen "træer" og søgeresultatet "disse". Her erstattes tegnet "r" med "h", og tegnene "e" og "s" transponeres. Det vil sige, at Damerau-Levenshtein-afstanden for disse to ord er 2 i denne uklare søgning i CSV -eksemplet.
Følgende metoder bruges oftest til at implementere fuzzy søgning:
I denne applikation skal du angive det krævede antal fejl (fuzziness value) fra 1 til 9 tegn for at få en uklar match af ord i CSV. Du kan også indstille muligheden for at søge efter ord med kun et minimum af forskelle eller søge efter alle ord inden for et givet antal forskelle.
GroupDocs.Search-biblioteket har mange andre fuzzy matchningsmuligheder. For eksempel kan du indstille antallet af forskelle mellem ord som en lineær funktion af ordlængde eller endda indstille antallet af forskelle individuelt for hver værdi af ordlængde.
Du kan også udføre fuzzy søgning i mange andre filformater. Se hele listen nedenfor.