Tekstilise teabe uduotsing on otsingupäringuga sarnaste või sellele lähedaste stringide otsing.
Samal ajal hinnatakse tekstistringide hägususe või sarnasuse astet kõige sagedamini redigeerimiskauguse (Levenshtein distance) abil. Ja kahe stringi redigeerimiskaugus on minimaalne tähemärkide asendamise, sisestamise ja kustutamise toimingute arv, mis on vajalik ühe stringi teisendamiseks. Kahe kõrvuti asetseva märgi transponeerimist võib samuti pidada kehtivaks redigeerimistoiminguks (Damerau-Levenshteini kaugus).
Häguotsing näites CSV antud hägususe väärtuse jaoks, mis koosneb kahest muudatusest, on otsingupäring "puud" ja otsingutulemus "need". Siin asendatakse märk "r" tähega "h" ja märgid "e" ja "s" on transponeeritud. See tähendab, et nende kahe sõna Damerau-Levenshteini kaugus on 2 selles hägusas otsingus CSV näites.
Hägusotsingu rakendamiseks kasutatakse kõige sagedamini järgmisi meetodeid:
Selles rakenduses peate keeles CSV sõnade ähmase vaste saamiseks määrama vajaliku arvu vigu (hägususväärtus) vahemikus 1 kuni 9 tähemärki. Samuti saate määrata võimaluse otsida sõnu, millel on minimaalne erinevus, või otsida kõiki sõnu teatud arvu erinevuste piires.
GroupDocs.Searchi teegil on palju muid hägusaid sobitamisvalikuid. Näiteks saate määrata sõnade vaheliste erinevuste arvu sõna pikkuse lineaarse funktsioonina või isegi määrata erinevuste arvu iga sõna pikkuse väärtuse jaoks eraldi.
Häguotsingut saate teha ka paljudes teistes failivormingutes. Vaadake allolevat täielikku loendit.