Tekstitiedon sumea haku tarkoittaa hakulauseketta vastaavien tai sitä lähellä olevien merkkijonojen hakua.
Samanaikaisesti tekstijonojen sumeuden tai samankaltaisuuden astetta arvioidaan useimmiten muokkausetäisyydellä (Levenshtein-etäisyys). Ja kahden merkkijonon muokkausetäisyys on merkkijonojen vaihto-, lisäys- ja poistotoimintojen vähimmäismäärä, joka tarvitaan merkkijonon muuntamiseen toiseksi. Kahden vierekkäisen merkin transponointia voidaan pitää myös kelvollisena muokkaustoimenpiteenä (Damerau-Levenshtein-etäisyys).
Sumea hakuesimerkki annetulle sumeusarvolle, jossa on 2 muokkausta, on hakukysely "puut" ja hakutulos "nämä". Tässä merkki "r" korvataan kirjaimella "h" ja merkit "e" ja "s" transponoidaan. Toisin sanoen näiden kahden sanan Damerau-Levenshtein-etäisyys on 2 tässä sumeassa hakuesimerkissä.
Seuraavia menetelmiä käytetään useimmiten sumean haun toteuttamiseen:
Tässä sovelluksessa saadaksesi asiakirjan sanojen sumean vastaavuuden, sinun on määritettävä vaadittu virheiden määrä (sumeusarvo) 1–9 merkkiä. Voit myös asettaa vaihtoehdon etsiä sanoja, joissa on vain vähimmäismäärä eroja, tai etsiä kaikkia sanoja tietyn eroavaisuuden sisällä.
GroupDocs.Search-kirjastossa on monia muita sumeita hakuvaihtoehtoja. Voit esimerkiksi asettaa sanojen välisten erojen määrän sanan pituuden lineaarisena funktiona tai jopa asettaa erojen määrän erikseen kullekin sanan pituuden arvolle.
Voit suorittaa sumean haun useissa tiedostomuodoissa. Katso koko luettelo alla.