La cerca difusa d'informació textual és la cerca de cadenes semblants o properes a la consulta de cerca.
Al mateix temps, el grau de confusió o similitud de les cadenes de text s'avalua amb més freqüència mitjançant la distància d'edició (distància de Levenshtein). I la distància d'edició de dues cadenes és el nombre mínim d'operacions de substitució, inserció i supressió de caràcters necessàries per transformar una cadena en una altra. Una transposició de dos caràcters adjacents també es pot considerar com una operació d'edició vàlida (distància Damerau-Levenshtein).
Un exemple de cerca difusa per a un valor de borrositat determinat de 2 edicions és la consulta de cerca "arbres" i el resultat de la cerca "aquests". Aquí el caràcter "r" es substitueix per "h" i es transposen els caràcters "e" i "s". És a dir, la distància Damerau-Levenshtein per a aquestes dues paraules és 2 en aquest exemple de cerca difusa.
Els mètodes següents s'utilitzen més sovint per implementar la cerca difusa:
En aquesta aplicació, per obtenir una concordança difusa de paraules en un document, heu d'especificar el nombre d'errors necessari (valor de borrositat) d'1 a 9 caràcters. També podeu configurar l'opció de cercar paraules amb només un nombre mínim de diferències o de cercar totes les paraules dins d'un nombre determinat de diferències.
La biblioteca GroupDocs.Search té moltes altres opcions de concordança difuses. Per exemple, podeu establir el nombre de diferències entre paraules com a funció lineal de la longitud de la paraula, o fins i tot establir el nombre de diferències individualment per a cada valor de longitud de paraula.
Podeu realitzar una cerca difusa en molts formats de fitxer. Si us plau, consulteu la llista completa a continuació.