La recherche floue d’informations textuelles est la recherche de chaînes similaires ou proches de la requête de recherche.
Dans le même temps, le degré de flou ou de similitude des chaînes de texte est le plus souvent évalué à l’aide de la distance d’édition (distance de Levenshtein). Et la distance d’édition de deux chaînes est le nombre minimum d’opérations de substitution, d’insertion et de suppression de caractères nécessaires pour transformer une chaîne en une autre. Une transposition de deux caractères adjacents peut également être considérée comme une opération d’édition valide (distance Damerau-Levenshtein).
Un exemple de recherche floue pour une valeur de flou donnée de 2 modifications est la requête de recherche « arbres » et le résultat de recherche « ceux-ci ». Ici, le caractère « r » est remplacé par « h » et les caractères « e » et « s » sont transposés. C’est-à-dire que la distance de Damerau-Levenshtein pour ces deux mots est de 2 dans cet exemple de recherche floue.
Les méthodes suivantes sont le plus souvent utilisées pour implémenter la recherche floue :
Dans cette application, pour obtenir une correspondance floue de mots dans un document, vous devez spécifier le nombre requis d’erreurs (valeur de flou) de 1 à 9 caractères. Vous pouvez également définir l’option pour rechercher des mots avec seulement un nombre minimum de différences, ou pour rechercher tous les mots dans un nombre donné de différences.
La bibliothèque GroupDocs.Search dispose de nombreuses autres options de correspondance floue. Par exemple, vous pouvez définir le nombre de différences entre les mots en fonction linéaire de la longueur des mots, ou même définir le nombre de différences individuellement pour chaque valeur de longueur de mot.
Vous pouvez effectuer une recherche floue dans de nombreux formats de fichiers. Veuillez consulter la liste complète ci-dessous.