La búsqueda difusa de información textual es la búsqueda de cadenas similares o cercanas a la consulta de búsqueda.
Al mismo tiempo, el grado de borrosidad o similitud de las cadenas de texto se evalúa con mayor frecuencia utilizando la distancia de edición (distancia de Levenshtein). Y la distancia de edición de dos cadenas es el número mínimo de operaciones de sustitución, inserción y eliminación de caracteres necesarias para transformar una cadena en otra. Una transposición de dos caracteres adyacentes también puede considerarse como una operación de edición válida (distancia Damerau-Levenshtein).
Un ejemplo de búsqueda difusa para un valor de borrosidad dado de 2 ediciones es la consulta de búsqueda "árboles" y el resultado de búsqueda "estos". Aquí el carácter "r" se reemplaza por "h" y los caracteres "e" y "s" se transponen. Es decir, la distancia Damerau-Levenshtein para estas dos palabras es 2 en este ejemplo de búsqueda difusa.
Los siguientes métodos se utilizan con mayor frecuencia para implementar la búsqueda difusa:
En esta aplicación, para obtener una coincidencia difusa de palabras en un documento, debe especificar el número requerido de errores (valor de borrosidad) de 1 a 9 caracteres. También puede establecer la opción para buscar palabras con solo un número mínimo de diferencias, o para buscar todas las palabras dentro de un número determinado de diferencias.
La biblioteca GroupDocs.Search tiene muchas otras opciones de coincidencia difusa. Por ejemplo, puede establecer el número de diferencias entre palabras como una función lineal de la longitud de la palabra, o incluso establecer el número de diferencias individualmente para cada valor de la longitud de la palabra.
Puede realizar búsquedas difusas en muchos formatos de archivo. Consulte la lista completa a continuación.