テキスト情報のあいまい検索は、検索クエリに類似または近い文字列の検索です。
同時に、テキスト文字列のあいまいさや類似性の程度は、ほとんどの場合、編集距離(レーベンシュタイン距離)を使用して評価されます。 また、2 つの文字列の編集距離は、ある文字列を別の文字列に変換するために必要な文字置換、挿入、および削除操作の最小数です。 隣接する2つの文字の転置は、有効な編集操作(Damerau-Levenshtein距離)と考えることもできます。
特定のあいまいさ値 2 つの編集に対するあいまい検索の例は、検索クエリ "tree" と検索結果 "these" です。 ここでは、文字 "r" は "h" に置き換えられ、文字 "e" と "s" は転置されます。 つまり、この 2 つの単語のダメラウ-レーベンシュタイン距離は、このあいまいな検索例では 2 です。
次のメソッドは、あいまい検索を実装するために最もよく使用されます。
このアプリケーションでは、文書内の単語のあいまい一致を取得するには、1〜9文字の必要なミス数(あいまいさ値)を指定する必要があります。 また、最小数の相違点のみを持つ単語を検索するか、特定の差異数内のすべての単語を検索するようにオプションを設定することもできます。
GroupDocs.Search ライブラリには、他にも多くのファジーマッチングオプションがあります。 たとえば、単語間の差異の数を単語長の一次関数として設定したり、単語長の値ごとに差異の数を個別に設定したりすることもできます。