N-gram方式

DATE : 2012/10/13

N-gram(エヌグラム)方式とは、文章を理解するための技術の一つで、文章を特定の文字数に分解し、全文検索の技術に使用されます。

Nを1にすると1文字ずつに分解、Nを2にすると2文字ずつに分解、Nを3にすると3文字ずつに分解して文章を解読します。

例えばNが2の場合、「街の北欧雑貨屋さん」の文章は下記のように分解されます。

「街の の北 北欧 欧雑 雑貨 貨屋 屋さ さん」と、文章が分解され解読されます。

同様の技術で「形態素解析」より、検索漏れが少なく、辞書データなども不要といった特徴があるが、「形態素解析」よりも検索時間が掛かり、誤った検索結果を表示する問題もあります。(「京都」で検索すると「東京都庁」などもヒットする)

現在、検索エンジンの多くは形態素解析を導入しており、N-gram方式を導入している検索エンジンは少ない。

「Livedoorのブログ検索」がN-gram方式を導入しています。