TF-IDF алгоритъм
Претегляне на честота на термин-обратна честота на документ. Редките думи получават по-високо тегло за по-точно клъстериране.
N-грами и Jaccard
Биграми, триграми и коефициент на Jaccard за сравняване на сходство на фрази.
Разстояние на Levenshtein
Разстояние на редактиране за откриване на печатни грешки и вариации в правописа.
Йерархично клъстериране
Агломеративен алгоритъм със средна връзка за оптимално сливане на клъстери.
Семантичен анализ
Матрица на съвместно появяване на думи за откриване на семантични връзки между термини.
Косинусово сходство
Косинусово сходство на TF-IDF вектори за сравнение с центроидите на клъстерите.
Многоезично стемиране
Над 50 правила за стемиране за български и английски с морфологична поддръжка.
Стоп думи
Автоматично премахване на над 100 функционални думи за двата езика за по-чист анализ.