Алгоритм TF-IDF
Взвешивание по частоте термина и обратной частоте документа. Редкие слова получают больший вес для более точной кластеризации.
N-граммы и Jaccard
Биграммы, триграммы и коэффициент Жаккара для сравнения схожести фраз.
Расстояние Левенштейна
Редакционное расстояние для обнаружения опечаток и вариаций написания.
Иерархическая кластеризация
Агломеративный алгоритм со средней связью для оптимального объединения кластеров.
Семантический анализ
Матрица совместного появления слов для обнаружения семантических связей между терминами.
Косинусное сходство
Косинусное сходство TF-IDF векторов для сравнения с центроидами кластеров.
Многоязычный стемминг
Более 50 правил стемминга для русского и английского языков с поддержкой морфологии.
Стоп-слова
Автоматическое удаление более 100 служебных слов для обоих языков для более чистого анализа.