Algorytm TF-IDF
Ważenie częstotliwości terminu-odwrotnej częstotliwości dokumentu. Rzadkie słowa otrzymują wyższą wagę dla dokładniejszego klastrowania.
N-gramy i Jaccard
Bigramy, trigramy i współczynnik Jaccarda do porównywania podobieństwa fraz.
Odległość Levenshteina
Odległość edycyjna do wykrywania literówek i wariantów pisowni.
Klastrowanie hierarchiczne
Algorytm aglomeracyjny ze średnim połączeniem dla optymalnego łączenia klastrów.
Analiza semantyczna
Macierz współwystępowania słów do wykrywania relacji semantycznych między terminami.
Podobieństwo cosinusowe
Podobieństwo cosinusowe wektorów TF-IDF do porównywania z centroidami klastrów.
Wielojęzyczny stemming
Ponad 50 reguł stemmingu dla polskiego i angielskiego ze wsparciem morfologicznym.
Stop Words
Automatyczne usuwanie ponad 100 słów funkcyjnych dla obu języków dla czystszej analizy.