TF-IDF Algoritması
Terim frekansı-ters belge frekansı ağırlıklandırma. Nadir kelimeler daha doğru kümeleme için daha yüksek ağırlık alır.
N-gram ve Jaccard
Cümle benzerliğini karşılaştırmak için bigram, trigram ve Jaccard katsayısı.
Levenshtein Mesafesi
Yazım hataları ve yazım varyasyonlarını tespit etmek için düzenleme mesafesi.
Hiyerarşik Kümeleme
Optimum küme birleştirme için ortalama bağlantılı aglomeratif algoritma.
Anlamsal Analiz
Terimler arasındaki anlamsal ilişkileri tespit etmek için kelime birlikte görülme matrisi.
Kosinüs Benzerliği
Küme centroidleriyle karşılaştırmak için TF-IDF vektör kosinüs benzerliği.
Çok Dilli Stemming
Morfoloji desteğiyle Türkçe ve İngilizce için 50'den fazla stemming kuralı.
Stop Kelimeler
Daha temiz analiz için her iki dilde 100'den fazla işlev kelimesinin otomatik kaldırılması.