Algorithme TF-IDF
Pondération par fréquence du terme-fréquence inverse du document. Les mots rares ont un poids plus élevé pour un clustering plus précis.
N-grammes & Jaccard
Bigrammes, trigrammes et coefficient de Jaccard pour comparer la similarité des phrases.
Distance de Levenshtein
Distance d'édition pour détecter les fautes de frappe et les variations orthographiques.
Clustering Hiérarchique
Algorithme agglomératif avec liaison moyenne pour une fusion optimale des clusters.
Analyse Sémantique
Matrice de co-occurrence des mots pour détecter les relations sémantiques entre les termes.
Similarité Cosinus
Similarité cosinus des vecteurs TF-IDF pour la comparaison avec les centroïdes des clusters.
Stemming Multilingue
Plus de 50 règles de stemming pour le français et l'anglais avec support morphologique.
Mots Vides
Suppression automatique de plus de 100 mots fonctionnels pour les deux langues pour une analyse plus propre.