Algoritmo TF-IDF
Ponderazione della frequenza del termine-frequenza inversa del documento. Le parole rare ottengono un peso maggiore per un clustering più accurato.
N-grammi & Jaccard
Bigrammi, trigrammi e coefficiente di Jaccard per confrontare la similarità delle frasi.
Distanza di Levenshtein
Distanza di modifica per rilevare errori di battitura e variazioni ortografiche.
Clustering Gerarchico
Algoritmo agglomerativo con linkage medio per la fusione ottimale dei cluster.
Analisi Semantica
Matrice di co-occorrenza delle parole per rilevare relazioni semantiche tra i termini.
Similarità del Coseno
Similarità del coseno dei vettori TF-IDF per il confronto con i centroidi dei cluster.
Stemming Multilingue
Oltre 50 regole di stemming per italiano e inglese con supporto morfologico.
Stop Words
Rimozione automatica di oltre 100 parole funzionali per entrambe le lingue per un'analisi più pulita.