TF-IDF-Algorithmus
Termfrequenz-Inverse-Dokumentfrequenz-Gewichtung. Seltene Wörter erhalten höheres Gewicht für präziseres Clustering.
N-gramme & Jaccard
Bigramme, Trigramme und Jaccard-Koeffizient zum Vergleich der Phrasenähnlichkeit.
Levenshtein-Distanz
Editierdistanz zur Erkennung von Tippfehlern und Schreibvarianten.
Hierarchisches Clustering
Agglomerativer Algorithmus mit Average Linkage für optimale Cluster-Zusammenführung.
Semantische Analyse
Wort-Kookkurrenz-Matrix zur Erkennung semantischer Beziehungen zwischen Begriffen.
Kosinus-Ähnlichkeit
TF-IDF-Vektor-Kosinus-Ähnlichkeit zum Vergleich mit Cluster-Zentroiden.
Mehrsprachiges Stemming
50+ Stemming-Regeln für Ukrainisch und Englisch mit Morphologie-Unterstützung.
Stoppwörter
Automatische Entfernung von 100+ Funktionswörtern für beide Sprachen für sauberere Analyse.