Thuật toán TF-IDF
Trọng số tần suất thuật ngữ-nghịch đảo tần suất tài liệu. Các từ hiếm có trọng số cao hơn để phân cụm chính xác hơn.
N-grams & Jaccard
Bigrams, trigrams và hệ số Jaccard để so sánh độ tương đồng cụm từ.
Khoảng cách Levenshtein
Khoảng cách chỉnh sửa để phát hiện lỗi chính tả và biến thể viết.
Phân cụm phân cấp
Thuật toán tích tụ với liên kết trung bình để hợp nhất cụm tối ưu.
Phân tích ngữ nghĩa
Ma trận đồng xuất hiện từ để phát hiện mối quan hệ ngữ nghĩa giữa các thuật ngữ.
Độ tương đồng Cosine
Độ tương đồng cosine vector TF-IDF để so sánh với tâm cụm.
Tách gốc đa ngôn ngữ
Hơn 50 quy tắc tách gốc cho tiếng Việt và tiếng Anh với hỗ trợ hình thái học.
Từ dừng
Tự động loại bỏ hơn 100 từ chức năng cho cả hai ngôn ngữ để phân tích sạch hơn.