อัลกอริทึม TF-IDF
การถ่วงน้ำหนักความถี่คำ-ความถี่เอกสารผกผัน คำที่หายากได้น้ำหนักสูงกว่าเพื่อการจัดกลุ่มที่แม่นยำยิ่งขึ้น
N-grams และ Jaccard
ไบแกรม ไตรแกรม และสัมประสิทธิ์ Jaccard สำหรับเปรียบเทียบความคล้ายคลึงของวลี
ระยะ Levenshtein
ระยะการแก้ไขสำหรับตรวจจับการพิมพ์ผิดและการเปลี่ยนแปลงการสะกด
การจัดกลุ่มแบบลำดับชั้น
อัลกอริทึมการรวมกลุ่มพร้อมการเชื่อมโยงเฉลี่ยสำหรับการรวมคลัสเตอร์ที่เหมาะสม
การวิเคราะห์ความหมาย
เมทริกซ์การเกิดร่วมกันของคำสำหรับตรวจจับความสัมพันธ์ทางความหมายระหว่างคำ
ความคล้ายคลึงโคไซน์
ความคล้ายคลึงโคไซน์ของเวกเตอร์ TF-IDF สำหรับเปรียบเทียบกับศูนย์กลางคลัสเตอร์
การตัดรากศัพท์หลายภาษา
กฎการตัดรากศัพท์มากกว่า 50 กฎสำหรับภาษาไทยและอังกฤษพร้อมรองรับสัณฐานวิทยา
คำหยุด
การลบคำหน้าที่อัตโนมัติมากกว่า 100 คำสำหรับทั้งสองภาษาเพื่อการวิเคราะห์ที่สะอาดขึ้น