אלגוריתם TF-IDF
שקלול תדירות מונח-תדירות מסמך הפוכה. מילים נדירות מקבלות משקל גבוה יותר לקלסטרינג מדויק יותר.
N-grams ו-Jaccard
ביגרמות, טריגרמות ומקדם Jaccard להשוואת דמיון ביטויים.
מרחק Levenshtein
מרחק עריכה לזיהוי שגיאות הקלדה וריאציות כתיב.
קלסטרינג היררכי
אלגוריתם אגלומרטיבי עם קישור ממוצע למיזוג אשכולות אופטימלי.
ניתוח סמנטי
מטריצת שכיחות משותפת של מילים לזיהוי קשרים סמנטיים בין מונחים.
דמיון קוסינוס
דמיון קוסינוס של וקטורי TF-IDF להשוואה עם מרכזי האשכולות.
גזירה רב-לשונית
יותר מ-50 כללי גזירה לעברית ואנגלית עם תמיכה מורפולוגית.
מילות עצירה
הסרה אוטומטית של יותר מ-100 מילות תפקוד בשתי השפות לניתוח נקי יותר.