خوارزمية TF-IDF
ترجيح تكرار المصطلح - تكرار المستند العكسي. الكلمات النادرة تحصل على وزن أعلى لتجميع أكثر دقة.
N-grams و Jaccard
ثنائيات وثلاثيات ومعامل جاكارد لمقارنة تشابه العبارات.
مسافة ليفنشتاين
مسافة التحرير لاكتشاف الأخطاء الإملائية والاختلافات الكتابية.
التجميع الهرمي
خوارزمية تجميعية مع ربط متوسط لدمج المجموعات الأمثل.
التحليل الدلالي
مصفوفة التزامن للكشف عن العلاقات الدلالية بين المصطلحات.
تشابه جيب التمام
تشابه جيب التمام لمتجهات TF-IDF للمقارنة مع مراكز المجموعات.
تجذير متعدد اللغات
أكثر من 50 قاعدة تجذير للعربية والإنجليزية مع دعم الصرف.
كلمات التوقف
إزالة تلقائية لأكثر من 100 كلمة وظيفية لكلتا اللغتين لتحليل أنظف.