ARABIC TEXT CLASSIFICATION BASED ON TERM DISTRIBUTION

في هذا البحث، تم اقتراح نظام لتصنيف نصوص العربية يعتمد على آلة دعم المتجهات (SVM)، واثنين من طرق الاختيار المحسنة للمميزات (ITFIDF و TF-IDF-CF)، وهما عبارة عن تطوير لخوارزمية (TF-IDF). النظام يتكون من ثلاث مراحل رئيسية: المعالجة المسبقة، واختيار الكلمات المميزة، والتصنيف. في مرحلة المعالجة المسبقة، يتم تحويل سلسلة مستندات الإدخال إلى كلمات. ثم تتم إزالة كلمات التوقف ويتم حذف الأرقام والرموز الخاصة. بعد ذلك، يتم تطبيق التجذير الخفيف لإزالة اللواحق والبادئات من الأحرف. بعد ذلك، يتم تحديد الميزات باستخدام TF-IDF المحسّن (ITFIDF) و TF-IDF-CF، ليكون بمثابة مدخلات SVM لتصنيف النص. تستخدم الخوارزميات المقترحة توزيع المصطلح لتحسين خوارزمية TF-IDF. تم تطبيق نظام تصنيف النصوص العربية والتحقق منه على مجموعة بيانات من 20230 وثيقة عربية. بالإضافة إلى ذلك، تم اختبار ومقارنة نتائج الخوارزميات المقترحة بالخوارزمية (TF-IDF) باستخدام نفس مجموعة البيانات من حيث الدقة والاستدعاء ومعايير قياس 1F. بلغت قيم معايير الأداء هذه التي تم الحصول عليها مع نظام التصنيف المقترح 87? و 85? و 86? على التوالي. للتحقق من صحة أداء النظام وخطوات المعالجة المسبقة، تم مقارنة نتائج النظام مع أبحاث سابقة بنفس الظروف.