Arabic Text Classification  on Improved Chi Square and Support Vector Machine

في هذا البحث، يقترح نظام تصنيف النصوص العربي على اعتمادا على طريقة مربع الكاي لاختيار الكلمات المميزة باستخدام مصنف SVM. النظام المقترح هو نظام تصنيف متعدد المراحل. وهو يتألف من ثلاث مراحل رئيسية: المعالجة المسبقة، واختيار الميزة، والتصنيف. في مرحلة المعالجة المسبقة، يتم توثيق سلسلة وثائق المدخلات إلى كلمات وتطبيع. ثم، تتم إزالة كلمات التوقف ويتم حذف الكلمات غير العربية، والأرقام، والرموز الخاصة. بعد ذلك، يتم تطبيق طريق التجذير الخفيف وذلك لإزالة اللواحق والبادئات من الحروف. ثم، يتم تحديد الميزات باستخدام طريقة اختيار مربع كاي المحسنة، والتي تم تطويرها من قبل تشنغ وآخرون. في عام 2016، لتكون بمثابة مدخلات للمصنف SVM لتصنيف النصوص. تحدد طريقة اختيار مربع كاي المحسنة الارتباطات بين المصطلحات وفئاتها بإضافة متطلبات التشتت والتركز ومعلومات التردد. تم تطبيق نظام تصنيف النص العربي المقترح والتحقق منه على مجموعة من البيانات مكونة من 600 وثيقة عربية جمعت من مصادر مختلفة. وبالإضافة إلى ذلك، تم اختباره ومقارنته مع مربع تشي العادي وطريقة تردد التردد العكسي (TFIDF) باستخدام نفس مجموعة البيانات من حيث الدقة والتذكير ومعايير قياس F. وكانت قيم معايير الأداء هذه التي تم الحصول عليها مع نظام التصنيف المقترح 92.5? و 10.86? و 99.41? على التوالي.