عنوان الإطروحه
Arabic Text Classification on Improved Chi Square and Support Vector Machine
تاريخ مناقشة الاطروحه
2018-01-21
اسم الطالب
محمد مرزوق سالم عليمات
المشرف
مفلح محمد مفلح الذيابات
المشرف المشارك
عطا لله الشطناوي
اعضاء لجنة المناقشة
عمر علي عوده شطناوي
خالد محمد عبدالرحمن بطيحة
محمد عطير
الكلية
كلية الامير الحسين بن عبدالله لتكنولوجيا المعلومات
القسم
علم الحاسوب
الملخص بالعربية
في هذا البحث، يقترح نظام تصنيف النصوص العربي على اعتمادا على طريقة مربع الكاي لاختيار الكلمات المميزة باستخدام مصنف SVM. النظام المقترح هو نظام تصنيف متعدد المراحل. وهو يتألف من ثلاث مراحل رئيسية: المعالجة المسبقة، واختيار الميزة، والتصنيف. في مرحلة المعالجة المسبقة، يتم توثيق سلسلة وثائق المدخلات إلى كلمات وتطبيع. ثم، تتم إزالة كلمات التوقف ويتم حذف الكلمات غير العربية، والأرقام، والرموز الخاصة. بعد ذلك، يتم تطبيق طريق التجذير الخفيف وذلك لإزالة اللواحق والبادئات من الحروف. ثم، يتم تحديد الميزات باستخدام طريقة اختيار مربع كاي المحسنة، والتي تم تطويرها من قبل تشنغ وآخرون. في عام 2016، لتكون بمثابة مدخلات للمصنف SVM لتصنيف النصوص. تحدد طريقة اختيار مربع كاي المحسنة الارتباطات بين المصطلحات وفئاتها بإضافة متطلبات التشتت والتركز ومعلومات التردد. تم تطبيق نظام تصنيف النص العربي المقترح والتحقق منه على مجموعة من البيانات مكونة من 600 وثيقة عربية جمعت من مصادر مختلفة. وبالإضافة إلى ذلك، تم اختباره ومقارنته مع مربع تشي العادي وطريقة تردد التردد العكسي (TFIDF) باستخدام نفس مجموعة البيانات من حيث الدقة والتذكير ومعايير قياس F. وكانت قيم معايير الأداء هذه التي تم الحصول عليها مع نظام التصنيف المقترح 92.5? و 10.86? و 99.41? على التوالي.
الملخص بالانجليزي
In this research, an Arabic text classification system based on improved Chi square feature selection and Support Vector Machine (SVM) is proposed. The proposed system is a multi-stage classification system. It consists of three main stages: preprocessing, feature selection, and classification. In the preprocessing stage, the input document string is tokenized into words and normalized. Then, the stop words are removed and the unnoticed words, numbers, and special symbols are deleted. Afterwards, light stemming is applied so as to remove the suffixes and prefixes of letters. Then, the features are selected by using the improved Chi square feature selection method, which was developed by Zheng et al. in 2016, to serve as the SVM inputs for text classification. The improved Chi square feature selection method identifies the correlations between the terms and their categories by adding the dispersion, concentration, and frequency information demands. This proposed Arabic text classification system was applied and verified on a dataset of 600 Arabic documents collected from different sources. In addition, it was tested and compared with the normal Chi square and the Term Frequency Inverse Document Frequency (TFIDF) methods using the same dataset in terms of precision, recall, and F-measure criteria. The values of these performance criteria obtained with the proposed classification system were 92.5%, 10.86%, and 99.41%, respectively
رقم ISN
134
للحصول على الرسالة كملف يرجى تزويد المكتبة برقم ISN