عنوان الإطروحه |
ARABIC TEXT CLASSIFICATION BASED ON TERM DISTRIBUTION
|
تاريخ مناقشة الاطروحه |
2018-05-02 |
اسم الطالب |
حمزه سليمان سلام الشريقي
|
المشرف |
محمد سعيد منصور البشير |
المشرف المشارك |
|
اعضاء لجنة المناقشة |
عمر علي عوده شطناوي |
مفلح محمد مفلح الذيابات |
احمد علي سعيفان |
|
الكلية |
كلية الامير الحسين بن عبدالله لتكنولوجيا المعلومات |
القسم |
علم الحاسوب |
الملخص بالعربية |
في هذا البحث، تم اقتراح نظام لتصنيف نصوص العربية يعتمد على آلة دعم المتجهات (SVM)، واثنين من طرق الاختيار المحسنة للمميزات (ITFIDF و TF-IDF-CF)، وهما عبارة عن تطوير لخوارزمية (TF-IDF). النظام يتكون من ثلاث مراحل رئيسية: المعالجة المسبقة، واختيار الكلمات المميزة، والتصنيف. في مرحلة المعالجة المسبقة، يتم تحويل سلسلة مستندات الإدخال إلى كلمات. ثم تتم إزالة كلمات التوقف ويتم حذف الأرقام والرموز الخاصة. بعد ذلك، يتم تطبيق التجذير الخفيف لإزالة اللواحق والبادئات من الأحرف. بعد ذلك، يتم تحديد الميزات باستخدام TF-IDF المحسّن (ITFIDF) و TF-IDF-CF، ليكون بمثابة مدخلات SVM لتصنيف النص. تستخدم الخوارزميات المقترحة توزيع المصطلح لتحسين خوارزمية TF-IDF. تم تطبيق نظام تصنيف النصوص العربية والتحقق منه على مجموعة بيانات من 20230 وثيقة عربية. بالإضافة إلى ذلك، تم اختبار ومقارنة نتائج الخوارزميات المقترحة بالخوارزمية (TF-IDF) باستخدام نفس مجموعة البيانات من حيث الدقة والاستدعاء ومعايير قياس 1F. بلغت قيم معايير الأداء هذه التي تم الحصول عليها مع نظام التصنيف المقترح 87? و 85? و 86? على التوالي. للتحقق من صحة أداء النظام وخطوات المعالجة المسبقة، تم مقارنة نتائج النظام مع أبحاث سابقة بنفس الظروف. |
الملخص بالانجليزي |
In this research, an Arabic text classification system based on Support Vector Machine (SVM), and two improved feature selection methods are proposed(ITFIDF and TF-IDF-CF), which are development of traditional Term Frequency Inverse Document Frequency (TF-IDF) method. The system is a multi-stage classification system. It consists of three main stages: preprocessing, feature selection, and classification. In the preprocessing stage, the input document string is tokenized into words and normalized. Then, the stop words are removed and the numbers, and special symbols are deleted. Afterwards, light stemming is applied so as to remove the suffixes and prefixes of letters. Then, the features are selected by using the improved TF-IDF (ITFIDF) and TF-IDF-CF, to serve as the SVM inputs for text classification. The suggestion methods use the term distribution to improve TF-IDF. The proposed Arabic text classification system was applied and verified on a dataset of 20230 Arabic documents. In addition, it was tested and compared with the traditional (TF-IDF) methods using the same dataset in terms of precision, recall, and F-measure criteria. The values of these performance criteria obtained with the proposed classification system were 87%, 85%, and 86%, respectively. To validate the system performance and preprocessing steps, the system compared to previous researches with same feature selection and classifier. The results show that proposed system improved the performance better than the comparison researches |
رقم ISN |
138 |
للحصول على الرسالة كملف يرجى تزويد المكتبة برقم ISN
|
|