عنوان الإطروحه
Enhanced Arabic Language Texts Classification using the Light Gradient Boosted Machine Algorithm (LIGHTGBM)
تاريخ مناقشة الاطروحه
2021-04-09
اسم الطالب
عدي زياد فيصل البطاينه
المشرف
خالد محمد عبدالرحمن بطيحه
المشرف المشارك
اعضاء لجنة المناقشة
اكرم عارف نايف مصطفى حمارشة
احمد العودات
الكلية
كلية الامير الحسين بن عبدالله لتكنولوجيا المعلومات
القسم
علم الحاسوب
الملخص بالعربية
يتحرك العالم هذه الأيام بسرعة نحو تقنية الذكاء الاصطناعي (AI) حيث أن الذكاء الاصطناعي هو تقنية قوية للغاية للتعرف على أنماط احتياجات المستخدم وتحديدها وفي العديد من المجالات الرئيسية في الوقت الحاضر. كانت النصوص العربية أحد الفروع التي يجب تصنيفها واكتشافها في الوقت الحاضر حيث يتزايد توفر السياق العربي على السحابة بشكل كبير خلال العقد الماضي. وهذا يثير مطالب جديدة لمعالجة السياق العربي وأتمتة تجربة المستخدم المتعلقة بالنصوص العربية. لسوء الحظ، هناك القليل من الجهود لتصنيف واكتشاف السياق العربي الذي تحتاجه الحلول الذكية مثل أنظمة التوصية وحلول بناء الملف الشخصي لذلك، اقترح هذا البحث نهجًا جديدًا لغرض اكتشاف والتعرف على السياق العربي الموجود على الإنترنت. يعتمد النهج الجديد على منهجية التحسين التي تعد جزءًا من خوارزمية شجرة الغابة العشوائية المسماة LIGHTGBM جنبًا إلى جنب مع مرحلة ما قبل المعالجة واستخراج الميزات من السياق العربي. تم استخدام خوارزمية LIGHTGBMفي هذا البحث بسبب ثباتها ودقتها العالية المكتسبة من التدريب. يستخدم LIGHTGBMدعمًا متوازيًا فعالًا للتعليمات. تستخدم الخوارزمية الأشجار الثابتة الجزئية ووظائف الخسارة المقدرة. تلعب مرحلة ما قبل المعالجة في نهجنا دورًا مهمًا هنا لتصفية البيانات وإخراج البيانات المصفاة بدون تشوهات من أجل استخراج ميزات فعالة للغاية لزيادة الدقة في مرحلتي التدريب والاختبار، وتحتوي مراحل ما قبل المعالجة التصفية والتطبيع والترميز وإزالة كلمات التوقف، كل هذه الخطوات تعمل على تحسين مجموعة البيانات لاكتساب دقة عالية أثناء التدريب والاختبار. بعد مرحلة ما قبل المعالجة، يتم استخراج الميزة لاستخراج الميزات الفعالة. تسمى الميزة المستخرجة في هذه المرحلة N-grams التي تتمتع بميزة تقديم مزيد من المعلومات حول كلمة واحدة حتى يتمكن LIGHTGBM من التدريب ومعرفة المزيد حول الكلمات المدخلة. تم اختبار نهجنا الجديد في هذا البحث ومقارنته بالعديد من الخوارزميات الأخرى باستخدام نفس مجموعة البيانات. حصل LIGHTGBMعلى دقة أعلى من بين جميع طرق التصنيف الأخرى حيث حصل LIGHTGBMعلى دقة 81.31%مع 3984 سجل،Precision87.5%،Recall89.9%وحصل على دقة 94.03%مع 300 سجل.
الملخص بالانجليزي
The world is changing at a fast pace these days towards the Artificial Intelligence technology (AI) as the AI is a very powerful technology to recognize and define the patterns of the user needsin many main fields nowadays. Arabic texts were one of the branches that needs to be classified and detected nowadays as the Arabic context availability on the cloud are increasing massively during the last decade. This raises new demands for manipulating the Arabic context and automate the user experience related to Arabic texts. Unfortunately, there are few efforts for classifying and detecting Arabic context which is needed by smart solutions like recommender systems, profile building solutions for that, this thesis proposed an enhanced approach for the purpose of detecting and recognizing the Arabic ContextAvailable online to be classified. The enhanced approach is based on an improvement methodology that is part of the random forest tree algorithm calledLight Gradient Boosting Machine(LIGHTGBM) combined with a pre-processing phase and feature extraction from the Arabic context. LIGHTGBM algorithm used in this thesis due to its fastness and high accuracy gained from its training. The LIGHTGBMuses Effective parallel support for instruction. At each step, the algorithm uses piece-wise constant trees and estimated loss functions. The pre-processing phase in our approach plays a significant role here to filter the data and come out with filtered data without noise in order to extract a very efficient features to increase the accuracy in the training and testing phases, the pre-processing phases contains the filtering, normalization, tokenization and removing the stop words, all these steps improve the dataset to gain high accuracy during the training and testing. After the pre-processing phase the feature extraction takes place to extract efficient features. The feature extracted in this phase are called the N-grams that have the advantage of giving more information about one word so the LIGHTGBM can train and learn more about the input words. The objectives of the enhanced approach are to improve the classification of the Arabic language texts and to increase the precision, recall and accuracy to get better results compared to other works. We have tested the approachand got compared with many other algorithms using the same dataset. The LIGHTGBM got the higher accuracy among all other classification methods as the LIGHTGBM got 81.31% accuracy, 87.5% Precision, 89.9% Recall with 3894, and got 94.03% accuracy with 300 records
رقم ISN
6877
للحصول على الرسالة كملف يرجى تزويد المكتبة برقم ISN