Enhanced Arabic Language Texts Classification using the Light Gradient Boosted Machine Algorithm (LIGHTGBM)

يتحرك العالم هذه الأيام بسرعة نحو تقنية الذكاء الاصطناعي (AI) حيث أن الذكاء الاصطناعي هو تقنية قوية للغاية للتعرف على أنماط احتياجات المستخدم وتحديدها وفي العديد من المجالات الرئيسية في الوقت الحاضر. كانت النصوص العربية أحد الفروع التي يجب تصنيفها واكتشافها في الوقت الحاضر حيث يتزايد توفر السياق العربي على السحابة بشكل كبير خلال العقد الماضي. وهذا يثير مطالب جديدة لمعالجة السياق العربي وأتمتة تجربة المستخدم المتعلقة بالنصوص العربية. لسوء الحظ، هناك القليل من الجهود لتصنيف واكتشاف السياق العربي الذي تحتاجه الحلول الذكية مثل أنظمة التوصية وحلول بناء الملف الشخصي لذلك، اقترح هذا البحث نهجًا جديدًا لغرض اكتشاف والتعرف على السياق العربي الموجود على الإنترنت. يعتمد النهج الجديد على منهجية التحسين التي تعد جزءًا من خوارزمية شجرة الغابة العشوائية المسماة LIGHTGBM جنبًا إلى جنب مع مرحلة ما قبل المعالجة واستخراج الميزات من السياق العربي. تم استخدام خوارزمية LIGHTGBMفي هذا البحث بسبب ثباتها ودقتها العالية المكتسبة من التدريب. يستخدم LIGHTGBMدعمًا متوازيًا فعالًا للتعليمات. تستخدم الخوارزمية الأشجار الثابتة الجزئية ووظائف الخسارة المقدرة. تلعب مرحلة ما قبل المعالجة في نهجنا دورًا مهمًا هنا لتصفية البيانات وإخراج البيانات المصفاة بدون تشوهات من أجل استخراج ميزات فعالة للغاية لزيادة الدقة في مرحلتي التدريب والاختبار، وتحتوي مراحل ما قبل المعالجة التصفية والتطبيع والترميز وإزالة كلمات التوقف، كل هذه الخطوات تعمل على تحسين مجموعة البيانات لاكتساب دقة عالية أثناء التدريب والاختبار. بعد مرحلة ما قبل المعالجة، يتم استخراج الميزة لاستخراج الميزات الفعالة. تسمى الميزة المستخرجة في هذه المرحلة N-grams التي تتمتع بميزة تقديم مزيد من المعلومات حول كلمة واحدة حتى يتمكن LIGHTGBM من التدريب ومعرفة المزيد حول الكلمات المدخلة. تم اختبار نهجنا الجديد في هذا البحث ومقارنته بالعديد من الخوارزميات الأخرى باستخدام نفس مجموعة البيانات. حصل LIGHTGBMعلى دقة أعلى من بين جميع طرق التصنيف الأخرى حيث حصل LIGHTGBMعلى دقة 81.31%مع 3984 سجل،Precision87.5%،Recall89.9%وحصل على دقة 94.03%مع 300 سجل.