Malware Detection Using Machine-Learning Algorithms

يعد استخدام تقنيات الكشف عن البرامج الضارة حلاً شائعًا لتصنيف الهجمات. ففي الوقت الحاضر، نمت الهجمات على الشبكات بشكل كبير، حيث وصلت تقريبًا إلى الأجهزة الإلكترونية التي تعمل على نظام تشغيل وبالتالي تصل إلى الشبكة بسهولة. نظرًا لأهمية ذلك، نقدم في هذه الدراسة طرقًا متعددة لتصنيف التعلم الآلي ومن هذه التصنيفات (K-Nearest Neighbor، وNative Bayes، وDecision Tree، وRandom Forest، وSupport Vector Machine، وSGD) التي تقوم بالتصنيف الملفات إلى ضارة أو غير ضارة. تعتبر الملفات الموجودة في الأنظمة العادية بعمليات، كل عملية فيها لها سلوك وقد يكون هذا السلوك عاديًا أو غير طبيعي (برامج ضارة)، وهذا السلوك يمكن تعريفه باستخدام مجموعة من القواعد بواسطة نظام التشغيل نفسه. والملفات المعتمدة في دراستنا هي الملفات التنفيذية على الويندوز وهي ملفات من نوع exe، ويحتوي الملف على تعليمات كسلسلة من الرموز الثنائية، والتي من الواضح أنه ليس من السهل قراءتها. وبعد عدة تجارب وعدة تقنيات قمنا بها، توصلنا الى نتائج في هذه الدراسة عالية من خلال بناء نموذج قوي، وتم اختيار هذا النموذج بناءً على أفضل ثلاث خوارزميات DT، RF، KNN من حيث الدقة، من خلال إجراء جمع بين هذه الخوارزميات، بالتالي توصلنا إلى نموذج يوفر أعلى دقة للكشف عن البرامج الضارة مقارنة بالخوارزميات الفردية حيث حقق دقة تصل الى 98%