عنوان الإطروحه
Phishing Websites Detection using Genetic Algorithm and Gradient Boosting Algorithms
تاريخ مناقشة الاطروحه
2022-11-07
اسم الطالب
هندي فارع فرحان المساعيد
المشرف
مفلح محمد مفلح الذيابات
المشرف المشارك
اعضاء لجنة المناقشة
اكرم عارف نايف مصطفى
فيصل سليمان صالح السقار
بلال أبو عطا
الكلية
كلية الامير الحسين بن عبدالله لتكنولوجيا المعلومات
القسم
علم الحاسوب
الملخص بالعربية
في السنوات الأخيرة، ازداد عدد عناوين مواقع الويب التي تتم مشاركتها عبر الإنترنت بشكل كبير، لذلك تم إجراء الكثير من الأبحاث لحماية بياناتنا من التطفل الضار خاصة باستخدام هجمات تصيد عناوين مواقع الويب حيث أصبح هذا الأمر أهم مرحلة في حياة كل شخص أثناء استخدام الإنترنت هذه الأيام. أصبح اكتشاف عناوين مواقع الويب الخادعة مصدر قلق كبير ليس فقط للأشخاص في حياتهم اليومية، ولكن أيضًا للشركات والجيش وغيرهم. ويهدف البحث الذي تم إجراؤه دائمًا إلى تحسين الأداء للحصول على خوارزمية أكثر أمانًا كل يوم حيث يتم أيضًا تحسين خوارزميات التي تهدف الى تصيد معلومات الناس عن طريق مواقع الويب الخادعة. هذه الأطروحة تقوم بالتنبؤ بعناوين مواقع الويب الخادعة من المواقع الحقيقية وتقيم أداء العديد من خوارزميات (gradient boosting algorithms) الأحدث وهي: (GBDT)، (XGBoost)، (LightGBM)، (CatBoost) مع بعضها البعض مع خوارزميات جينية من حيث السرعة والدقة وإعداد (hyper-parameter). لقد تناولنا المشكلة الرئيسية في بحثنا وهي التنبؤ بعناوين مواقع الويب الخادعة من مواقع الويب الحقيقية وتم قياس الأداء للخوارزمية حيث تم تقييم كل خوارزمية بالعديد من الطرق وهي: Accuracy وال F-measure وال Recall وال Precision. أظهر تحليل النتائج التجريبية أن كل من الخوارزميات المستخدمة حققت دقة أفضل مقارنة بالدراسات السابقة، في حين أن نموذجنا الرئيسي الذي يجمع الخوازميات الأربعة مع بعض البعض بالإضافة الى الخوارزمية الجينية لاختيار افضل (features) حقق دقة بلغت 97.7 ، وهذه النتائج حقق فيها LightGBM أفضل دقة بنسبة 97.8?، ومن حيث السرعة حصل LightGBM أيضًا على أفضل النتائج لأنه كان أسرع من جميع الخوارزميات المستخدمة الأخرى. تثبت هذه الدراسة أهمية اختيار (Features) في تحسين الدقة، حيث يساعدنا كل هذا العمل في الحصول على مزيد من الأمان من حيث اكتشاف مواقع الويب الخادعة وتهدف إلى توفير بيئة مناسبة يتم فيها حماية الأشخاص من هذا النوع من الهجمات.
الملخص بالانجليزي
In recent years, the number of Uniform Resource Locators (URLs) shared through the internet has been greatly increasing. Therefore, a lot of research has been done to protect our data from malicious intrusion, especially using URL phishing attacks, as this matter has become one of the most important stages in every person's life while using the internet these days. Detecting fake URLs has become a big concern not only for people in their daily lives but also for companies, the military, and others. Moreover the research study that has been done always aims to improve the performance to get a more secure algorithm every day to keep up with the daily development of phishing URLs. We addressed the main problem in our research study, which is the prediction of fake URLs from legitimate ones. The performance for predicting the type of URL, either phishing or legitimate, was evaluated using the confusion matrices accuracy, precision, recall, and f-measure, in addition to a comparison between our classifiers by the time taken for each classifier where we used the gradient boosting algorithms after applying several data cleaning steps in addition for the use of the genetic algorithm, The analysis of the experimental results showed that each of the used classifiers achieved a better accuracy compared to the previous studies, where our main stacked model with the genetic algorithm for feature selection achieved an accuracy of 97.7%, while the gradient boosting algorithm individuals achieved similar results. In terms of accuracy, the LightGBM achieved the best accuracy with 97.8%, and in terms of speed, the LightGBM also obtained the best results as it was faster than all other used gradient boosting methods. This research study proves the importance of feature selection in improving accuracy compared to the previous studies, where this work helped us to have more security in terms of detecting malicious and providing a proper environment where people are protected against this type of attack. Key Words: Machine Learning, Gradient boosting algorithms, Gradient-Boosted Decision Trees, Extreme Gradient Boosting, Light Gradient Boosting Machine, Categorical Boosting, Phishing
رقم ISN
7719
للحصول على الرسالة كملف يرجى تزويد المكتبة برقم ISN