Heart Disease Prediction Model Using Naive Bayes Algorithm and Machine Learning Techniques

في هذه الأيام، أصبحت أمراض القلب إحدى المشاكل الصحية الرئيسية التي أثرت على حياة الناس في العالم أجمع. علاوة على ذلك، يتزايد الموت بسبب أمراض القلب يومًا بعد يوم. لذا تلعب أنظمة التنبؤ بأمراض القلب دورًا مهمًا في الوقاية من مشاكل القلب. حيث تساعد أنظمة التنبؤ الأطباء في اتخاذ القرار الصحيح لتشخيص أمراض القلب بسهولة. قد تعاني أنظمة التنبؤ الحالية من مشكلة الأبعاد العالية للميزات المحددة التي قد تقلل من نتائج التشخيص وتقلل من دقة أداء التنبؤ بسبب العديد من الميزات الزائدة أو غير ذات الصلة. لذلك ، تهدف هذه الرسالة إلى توفير حل لمشكلة الأبعاد من خلال اقتراح نموذج هجين جديد للتنبؤ بأمراض القلب. تقوم هذه الدراسة بتطوير نظام دعم القرار في المستشفيات للتنبؤ بأمراض القلب بالاعتماد على دمج خوارزميات تعلم الآلة. يتكون نظام دعم القرار المقترح من ثلاث مراحل رئيسية وهي: المعالجة المسبقة للبيانات، اختيار الميزات، و التصنيف. في حين أن الهدف الرئيسي من هذا البحث هو تحسين أداء نظام التنبؤ وإيجاد أفضل مجموعة من الميزات. في مرحلة اختيار الميزات، يعتمد النظام المقترح على خوارزمية Na?ve Bayesالتي تستند في عملها على نظرية بايز لحساب الاحتمالات الشرطية حيث تقوم هذه الخوارزمية بحل مشكلة الأبعاد العالية للميزات عن طريق تجنب الميزات غير الضرورية واختيار الميزات المهمة فقط لمرحلة التصنيف التالية. تمكنت هذه الخوارزمية من تقليل عدد الميزات الكلي في قاعدة البيانات من 14 الى 6ميزات وهي (العمر ، الجنس ، ضغط الدم ، سكر الدم الصائم ، الكوليسترول ، ممارسة التمارين الرياضية). علاوة على ذلك، في مرحلة التصنيف يستخدم النظام الهجين المقترح خوارزميات تصنيف مختلفة مثل (أشجار القرار،الغابات العشوائية، أقرب جيران، آلة المتجهات الداعمة) كمصنف للتنبؤ بما اذا كان المريض يعاني من أمراض القلب أم لا حيث يتم تطبيقه على قاعدة بيانات كليفلند لأمراض القلب التي تحتوي على 14 ميزة تشمل تحاليل خاصة بأمراض القلب و 303 عينة لأشخاص مصابين وغير مصابين بأمراض القلب. يتم استخدام مقايس أداء مختلفة مثل (النوعية و الحساسية و الدقة ) لقياس أداء نماذج التصنيف المقترحة المكونة من دمج خوارزمية Na?ve Bayes مع خوارزميات التصنيف المختلفة. حيث تظهر النتائج التجريبية أن من بين نماذج التصنيف الأربعة يمكن للنموذج الجامع بين ( NB & SVM RBF) أن يتنبأ بأمراض القلب بأعلى دقة تبلغ 98?. وأخيرًا ، تتم مقارنة النهج المقترح بنظامين آخرين تم تطويرهما بناءً على نهجين مختلفين في خطوة اختيار الميزة. الأول يعتمد على تقنية الخوارزمية الجينية GA) ) والثاني يستخدم تقنية تحليل المكونات الرئيسيةPCA) ) ونتيجة لذلك ، أثبتت المقارنة أن نهج الاختيار للنظام المقترح الا وهو (Na?ve Bayes) أفضل من تقنيات ( GA & PCA) من حيث دقة التنبؤ وعدد الميزات المختارة.