عنوان الإطروحه
Heart Disease Prediction Model Using Naive Bayes Algorithm and Machine Learning Techniques
تاريخ مناقشة الاطروحه
2020-06-24
اسم الطالب
ماريا محمد فوزي يوسف
المشرف
خالد محمد عبدالرحمن بطيحة
المشرف المشارك
اعضاء لجنة المناقشة
سعد عقله محمود بني محمد
رضوان الدويري
الكلية
كلية الامير الحسين بن عبدالله لتكنولوجيا المعلومات
القسم
علم الحاسوب
الملخص بالعربية
في هذه الأيام، أصبحت أمراض القلب إحدى المشاكل الصحية الرئيسية التي أثرت على حياة الناس في العالم أجمع. علاوة على ذلك، يتزايد الموت بسبب أمراض القلب يومًا بعد يوم. لذا تلعب أنظمة التنبؤ بأمراض القلب دورًا مهمًا في الوقاية من مشاكل القلب. حيث تساعد أنظمة التنبؤ الأطباء في اتخاذ القرار الصحيح لتشخيص أمراض القلب بسهولة. قد تعاني أنظمة التنبؤ الحالية من مشكلة الأبعاد العالية للميزات المحددة التي قد تقلل من نتائج التشخيص وتقلل من دقة أداء التنبؤ بسبب العديد من الميزات الزائدة أو غير ذات الصلة. لذلك ، تهدف هذه الرسالة إلى توفير حل لمشكلة الأبعاد من خلال اقتراح نموذج هجين جديد للتنبؤ بأمراض القلب. تقوم هذه الدراسة بتطوير نظام دعم القرار في المستشفيات للتنبؤ بأمراض القلب بالاعتماد على دمج خوارزميات تعلم الآلة. يتكون نظام دعم القرار المقترح من ثلاث مراحل رئيسية وهي: المعالجة المسبقة للبيانات، اختيار الميزات، و التصنيف. في حين أن الهدف الرئيسي من هذا البحث هو تحسين أداء نظام التنبؤ وإيجاد أفضل مجموعة من الميزات. في مرحلة اختيار الميزات، يعتمد النظام المقترح على خوارزمية Na?ve Bayesالتي تستند في عملها على نظرية بايز لحساب الاحتمالات الشرطية حيث تقوم هذه الخوارزمية بحل مشكلة الأبعاد العالية للميزات عن طريق تجنب الميزات غير الضرورية واختيار الميزات المهمة فقط لمرحلة التصنيف التالية. تمكنت هذه الخوارزمية من تقليل عدد الميزات الكلي في قاعدة البيانات من 14 الى 6ميزات وهي (العمر ، الجنس ، ضغط الدم ، سكر الدم الصائم ، الكوليسترول ، ممارسة التمارين الرياضية). علاوة على ذلك، في مرحلة التصنيف يستخدم النظام الهجين المقترح خوارزميات تصنيف مختلفة مثل (أشجار القرار،الغابات العشوائية، أقرب جيران، آلة المتجهات الداعمة) كمصنف للتنبؤ بما اذا كان المريض يعاني من أمراض القلب أم لا حيث يتم تطبيقه على قاعدة بيانات كليفلند لأمراض القلب التي تحتوي على 14 ميزة تشمل تحاليل خاصة بأمراض القلب و 303 عينة لأشخاص مصابين وغير مصابين بأمراض القلب. يتم استخدام مقايس أداء مختلفة مثل (النوعية و الحساسية و الدقة ) لقياس أداء نماذج التصنيف المقترحة المكونة من دمج خوارزمية Na?ve Bayes مع خوارزميات التصنيف المختلفة. حيث تظهر النتائج التجريبية أن من بين نماذج التصنيف الأربعة يمكن للنموذج الجامع بين ( NB & SVM RBF) أن يتنبأ بأمراض القلب بأعلى دقة تبلغ 98?. وأخيرًا ، تتم مقارنة النهج المقترح بنظامين آخرين تم تطويرهما بناءً على نهجين مختلفين في خطوة اختيار الميزة. الأول يعتمد على تقنية الخوارزمية الجينية GA) ) والثاني يستخدم تقنية تحليل المكونات الرئيسيةPCA) ) ونتيجة لذلك ، أثبتت المقارنة أن نهج الاختيار للنظام المقترح الا وهو (Na?ve Bayes) أفضل من تقنيات ( GA & PCA) من حيث دقة التنبؤ وعدد الميزات المختارة.
الملخص بالانجليزي
These days, heart disease comes to be one of the major health problems which have affected the lives of people in the whole world. Moreover, death due to heart disease is increasing day by day. So the heart disease prediction systems plays an important role in the prevention of heart problems. Where these prediction systems assist doctors in making the right decision to diagnose heart disease easily. The existing prediction systems suffering from the high dimensionality problem of selected features that increase the prediction time and decrease the performance accuracy of the prediction due to many redundant or irrelevant features. Therefore, this thesis aims to provide a solution of dimensionality problem by proposing a new mixed model for heart disease prediction based on (Na?ve Bayes method, and machine learning classifiers). In this study, we proposed a new heart disease prediction model (NB-SKDR) based on Na?ve Bayes algorithm (NB) and several machine learning techniques including Support Vector Machine, K-Nearest Neighbors, Decision Tree, and Random Forest. This prediction model consists of three main phases which include: preprocessing, feature selection, and classification. The main objective of this proposed model is to improve the performance of the prediction system and finding the best subset of features. This proposed approach uses the Na?ve Bayes technique based on Bayes theorem to select the best subset of features for the next classification phase, also to handle the high dimensionality problem by avoiding unnecessary features and select only the important ones in an attempt to improve the efficiency and accuracy of classifiers. This method is able to reduce the number of features from 13 to 6 which are (age, gender, blood pressure, fasting blood sugar, cholesterol, exercise induce engine) by determining the dependency between a set of attributes. The dependent attributes are the attributes in which an attribute depends on the other attribute in deciding the value of the class attribute. The dependency between attributes is measured by the conditional probability, which can be easily computed by Bayes Theorem. Moreover, in the classification phase, the proposed system uses different classification algorithms such as (DT Decision Tree, RF Random Forest, SVM Support Vector machine, KNN Nearest Neighbors) as a classifiers for predicting whether a patient has heart disease or not. The model is trained and evaluated using the Cleveland Heart Disease database, which contains 13 features and 303 samples. which contains 13 features and 303 samples. Different algorithms use different rules for producing different representations of knowledge. So, the selection of algorithms to build our model is based on their performance. In this work, we applied and compared several classification algorithms which are (DT, SVM, RF, and KNN) to identify the best-suited algorithm to achieve high accuracy in prediction of heart disease. After combining the Naive Bayes method with each one of these previous classifiers the performance of these combines algorithms is evaluated by different performance metrics such as (Specificity, Sensitivity, and Accuracy). Where the experimental results show that out of these four classification models, the combination between the Naive Bayes feature selection approach and SVM RBF classifier can predict heart disease with the highest accuracy of 98%. Finally, the proposed approach is compared with another two systems which developed based on two different approaches in the feature selection step. The first system, based on the Genetic Algorithm (GA) technique and the second uses the Principal Component Analysis (PCA) technique. Consequently, the comparison proved that the Naive Bayes selection approach of the proposed system is better than the GA and PCA approach in terms of prediction accuracy
رقم ISN
6299
للحصول على الرسالة كملف يرجى تزويد المكتبة برقم ISN