عنوان الإطروحه
Improving Apriori Algorithm Based on inverse strategy
تاريخ مناقشة الاطروحه
2021-08-15
اسم الطالب
يوسف علي عبدالجابر حمد
المشرف
خالد محمد عبدالرحمن بطيحه
المشرف المشارك
اعضاء لجنة المناقشة
مفلح محمد مفلح الذيابات
رضوان الدويري
الكلية
كلية الامير الحسين بن عبدالله لتكنولوجيا المعلومات
القسم
علم الحاسوب
الملخص بالعربية
لا شك في أن التنقيب عن البيانات أصبح من الأمور المؤثرة في الكثير من مجالات العمل. و قد تصدرت خوارزمية شجرة الأنماط المتكررة و الخوارزمية الاستباقية هذا المضمار. تتقدم شجرة الأنماط المتكررة على الخوارزمية الاستباقية من حيث استهلاك الوقت و الذاكرة و عليه فقد عمل الكثير من الباحثين على تطوير الخوارزميةالاستباقية، ذلك أن الاستباقية تعاني من عيب خلقي و الذي يتمثل في الزيارات المتكررة لقاعدة البيانات فضلا عن صنع الكثير من الجداول لمرشحي المجموعات المتكررة.هذا الأمر يخلق ضغطا كبيرا على وحدة المعالجة المركزية و كذلك يستهلك الكثير من مساحة الذاكرة. الكثير من إصدارات هذه الخوارزمية تم تصميمها بهدف القضاء على هذه السلبيات أو على أقل تقدير التقليل من تأثيرها السلبي.وهذا الهدف يتم تحقيقه عن طريق التقليل من زيارات قاعدة البيانات إن لم يكن إلغائها تماما و كذلك التقليل من عمل جداول كثيرة إن لم يكن إلغائها تماما. مشاركتنا في هذا المضمار كانت الخوارزمية المتطورة العكسية الاستباقية. هذه الخوارزمية تقوم بفحص الذاكرة مرة واحدة فقط و على إثر هذه الزيارة تقوم الخوارزمية بتحويل كامل قاعدة البيانات إلى مجموعة من الفراغات و الواحدات، ثم تقوم بعمل تصفية لسجلات قاعدة البيانات. هذه التصفية تقوم بحذف حوالي 90% من السجلات الأصلية الموجودة في قاعدة البيانات الأصلية. إن هذا الحذف يقوم على مفاهيم جديدة هي كالآتي: I. السجل الحقيقي II. السجل المخادع III. المجموعات المتكررة الحقيقية IV. المجموعات المتكررة المخادعة و بعد عمل التصفية المذكورة تقوم الخوارزمية بفحص قاعدة البيانات جيدا بهدف تحديد نقطة بداية البحث بعناية فائقة. لقد أظهرت الخوارزمية المتطورة العكسية الاستباقية تقدما واضحا و جليا على الخوارزمية الاستباقية الأصلية، و كذلك على خوارزمية متطورة هي خوارزمية المصفوفة حيث استهلكت الخوارزمية المتطورة العكسية الاستباقية ما لايزيد عن 1% مما استهلكته الخوارزمية الاستباقية من زمن و مساحة للذالكرة. لقد أظهرت الخوارزمية المتطورة العكسية الاستباقية فرقا هائلا بين عدد السجلات التي يقوم العمل عليها و بين عدد السجلات الحقيقي. و أخيرا وضعنا بين يدي الباحثين سؤالين لتطوير هذه الخوارزمية و ذلك عن طريق تخفيض عدد السجلات الحقيقي و زيادة الدقة في اختيار نقطة بداية البحث.
الملخص بالانجليزي
Data mining is a field from Data science and it concerns of searching in data base for the hidden information that locate behind the existing one. Knowledge Discovery in Data base (KDD) is the typical method to reach that hidden information. KDD has six steps to achieve the mission but axial step is data mining. One of the data mining branches searches for the most frequent item set(s) in a market basket in order to enhance the management decisions. Frequent Pattern tree (FPt) and Apriori are the most common algorithms in the data mining field. FPt exceeds on Apriori due fast and direct performance. Apriori suffers from birth defect which locates in the core of its work; it visits the DB lots of times and makes too many tables, that matter causes CPU overhead and a tremendous memory consuming. Many improved Apriori algorithms had been created in order to cure or at least enhance that birth defect. Improved Apriori versions tried to cancel or at least reduce the repeated visiting of memory and No. of created tables by Apriori. Our participation in that field is the Improved Inverse Apriori Algorithm IIAA. It scans DB only once then transforms the entire DB to One Null form. Then IIAA makes a filtration process which reduces the No. of the processed records sometimes over than 90%. That step is based on new revolutionary concepts that concerns of distinguishing among tricky records and frequent items from a side and real records and frequent items from another side! In fact filtration process cut down a very large amount of records that exist in the original DB. After that IIAA thinks very carefully of the point of the start and continue the mission effectively. IIAA had shown very clear exceeding on the standard Apriori and also on one of the improved Apriori versions which is Matrix. IIAA almost needs around 5% of Apriori time and memory consuming. The most powerful point is that IIAA had shown that there is a very large difference between the No. of real records and the No. of the standard records. Finally we provided questions in order to enhance IIAA. First is trying to find a method to eliminate more records while starting searching, in other words trying to make the start more accurate. Keywords: Apriori, Improved Inverse Apriori Algorithm, tricky records, tricky frequent items
رقم ISN
7312
للحصول على الرسالة كملف يرجى تزويد المكتبة برقم ISN