Offline Arabic Holistic Handwritten Word Recognition using Support Vectors Machine

تنقسم طرق ادراك النصوص المكتوبة باللغة العربية الى نموذحين رئيسيين وهما نموذج الادراك بناءا على مستوى الكلمه الكامله ونموذج الادراك على مستوى الاحرف المجزئة من كلمة. حيث يدرك النموذج الثاني الكلمات بعد تجزئتها الى احرف كامل او الى اجزاء الكلمة, عملية تقسيم هذه الكلمات تتأثر بالعديد من المشاكل, كمشكلة تتداخل الاحرف او تقسيم الحرف الى عدة اجزاء مما يؤثر بشكل واضح على عملية ادراك الكلمات. بينما نموذد الادراك على مستوى الكلمة كاملة يتعامل مع الكلمات كوحدة واخدة فذلك يؤدي الى تجنب مشاكل التجزئة التي تواجه تقسيم النصوص العربية. في هذا البحث ، تم اقتراح وتطوير نظام شامل التعرف على النصوص العربية المكتوبة بخط اليد على مستوى الكلمات كاملة دون تقسيم باستحدام كل من Local Binary Pattern (LBP) و Support Vector Machine اعتمادا على Radial Basis Function kernel ". يتكون النظام المقترح من ثلاث خطوات رئيسيه وهي مرحلة المعالجه القبليه ومرحلة استخلاص السمات واخيرا مرحلة تصنييف الكلمات. في مرحلة المعالجه القبلية يتم ازالة كل من التشويش والنقاط وادوات الترقييم وتحديد حواف الكلمه ثم تتم عملية ترقيق النص بأستخدام الاسلوب المورفولوجي, وذلك لتقليل حجم البيانات المراد معالجتها, واخيرا بهذه المرجلة يتم توحيد حجم الصور الى حجم يناسب عملية استخلاص السمات والتصنيف. وذلك لاسخراج السمات الاحصائية باستخدام طريقة LBP, ليتم تصنيف هذه السمات المستخرجة من الكلمات باستخدام الSVM RBF. تم فحص النظام المقترح على قاعدة البيانات التونسيه IFN/ENIT المحتوية على الكلمات العربية المكتوبة بخط يد, بأستخدام احجام مختلفه للصور وهي {(80*80) (100*100) (125*125) (150*150)}, بناءا على التجارب التي تمت اجرؤها تبين ان الحجم(125*125)اهو الحجم الانسب للنظام المقترح, حيث كانت دقة تعرف النظام المقترح هي 96.57% و83.02 بعده ان تم فحصه على كل من مجموعة "d"ومجموعة "e" من قاعدة البيانات المستخدمة تباعا. وتمت مقارنة نتائج النظام المقترح بأستخدام ال"LBP" مع النطام القائم على اساس منهجية ال DCT، واثبتت الدراسة ان نتائج النظام المقترح افضل من نتائج النظام القائم على اساس الDCT والذي كانت نتائجه على كل من مجموعة"d" و مجموعة "e" 75.49% و57.92% تباعا. وان النظام المقترح اسرع، وبناءا على ذلك فان هذا يحقق فعالية النظام المقترح للتعرف على الكلمات العربية المكتوبه بخط اليد. باالضافة الى ما سبق ان نتائج النظام المقترح تعتبر نتائج واعدة مقارنتا مع الانظمه الاخرى المستخدمة لادراك الكلمات العربية والمذكورة بالدراسات السابقة كالانظمة المعتمدة على HMM وANN.