عنوان الإطروحه |
Offline Arabic Holistic Handwritten Word Recognition using Support Vectors Machine
|
تاريخ مناقشة الاطروحه |
2018-12-30 |
اسم الطالب |
مصباح عرسان حنيان العون
|
المشرف |
مفلح محمد مفلح الذيابات |
المشرف المشارك |
عطا الله الشطناوي
|
اعضاء لجنة المناقشة |
خالد محمد عبدالرحمن بطيحة |
محمد سعيد منصور البشير |
عدنان احمد حنيف |
|
الكلية |
كلية الامير الحسين بن عبدالله لتكنولوجيا المعلومات |
القسم |
علم الحاسوب |
الملخص بالعربية |
تنقسم طرق ادراك النصوص المكتوبة باللغة العربية الى نموذحين رئيسيين وهما نموذج الادراك بناءا على مستوى الكلمه الكامله ونموذج الادراك على مستوى الاحرف المجزئة من كلمة. حيث يدرك النموذج الثاني الكلمات بعد تجزئتها الى احرف كامل او الى اجزاء الكلمة, عملية تقسيم هذه الكلمات تتأثر بالعديد من المشاكل, كمشكلة تتداخل الاحرف او تقسيم الحرف الى عدة اجزاء مما يؤثر بشكل واضح على عملية ادراك الكلمات. بينما نموذد الادراك على مستوى الكلمة كاملة يتعامل مع الكلمات كوحدة واخدة فذلك يؤدي الى تجنب مشاكل التجزئة التي تواجه تقسيم النصوص العربية.
في هذا البحث ، تم اقتراح وتطوير نظام شامل التعرف على النصوص العربية المكتوبة بخط اليد على مستوى الكلمات كاملة دون تقسيم باستحدام كل من Local Binary Pattern (LBP) و Support Vector Machine اعتمادا على Radial Basis Function kernel ". يتكون النظام المقترح من ثلاث خطوات رئيسيه وهي مرحلة المعالجه القبليه ومرحلة استخلاص السمات واخيرا مرحلة تصنييف الكلمات. في مرحلة المعالجه القبلية يتم ازالة كل من التشويش والنقاط وادوات الترقييم وتحديد حواف الكلمه ثم تتم عملية ترقيق النص بأستخدام الاسلوب المورفولوجي, وذلك لتقليل حجم البيانات المراد معالجتها, واخيرا بهذه المرجلة يتم توحيد حجم الصور الى حجم يناسب عملية استخلاص السمات والتصنيف. وذلك لاسخراج السمات الاحصائية باستخدام طريقة LBP, ليتم تصنيف هذه السمات المستخرجة من الكلمات باستخدام الSVM RBF. تم فحص النظام المقترح على قاعدة البيانات التونسيه IFN/ENIT المحتوية على الكلمات العربية المكتوبة بخط يد, بأستخدام احجام مختلفه للصور وهي {(80*80) (100*100) (125*125) (150*150)}, بناءا على التجارب التي تمت اجرؤها تبين ان الحجم(125*125)اهو الحجم الانسب للنظام المقترح, حيث كانت دقة تعرف النظام المقترح هي 96.57% و83.02 بعده ان تم فحصه على كل من مجموعة "d"ومجموعة "e" من قاعدة البيانات المستخدمة تباعا. وتمت مقارنة نتائج النظام المقترح بأستخدام ال"LBP" مع النطام القائم على اساس منهجية ال DCT، واثبتت الدراسة ان نتائج النظام المقترح افضل من نتائج النظام القائم على اساس الDCT والذي كانت نتائجه على كل من مجموعة"d" و مجموعة "e" 75.49% و57.92% تباعا. وان النظام المقترح اسرع، وبناءا على ذلك فان هذا يحقق فعالية النظام المقترح للتعرف على الكلمات العربية المكتوبه بخط اليد. باالضافة الى ما سبق ان نتائج النظام المقترح تعتبر نتائج واعدة مقارنتا مع الانظمه الاخرى المستخدمة لادراك الكلمات العربية والمذكورة بالدراسات السابقة كالانظمة المعتمدة على HMM وANN.
|
الملخص بالانجليزي |
The recognition of Arabic cursive scripts has been, in tradition, handled based into two main paradigms namely, word-based holistic approach and segmentation-based analytical approach. The analytical approach treats the input word as a sequence of units/characters, with each individually acknowledged. It is challenging to segment cursive words and an error in the process will lead to erroneous recognition phase. The holistic approach considers the word as one unit, and a global feature vector is computed for the indivisible input word sample, after which it is used for the classification of the word in against the lexicon of words that is in store.
In this research, an Arabic holistic handwritten text recognition system based on the Local Binary Pattern and support vector machine classifier with a Radial Basis Function kernel is proposed and developed. The proposed Arabic holistic system consists of three main stages including: the preprocessing, feature extraction, and classification stages. The preprocessing stage the noise and the unwanted pixels are firstly removed as well as the text edges are extracted. Then, the text skeleton is extracted using the thinning based morphological method in order to remove the unwanted data. Afterwards, the diacritics are removed using the opening morphological operation. Finally, the text image is normalized into a proper size for feature extraction and classification process. In the feature extraction stage, the LBP texture analysis method is proposed to extract the Arabic handwritten text features as a global high-level word feature extraction method, for a holistic based classification using SVM RBF kernel classifier. The proposed Arabic holistic recognition system is tested on the version 2.0 of the IFN/ENIT database of Arabic handwritten word using different word normalization size including {(80*80) (100*100) (125*125) (150*150)}. The (125*125) word normalization size is the best size for the proposed system performance hence its achieved classification accuracy results are 96.57% and 83.02%, where it is tested on the set d and e of the IFN/ENIT database respectively. The proposed based on LBP Arabic holistic recognition system performances results using (125*125) normalized word size are validated and compared with the benchmarking based on DCT Arabic holistic recognition systems, on the version 2.0 of IFN/ENIT database in terms of classification accuracy and execution time. It is achieved classification accuracy results better than the benchmarking based on DCT holistic recognition systems achieved classification accuracy results which are 75.49% and 57.92% where it is tested on the set d and the set e of the IFN/ENIT database respectively. Furthermore, it is faster than the benchmarking system. And thus, validating the effectiveness of the suggested Arabic holistic system for recognition the handwritten words. Furthermore, it gives a promising results when it is verified with the benchmarking Arabic holistic handwritten word recognition systems developed based on different classifier such as HMM and ANN suggested in the literature
|
رقم ISN |
457 |
للحصول على الرسالة كملف يرجى تزويد المكتبة برقم ISN
|
|