عنوان الإطروحه
An Enhanced Classification Technique for Detecting Spam in Arabic Tweets
تاريخ مناقشة الاطروحه
2017-05-14
اسم الطالب
خلود وليد عيد عليمات
المشرف
خالد محمد عبدالرحمن بطيحة
المشرف المشارك
اعضاء لجنة المناقشة
اكرم عارف نايف حمارشة
مفلح محمد مفلح الذيابات
علي الوناح
الكلية
كلية الامير الحسين بن عبدالله لتكنولوجيا المعلومات
القسم
علم الحاسوب
الملخص بالعربية
هدفت هذه الدراسة إقتراح آلية لاكتشاف التغريدات غير المرغوب بها. في هذه الدراسة عملنا على إقتراح طريقة ديناميكية لجمع تغريدات حقيقية من حساب تويتر حقيقي باستخدام تطبيق التويتر. يعمل النظام في الخطوة الاولى كتل للتغريدات المرغوب بها وغير المرغوب بها وفقا لميزات محددة, هذه المرحلة تسمح لنا بإنشاء أول قاعدة بيانات تسمى مجموعة بيانات التدريب, المرحلة الثانية مخصصة للفحص باستخدام تصنيف النظام على التغريدات وفقا لتشابه النص باستخدام خوارزمية ال cosine, في النهاية نزود بلائحة للتغريدات الغير مرغوب بها والتغريدات المرغوب بها والسبب في تصنيفها كمرغوب بها او لا. ركزت الدراسة على التغريدات المكتوبة باللغة العربية وال hashtags , وتهدف لبناء مجتمعات كبيرة من التغريدات لاكتشاف ال hashtag الغيرمرغوب بها في التغريدات العربية باستخدام خوارزمية هجينة بين خوارزمية ال cosine لمقارنة النصوص والخوارزمية الجذعية لعملية تطبيع النص.
الملخص بالانجليزي
The purpose of this study is to improvement a mechanism for detecting tweet spam. In this study, we have produced a dynamic method for collecting real tweets from real twitter accounts using twitter API. The system in the first step had made clustering of the tweets as spam or not spam according to is specific features, this phase allows us to create first dataset which called the training dataset. The second phase for the testing using system classifier of tweets according to text similarity using cosine algorithm. finally we produce the list of spam tweets and not spam tweets and the reason of classification as spam or not. because the evaluation of Twitter accounts and increase of Arabic tweets in few years, the researchers are portraying the twitter as one of the most important platforms to be used to apply detection techniques. Our study focused on Arabic tweets and hashtags and it aimed for creating a larg scale of tweets collection for detecting spam hashtag on Arabic tweets using a integrated algorithm between cosine for comparing text, and stemming algorithm for text normalization process
رقم ISN
40
للحصول على الرسالة كملف يرجى تزويد المكتبة برقم ISN