Author: Ahmed, Eman Naguib Shaban./ Title: Sentiment analysis for arabic tweets in Twitter /

Search In this Thesis

العنوان

Sentiment analysis for arabic tweets in Twitter /

المؤلف

Ahmed, Eman Naguib Shaban.

هيئة الاعداد

باحث / ايمان نجيب شعبان أحمد

مشرف / سمير الدسوقي الموجي

مشرف / شريهان محمد ابو العنين

الموضوع

Internet - Social aspects. Artificial intelligence. Automatic data collection systems - 21st century.

تاريخ النشر

2017.

عدد الصفحات

117 p. :

اللغة

الإنجليزية

الدرجة

ماجستير

التخصص

Artificial Intelligence

تاريخ الإجازة

1/1/2017

مكان الإجازة

جامعة المنصورة - كلية الحاسبات والمعلومات - قسم علوم الحاسب

الفهرس

Only 14 pages are availabe for public view

from

117

from

117

Abstract

فى الآونة الاخيرة، أصبحت شبكات التواصل الاجتماعي الموضوع الاكثر انتشارا فى مجال البحث ويرجع ذلك الى كثرة عدد مستخدميها. بالإضافة الى التركيز المتصاعد مؤخرا لتحليل الشعور الاجتماعي. يعد تويتر واحد من شبكات التواصل الاجتماعي والمدونات الصغيرة التي تسمح ببث المشاركات القصيرة والتي تسمى تويتس. يلعب تويتر دور مهم فى السماح للمستخدمين باكتشاف وبحث ومشاركة المعلومات الخاصة عن العلامات التجارية والمنتجات. وتستخدم الشركات شبكات التواصل الاجتماعي للحصول على معلومات اضافية وردود الافعال عن منتجاتها وخدماتها المتاحة. تحليل المشاعر مشكلة تصنيف اساسية بين ثلاثة اقسام (إيجابي – سلبى – محايد ). العديد من الاعمال السابقة تم انجازها باللغة الانجليزية بينما القليل تم انجازه باللغات الاخرى مثل اللغة العربية. وترجع اهمية اللغة العربية الى انها يتحدث بها مئات الملايين من الناس فى اكثر من 20 دولة. يركز هذا العمل على اكتشاف طرق لزيادة الدقة فى تحليل المشاعر باللغة العربية وخاصه اللهجة المصرية من خلال تحسين خطوه ما قبل المعالجة واستخدام خصائص اللغة العربية. وتعتمد الطريقة المقترحة على اولاً: يتم اختبار مقاييس التشابه المختلفة لتحديد ايهما تزيد الدقة فى تحليل المشاعر باللغة العربية. ثانيا: يتم استخدام Machine Learning بمصنفاته المختلفة ,وقد استخدمنا مجموعه بيانات لتقيم الطريقة المقترحة ومقارنتها بالطرق السابقة. وقد تم جمع البيانات من تويتر بعمل ابليكشن عليه وسحب tweets. وتم فلتره ال tweets لنختار منها العربية فقط ومن ثم تم فلتره noise, links, emotions وغيرها. وتقطيع tweetsالى tokens والتعامل مع كل token على حدى ومقارنها بما فى المعجم باستخدام طرق التشابه المختلفة سواء كانت Edit Based Similarity او Token Based Similarity واختيار افضلهم وهى Cosine Similarity وهى نوع من انواع Token Based Similarity . وبذلك تم تحديد المشاعر للتويتس من خلال جمع ال sentiment لكل token فى tweets. واستخدمنا انواع مختلفة من Machine Learning مثل Naïve Bayes , Perceptron, Support Vector Machine classifier and SGD وذلك لتحديد المشاعر لأى تويتس جديدة. وقد تم اختبار جميعهم والوصول لأفضل النتائج باستخدام Support Vector Machine . وتم قياس العديد من performance evaluation مثلAccuracy ,Precision, Recall, F-Score . وتم التطبيق العملي وكتابة الاكواد باستخدام لغة البايثون على نظام اللينكس. وأظهرت النتائج التجريبية أن الطريقة المقترحة قد حققت دقة إجمالية قدرها 92.98٪ باستخدام LinearSVC.