Search In this Thesis
   Search In this Thesis  
العنوان
REAL TIME OUTLIER DETECTION OVER DATA STREAMS.
المؤلف
Ahmed,Hend Maher Fouad.
هيئة الاعداد
باحث / Hend Maher Fouad Ahmed
مشرف / Karam Gouda
مشرف / Diaa Salama
مشرف / Mosab Hassaan
مناقش / Ebrahim Mahmoud Elhenawy
الموضوع
Data Mining Techniques . DATA STREAMS.
عدد الصفحات
67 p;
اللغة
الإنجليزية
الدرجة
ماجستير
التخصص
Information Systems
تاريخ الإجازة
30/3/2022
مكان الإجازة
جامعة بنها - كلية الحاسبات والمعلومات - نظم المعلومات
الفهرس
Only 14 pages are availabe for public view

from 80

from 80

Abstract

إن اكتشاف القيم المتطرفة في تدفقات البيانات في الزمن الحقيقي يعتبر من اهم مهام علم تنقيب البيانات. هذه القيم المتطرفة يمكن أن تتواجد عبر تدفقات البيانات بحيث انها لا تتوافق أو تشبه في سلوكها السلوك العام لبقية البيانات، وغالبا ما تكون هذه القيم مختلفة بشكل واضح وملفت للانتباه عن بقية البيانات الموجودة معها، وهناك تطبيقات عديده لمشكلة اكتشاف القيم المتطرفة في تدفقات البيانات ومن أهم هذه التطبيقات تلك المستخدمة في كشف عمليات الاحتيال حيث يتم استخدامها في كشف الاستعمال غير الطبيعي وغير المألوف لبطاقات الائتمان او خدمات الاتصالات كما يمكن استخدامها في المجالات الطبية وتحليل الحالات المرضية من أجل ايجاد الاستجابات غير الطبيعية للعلاجات الطبية المتنوعة. وقد اقترح الباحثين العديد من طرق اكتشاف القيم المتطرفة في تدفقات البيانات، مثل اكتشاف القيم المتطرفة باستخدام خوارزميات المسافة و الكثافة و الطرق الاحصائية. وتهتم الدراسة الحالية في الكشف عن القيم المتطرفة عبر تدفقات البيانات علي اساس خوارزميات الكثافة.
في هذه الرسالة تم إقتراح تحسين لخوارزمية DILOF و هي خوارزمية حديثة تعتمد على الكثافة و قد تم ملاحظة أن المشكلة الرئيسية في DILOF هو أن طريقة تلخيص البيانات في DILOF لها العديد من العيوب مثل انها تستغرق الكثير من الوقت و طريقة اكتشاف البيانات المتطرفة غير دقيقة.
ومن خلال الدراسة الحالية في اكتشاف القيم المتطرفة عبر البيانات المتدفقة تم بناء خوارزمية جديدة تسميDILOFC والتي تستخدم طريقة جديدة لتلخيص البيانات و هذه الطريقة فعاله وسريعة و لها دقة عالية في أكتشاف البيانات المتطرفة.
قامت الباحثة بالاتي :-
1- تم تقديم تحسين لخوارزمية DILOF يسمي DILOFC حيث تم استبدال أسلوب تلخيص البيانات غير الفعالة التي استخدمتها خوارزمية DILOF بطريقة تلخيص فعالة جديدة تسمى sum_m_center و التى تعتمد على خورازمية جديدة تسمى m-center .
2- يتم تلخيص البيانات عن طريق حذف بعض البيانات المختارة . و تم حذف البيانات فى sum_m_center باستخدام
طريقيتين مختلفتين. وتم عمل المقارنة العملية بين هاتين الطريقتين.
3- تم عمل مقارنة عملية بين DILOF و DILOFC و اظهرت النتائج ان DILOFC يتفوق على المنافس الحديث DILOF من حيث إجمالي الوقت المستغرق لاكتشاف القيم المتطرفة و دقة اكتشاف القيم المتطرفة.
وقد اشتملت هذه الرسالة على خمسة فصول كالتالي:
الفصل الأول: يشمل هذا الفصل على مقدمة مختصرة عن موضوع و هدف الرسالة مع عرض لمحتويات الرسالة.
الفصل الثاني: يقدم هذا الفصل لمحة مختصرة حول مشكلة اكتشاف القيم المتطرفة عبر تدفقات البيانات في الزمن الحقيقي، كما يضم بعض من الدراسات السابقه .
الفصل الثالث: يعرض هذا الفصل شرح مبسط حول الخوارزميات المستجدة في الرسالة كما انه يشمل طرق تحسينها
الفصل الرابع: في هذا الفصل تم عرض المقارنة العملية للدراسة الحالية.
الفصل الخامس: تم عرض ملخص للدراسة الحالية و ما سوف يتم إنجازه في المستقبل القريب ان شاء الله
وفى نهاية الرسالة يوجد قائمة بالمراجع