Search In this Thesis
   Search In this Thesis  
العنوان
Big data analytics systems in cloud computing /
المؤلف
Ashri, Sarria El-Sayed Ali.
هيئة الاعداد
باحث / سريه السيد علي عشري
مشرف / إيمان محمد الديداموني عبده
مشرف / مصطفى محمود محمد الجيار
مناقش / محمد محفوظ الموجي
مناقش / عماد محمد عبدالرحمن
الموضوع
Artificial intelligence. Computational intelligence. Big data. Machine learning.
تاريخ النشر
2022.
عدد الصفحات
online resource (218 pages) :
اللغة
الإنجليزية
الدرجة
ماجستير
التخصص
تكنولوجيا التعليم
تاريخ الإجازة
1/1/2022
مكان الإجازة
جامعة المنصورة - كلية الحاسبات والمعلومات - قسم تكنولوجيا المعلومات
الفهرس
Only 14 pages are availabe for public view

from 227

from 227

Abstract

أدى الاستخدام المتزايد للتكنولوجيا الرقمية في عالمنا المعاصر إلى توليد البيانات بطريقة كبيرة وسريعة. وعادة ما تكون هذه البيانات غير متجانسة بسبب تعدد مصادرها. في الوقت نفسه، يتزايد الطلب على الاستفادة من تلك البيانات واستخراج رؤى مفيدة تخدم كلاً من الأفراد والمؤسسات. هناك حاجة ملحة لإيجاد نهج لمعالجة تلك البيانات، حيث إن قاعدة البيانات العادية أو أدوات الإحصاء لم يعد بإمكانها إدارتها. لذلك، هناك قوى دافعة للبحث عن التكنولوجيا التي تلبي متطلبات معالجة هذا الكم الهائل من البيانات، والتي لها خصائص مثل السرعة والصدق والتنوع. لذا فإن التكنولوجيا التي تمكننا من معالجة تلك البيانات واستخراج القيمة منها يجب أن تدعم الفشل الجزئي واسترجاع البيانات، واستعادة المكونات والاتساق، وأن تكون قابلة للتطوير. الرعاية الصحية هي أحد مصادر البيانات الضخمة وأحد المجالات الساخنة في الوقت الحالي. توفر سجلات المرضى وبيانات مطالبات التأمين وإدخال المرضى وبيانات التجارب السريرية كميات هائلة من البيانات غير المتجانسة. تمثل البيانات غير المنظمة أو شبه المهيكلة حوالي 80٪ منها. وهذا يتطلب تغيير المنظور من الاستراتيجيات التقليدية في مناهج البيانات الضخمة. في مجال الرعاية الصحية، يتعاون علماء البيانات والباحثون والأكاديميون لاستخراج رؤى من البيانات لإبلاغ وتوجيه القرارات. على مدى العقود الأخيرة، كانت أمراض القلب هي السبب الرئيسي للوفاة في جميع أنحاء العالم، لذا فإن التعرف المبكر على المرض يمكن أن يقلل من معدل الوفيات. في بيئة الحوسبة السحابية، يمكّننا الجمع بين البيانات الضخمة والتعلم الآلي من بناء النموذج، وتناسب النموذج، والتحقق من صحة النموذج للتنبؤ بوجود المرض واتخاذ القرار. تقترح هذه الأطروحة أربعة أنظمة للتحليلات التنبؤية بناءً على الذكاء الاصطناعي / التعلم الآلي على بيانات أمراض القلب ونفقات التأمين على الرعاية الصحية. يتم تقديم المقارنة بين تلك الأنظمة بناءً على مجموعة من مقاييس التقييم لتحديد النظام الذي يظهر أفضل أداء. تستخدم الأنظمة الأربعة البيانات التاريخية لثلاثة أنواع من أمراض القلب وهي أمراض القلب التاجية (CHD) وأمراض القلب والأوعية الدموية (CVD) وفشل القلب (HF) بالإضافة إلى نفقات التأمين الطبي (MIE) التي لها سمات شخصية تؤثر على أمراض القلب. استخدم النظام الأول ثماني خوارزميات انحدار لبناء خطوط أنابيب تنبؤية من خلال التقنيات الناشئة AutoAI. تم بناء النظام الثاني للتنبؤ بفشل القلب من مثيل Watson ML (WML) وApache Spark وPython service. في النظام الثالث، استخدمنا TensorFlow وCore ML وPanda DataFrame للتنبؤ بأمراض القلب التاجية في مجموعة بيانات دراسة فرامنغهام للقلب (Framingham، ماساتشوستس، الولايات المتحدة الأمريكية). تم إنشاء تطبيق للتنبؤ بأمراض القلب والأوعية الدموية (CVD) في النظام الرابع باستخدام scikit-Learn وAI Lifecycle وPanda DataFrame. في إطار الدراسة المقارنة، تفوق النظام الرابع على أقرانه من الأنظمة التي قدمتها هذه الأطروحة. كما تفوق أيضاً النظام الرابع على الأنظمة الأخرى التي قدمتها الدراسات السابقة ذات الصلة. محتوى الرسالة: تقع الرسالة في تسع فصول كالتالي. الفصل الاول: يتضمن هذا الفصل مقدمة للرسالة وأهم الدوافع والاهداف التي تم بُناءً عليها تقديم هذه الرسالة ومدى المساهمات التي يمكن أن تقدمها. الفصل الثاني: يَهدف إلى تسليط الضوء على معرفتنا الحالية بالجهود البحثية القائمة على البيانات الضخمة والتي تخدم التشخيص المبكر لأمراض القلب باستخدام الحوسبة السحابية والذكاء الاصطناعي. ويرجع التركيز على هاتين الطريقتين إلى دورهما الملحوظ في سياق أمراض القلب الذي يشجع بالتالي على استخدامها في بناء النظام المقترح. الفصل الثالث: يَعرض مقدمة موجزة عن العمليات الحاسوبية الرئيسية التي يمكن استخدامها للتحليلات التنبؤية للبيانات الطبية بناءً على الإطار المقترح: الذكاء الاصطناعي / التعلم الآلي / خوارزميات التعلم الآلي الخاضعة للإشراف. الفصل الرابع: النظام الأول في ظل هذا النظام، تم بناء ثمانية خطوط أنابيب تنبؤية من خلال خوارزميات الانحدار Decision Tree Regressor، وExtra Trees Regressor، وGradient Boosting Regressor، وLGBM Regressor، وLinear Regressor، وRandom Forest Regressor، وRidge، وXGB Regressor. تم تدريب واختبار هذه النماذج باستخدام مجموعة بيانات نفقات التأمين الطبي الشخصي (MIE) للتنبؤ بنفقات التأمين ولتوضيح تأثير خصائص التدخين ومؤشر كتلة الجسم وضغط الدم والنشاط البدني وغيرها على المبالغ التي يتكبدها الشخص في نفقات التأمين، على الرغم من أنه يستطيع تجنبها من خلال التحكم في سلوكه اليومي. بناءً على تحديد الجذر التربيعي للخطأ (RMSE) كمقياس محسن في تقييم النماذج الثمانية، تفوقت خوارزمية التدرج المعزز للانحدار على أقرانها. الفصل الخامس: النظام الثاني. يستهدف إنشاء هذا النظام التنبؤ بفشل القلب باستخدام مثيل لخدمة Watson ML (WML) وApache Spark وPython. في هذا النظام، تم اختيار نوع التنبؤ ””تصنيف متعدد الفئات”” لاحتواء عمود التنبؤ على فئات مميزة متعددة. لضبط النظام، استخدمنا ست مصنفات لبناء مسارات تعليمية متعددة للتنبؤ بفشل القلب. بعد ضبط وتقييم أداء جميع النماذج، واستنادًا إلى اختيار الدقة كمقياس محسن، تفوق مصنف شجرة التدرج المعزز على الكل بنسبة 86.8٪. تم نشر هذا النموذج كخدمة ويب بواسطة WML حتى نتمكن من اختبار القيمة التنبؤية بفشل القلب بناءً على إدخال بيانات لحالات جديدة. الفصل السادس: النظام الثالث. يقوم النظام بتنبؤ أمراض القلب التاجية في مجموعة بيانات دراسة فبرمنغهام للقلب (Framingham، ماساتشوستس، الولايات المتحدة الأمريكية). استخدمنا لبناء هذا النظام TensorFlow وCore ML وPanda DataFrame. أوضحت تحليلات البيانات الاستكشافية عدم توازن مجموعة البيانات. لحل هذه المشكلة، استخدمنا ثلاث تقنيات لإعادة تشكيل مجموعة البيانات وهم: أسلوب أخذ العينات الناقص، وتقنية أخذ العينات الزائدة (SMOTE)، وتقنية أخذ العينات المختلطة. مع الحفاظ على النسخة الأساسية من مجموعة البيانات بعد خضوعها للمعالجة الأولية، أصبح لدينا الآن أربع نسخ لمجموعة البيانات. تم تطبيق خوارزمية الغابات العشوائية بموجب هذا النظام على مجموعات البيانات الأربع. استنادًا إلى نتائج مقاييس التقييم التي تم تطبيقها، حصلت Random Forest بتقنية أقل من العينات على أعلى التصنيفات في الحساسية وF-Measure وAUC بنسبة 91٪ و88٪ و96٪ على التوالي. بينما سجل نموذج Random Forest بتقنية Hybrid أعلى درجات في الدقة وبنسبة 89٪. الفصل السابع: النظام الرابع. باستخدام Scikit-Learn وAI Lifecycle وPanda DataFrame، تم إنشاء تطبيق للتنبؤ بأمراض القلب والأوعية الدموية (CVD). استخدمنا الانحدار اللوجستي (LR)، آلات المتجهات الداعمة (SVM)، K-Nearest Neighbours (KNN)، شجرة القرار (DT)، ومصنف الغابة العشوائية (RF) منفردًا. كما تم تطبيق خوارزمية جينية (SGA) للبحث عن أفضل الميزات المختارة، بعد ذلك التجميع المطبق تحت تقنية التصويت الناعمة (ESVT) على الجميع. استخدمنا Cleveland Dataset (جامعة كاليفورنيا، ايرفين، كاليفورنيا، الولايات المتحدة الأمريكية) لتدريب وتقييم النماذج المشاركة من خلال هذا النظام. أظهر التجميع في ظل تقنية التصويت الناعم كفاءته مقارنة بنتائج تقييم الخوارزميات بشكل فردي. حقق ESVT أعلى الدرجات في الدقة والحساسية والدقة ومقياس F وAUC (المنطقة الواقعة تحت منحنى ROC) بنسبة 95٪، 92٪، 100٪، 96٪، 99٪ على التوالي. لاختبار القيمة التنبؤية للنظام المعتمد ESVT، تم استخدام نظام دعم القرار (DSS) لتشخيص حالة أمراض القلب بفعالية وكفاءة. من خلال الدراسات المقارنة لخوارزميات التصنيف برع النظام ESVT على باقي الأنظمة المقترحة في تلك الأطروحة، ولذلك أُعتمد كنظام للتنبؤ في أمراض القلب. وبمقارنته أيضاً بنتائج الأنظمة المطروحة من خلال الدراسات السابقة ذات العلاقة فقد تفوق عليهم أيضاً. الفصل الثامن: من خلال دراسة مقارنة بين أنظمة التصنيف التي اقترحتها هذه الرسالة وبناءً على الدقة كمقياس محسّن، تفوق النظام الرابع ””التجميع في ظل أسلوب التصويت الناعم (EUSVT)”” على الجميع. ولهذا أوصت هذه الرسالة بنظام EUSVT كنظام تصنيف وخاصةً في مجال أمراض القلب. كما تفوق أيضاً نظام EUSVT على أقرانه من الأنظمة التي نوقشت في الدراسة ذات الصلة. الفصل التاسع: يتضمن الاستنتاجات والتوصيات المستخلصة من هذه الرسالة وأهم الطرق التي يمكن استخدامها لاحقًا لتحسين أداء الأنظمة الموصي بها في تلك الرسالة.