Search In this Thesis
   Search In this Thesis  
العنوان
Acoustic Scene Classification using Deep Learning Techniques /
المؤلف
Hasan, Noha Wahdan Mahmoud Mahmoud.
هيئة الاعداد
باحث / نهى وهدان محمود محمود حسن
مشرف / حازم محمود عباس أبو سمرة
مشرف / محمود إبراهيم خليل مسعد
مشرف / علي صالح سعودي
تاريخ النشر
2022.
عدد الصفحات
207p. :
اللغة
الإنجليزية
الدرجة
ماجستير
التخصص
هندسة النظم والتحكم
تاريخ الإجازة
1/1/2022
مكان الإجازة
جامعة عين شمس - كلية الهندسة - قسم هندسة الحاسبات والنظم
الفهرس
Only 14 pages are availabe for public view

Abstract

إن تمكين الأجهزة من فهم بيئتها من خلال تحليل الأصوات المحيطة هو الهدف الرئيسي في أبحاث استماع الآلات. تصنيف المشهد الصوتي يعنى إعطاء تسمية دلالية إلى المقطع الصوتي لتحديد البيئة التي تم إنتاجه فيها، أي تصنيف البيئات المحيطة من خلال الأصوات التي تنتجها. يمكن للعديد من التطبيقات الاستفادة من تصنيف المشهد الصوتي بما في ذك تصميم خدمات مدركة للسياق، وأنظمة الملاحة الآلية، وأجهزة ذكية يمكن ارتداؤها.
لقد تم استخدام الشبكات العصبية التلافيفية على نطاق واسع بنجاح ملحوظ في مهمة تصنيف المشهد الصوتي، ومع ذلك فإن أداء هذه الشبكات يعتمد بشكل كبير على بنياتها، ولذا عادة ما يتطلب تصميم الشبكات العصبية التلافيفية الكثير من الجهد والخبرة لتكون مناسبة للمشكلة التي يتم التحقيق فيها. ما يزيد الأمر تعقيدا أن تلك الكفاءة المطلوبة قد لا تكون متوفرة للمستخدمين الذين ليس لديهم خبرة واسعة في الشبكات العصبية التلافيفية والذين يرغبون في تصميم شبكات تلافيفية مناسبة لبيانات تصنيف المشهد الصوتي الخاصة بهم.
في هذه الأطروحة نحن نقترح طريقتان مختلفتان تهدفان إلى إيجاد بنيات شبكات عصبية تلافيفية محسنة خصيصا لبيانات تصنيف المشهد الصوتي. الأساليب المقترحة تستفيد من خصائص الشبكات العصبية التلافيفية الحديثة في مجال تصنيف المشهد الصوتي.
تستخدم الطريقة الأولى نهج البحث المعماري التفاضلي لتصميم بنيات الشبكات العصبية التلافيفية لبيانات تصنيف المشهد الصوتي. هذه الطريقة هي في الأساس تحسين على طريقة موجودة تسمىDARTS ، وتستخدم لتصميم بنيات الشبكة العصبية لتصنيف الصور خلال وقت بحث محدود. في هذا العمل، نتحرى أولاً مدى كفاءة الطريقة المذكورة لتصميم شبكات عصبية تلافيفية لمهمة تصنيف المشهد الصوتي. ثم نقترح نسخة محسنة منها تدعى E-DARTS لتحسين كفاءة الطريقة المذكورة وقدرتها على إيجاد شبكات محسنة خصيصا لتصنيف المشهد الصوتي. تم اختبار هذه الطريقة على قاعدة بيانات معيارية وأثمرت تجاربنا عن كفاءة النسخة المحسنة المقترحة بدقة تصنيف 14% أعلى من النسخة الأصلية.
الطريقة الثانية هي خوارزمية تصميم معمارية تلقائية جديدة للشبكات العصبية التلافيفية باستخدام النهج الجيني لمعالجة مشكلة تصنيف المشهد الصوتي بشكل فعال. هذه أول خوارزمية جينية تستخدم عدد الانقسامات الترددية كمعامل يتم تحسينه في عملية التطور. لذلك يمكن استخدام هذه الخوارزمية لإيجاد أفضل عدد من تقسيمات أبعاد التردد لالتقاط السمات المميزة بشكل أفضل لعينات تصنيف المشهد الصوتي. تم اختبار هذه الطريقة على ثلاثة من قواعد البيانات المعيارية وحققت نتائج مثمرة توضح كفاءة الطريقة المقترحة.
تنقسم الرسالة إلى ستة فصول كما هو موضح أدناه:
الفصل الأول: يمثل فصل المقدمة ويوضح الدافع والإسهامات المقدمة من هذه الأطروحة.
الفصل الثاني: يستعرض الأساليب الرئيسية المتعلقة بالمعرفة الأساسية لفهم الخوارزميات المطروحة.
الفصل الثالث: يلخص الأجزاء الرئيسية لأنظمة معالجة الصوتيات، كما نستعرض قواعد البيانات المتاحة حاليا لأبحاث تصنيف المشهد الصوتي، بالإضافة إلى تلخيص بعض الجهود السابقة لتحسين كفاءة تصنيف المشهد الصوتي باستخدام تقنيات التعلم العميق.
الفصل الرابع: يقدم الطريقة الأولى لتصميم بنيات الشبكات العصبية التلافيفية لبيانات تصنيف المشهد الصوتي باستخدام نهج البحث المعماري التفاضلي. في هذا الفصل نستعرض الطريقة الأولى بالتفصيل، بالإضافة إلى تفاصيل التجارب العملية بما في ذلك تفاصيل قاعدة البيانات المستخدمة واستعراض ومناقشة نتائج الدراسة.
لفصل الخامس: يستعرض هذا الفصل تفاصيل الطريقة الثانية لتصميم بنيات الشبكات العصبية التلافيفية لبيانات تصنيف المشهد الصوتي باستخدام نهج البحث الجيني. في هذا الفصل نناقش أهم إسهامات هذه الطريقة، بالإضافة إلى تفاصيل التجارب العملية وقواعد البيانات المستخدمة ومناقشة نتائج الدراسة مقارنة بأحدث الدراسات المقدمة في مجال تصنيف المشهد الصوتي.
الفصل السادس: يقدم الاستنتاجات الرئيسية التي تم استخلاصها من هذا البحث، كما يقترح أيضًا إرشادات بحثية مستقبلية يمكن اتخاذها لتحسين واستكمال البحث الذي تم اجراؤه في هذه الأطروحة.