Author: Khalil, Heba Mohammed./ Title: Enhancing arabic text retrieval usingsemantic web techniques /

Search In this Thesis

العنوان

Enhancing arabic text retrieval usingsemantic web techniques /

المؤلف

Khalil, Heba Mohammed.

هيئة الاعداد

باحث / هبه محمد خليل

مشرف / طارق احمد الششتاوى

مشرف / اسلام احمد عامر

مناقش / هاله حلمى زايد

مناقش / ياسر فؤاد محمود

الموضوع

computer science.

تاريخ النشر

2016.

عدد الصفحات

97 p. :

اللغة

الإنجليزية

الدرجة

ماجستير

التخصص

Computer Science Applications

تاريخ الإجازة

1/9/2016

مكان الإجازة

جامعة بنها - كلية الحاسبات والمعلومات - علوم الحاسب

الفهرس

Only 14 pages are availabe for public view

from

Abstract

تعتمد معظم محركات البحث الحالية على التشابه اللفظى بين الاستعلام و ما تحتوية النصوص من كلمات , الا ان ذلك لا يحقق فى معظم الاحوال ما كان يقصده المستخدم عند كتابة الاستعلام. ومن هنا جاءت اهمية البحث الدلالى عن النصوص و ظهرت محركات البحث الدلالية . و يهتم هذا البحث بفهم ما يقصده المستخدم عن طريق اضافة تعبيرات اضافية للاستعلام الاصلى , و تعتمد فكرة البحث على استخدام الويكبيديا العربية كمصدر للمعلومات الدلالية و اضافة طبقة جديده تقوم بتحليل الاستعلام و استخراج الكيانات المشهورة مثل اسماء الاعلام , البلاد و المدن , الاحداث الهامة ..... الخ.
ثم يقوم النظام المقترح باستخراج تعريف كل كيان من الويكبيديا و ايجاد المفاهيم المشتركة لهذه التعريفات و اضافتها الى الاستعلام الاصلى.و تعتمد معظم الابحاث فى هذا المجال على استخدام قواميس جاهزة تضم المرادفات و التطبيقات الدلالية و مجموعات الكلمات. الا ان توافر مثل هذه المصادر يعتبر من المشاكل التى تواجه اللغات قليلة المصادر مثل اللغة العربية.كما انه يلزم التحديث المستمر لهذة القواميس و التصنيفات. كما انها غالبا ما تكون متخصصة فى مجال معين , لذلك استخدمنا فى هذا البحث الويكبيديا كمصدر مفتوح للمعرفة يتم تحديثة باستمرار من قبل الاف المستخدمين حول العالم.
و لتنفيذ البحث تم انشاء خوارزم يقوم باستخراج الكيانات المشهورة بتحليل الاستعلام و البحث فى الويكبيديا العربية, ثم ينتقل النظام المقترح الى استخراج الفقرة الاولى لصفحة الكيان لاستخراج التعريف, و تم الاستعانة ببرنامج لاستخراج التعبيرات المفتاحية و التى تمثل المفاهيم الاساسية للكيان. ثم يقوم النظام المقترح بتحديد المفاهيم المشتركة لكل الكيانات التى تم التعرف عليها و تزويد ماكينة البحث بها بالاضافة الى الاستعلام الاصلى.و تم اجراء تجربتين التجربة الاولى وهى تقييم استخراج الكيانات من النص العربى. و الثانية هى تقييم نتائج النظام المقترح النهائية.و قد اظهرت الاختبارات ان النظام المقترح يعمل بكفاءة وحقق نتائج افضل مقارنة بالابحاث السابقة فى هذا المجال حيث كانت 84.2% = f-measure و ايضا Recall=85.3% و Precision=83.5% .و تنقسم الرساله البحثية الى خمسة فصول بحثية على النحو التالى:الفصل الاول : يتضمن هذا الفصل مقدمة عن الرسالة. كما انه يتضمن فكره عامة عن نظام الاسترجاع العربى المقترح و يقوم بعرض مميزاته. يوضح هذا الفصل ايضا اهمية الويكبيديا العربية فى هذا المجال و الاسباب التى ادت الى استخدمها كمصدر للمعلومات. كما يقوم بعرض المشاكل التى تواجه انظمة استرجاع المعلومات. و يعد اهم ما توصلنا اليه فى هذا الفصل هو تعريف المشكلة البحثية و اهداف الرسالة و اهمية الويكبيدا كمصدر للمعلومات.الفصل الثانى: يتضمن هذا الفصل مناقشة الاعمال السابقة للرسالة. و قد تم تقسيم الفصل الى جزأين : والجزء الخاص بعرض الاعمال السابقة لاستخدام الويكبيديا فى استخراج الكيانات من النصوص اللغوية و جزء اخر خاص بعرض الاعمال السابقة فى الطرق المستخدمة لامتداد الاستعلام لتحسين نتائج محرك البحث. و يعد اهم ما توصلنا الية فى هذا الفصل هو عرض الطرق المستخدمة و النتائج للابحاث السابقة لحل مشكلة تحسين البحث. و ايضا يتضمن مناقشة عيوب كل طريقة من الطرق السابقة. و اختلاف طريقة بحث الرسالة عن الطرق السابقة.الفصل الثالث: يتضمن هذا الفصل مناقشة الادوات الموجودة والتى تم الاستعانة بها لتنفيذ مراحل النظام المقترح. وشرح كل طريقة من الطرق المستخدمة بالتفصيل و اهميتها و اسباب استخدامها. و يعد اهم ما توصلنا الية فى هذا الفصل هو شرح مفصل لطريقة استخراج التعبيراتالمفتاحية من النص العربى. شرح لكيفية تحديد التشابه للنصوص اللغوية و طرق تقطيع النصوص اللغوية. ايضا يعرض الاجزاء الاساسية لصفحات الويكبيديا و كيفية استخراج البيانات منها. الفصل الرابع : يشمل هذا الفصل المراحل الاساسية للنظام المقترح و التى تنقسم الى جزأين: جزأ خاص بتحديد الكيانات من الاستعلام الاصلى و جزء خاص باستنتاج التعبيرات لامتداد الاستعلام . و يتم شرح كل مرحلة من هذه المراحل الاساسية بالتفصيل. و يعد اهم ما توصلنا اليه فى هذا النظام هو شرح كلا من : كيفية معالجة النصوص العربية و تجهيزها للاستخدام. و يقدم خوارزم مقترح لتحديد الكيانات من النص العربى باستخدام الويكبيديا العربية و يوضح ايضا كيفيه استخراج تعريفات الكيانات المستخرجه من الويكبيديا التى تمد الاستعلام الاصلى بالتعبيرات الاضافية التى تساعد فى تحسين البحث. لينتج من كل هذه المراحل استعلام جديد يساعد فى تحسين البحث.
الفصل الخامس: يتضمن هذا الفصل التجارب التى تم تنفيذها على النظام المقترح و التى تشمل: التجربة الاولى لتقييم الطريقة المقدمة لاستخراج الكيانات من النص العربى و ايضا التجربة الثانية التى تمثل تقييم النظام المقترح. و قد اثبتت النتائج ان النظام المقترح قد ساهم فى تحسين نتائج الاستعلام مقارنة مع نتائج الابحاث السابقة. قدم الفصل خطوات للتجارب المستخدمه و البيانات المستخدمة فى التقييم و طرق تقييم كل طريقة وتمت مقارنة النتائج المستخرجة مع النتائج الاخرى التى اثبتت فاعلية وجودة النظام المقترح.