Prof. M. Adeeb Ghonaimy( adeebghonaimy@hotmail.com - )
Web evolution. Deep Web. Semantic Web. Wisdom Web. Precisiated Natural Language
This paper gives an overview of Web intelligence which will enable the current Web to reach the Wisdom level by containing Distributed, Integrated, and Active knowledge. In this case it will be capable of performing tasks like problem solving and question-answering. In addition, it will be capable of processing and understanding natural languages. Web intelligence draws results from a number of disciplines like: Artificial intelligence, Information technology. Mathematics and Physics, Psychology and Linguistics. The paper covers the following topics: Web evolution and architecture-Topics related to Web intelligence-The Deep Web-Semantic computing and the Semantic Web-The Wisdom Web- Precisiated Natural Language.This paper gives an overview of Web intelligence which will enable the current Web to reach the Wisdom level by containing Distributed, Integrated, and Active knowledge. In this case it will be capable of performing tasks like problem solving and question-answering. In addition, it will be capable of processing and understanding natural languages. Web intelligence draws results from a number of disciplines like: Artificial intelligence, Information technology. Mathematics and Physics, Psychology and Linguistics. The paper covers the following topics: Web evolution and architecture-Topics related to Web intelligence-The Deep Web-Semantic computing and the Semantic Web-The Wisdom Web- Precisiated Natural Language.
Correctness, Strength and Similarity Evaluation of Stemming Algorithms for Arabic /
تخصص البحث : Language Analysis and Comprehension
هندسة اللغة:
تاريخ تقديم البحث 19/01/2014
تاريخ قبول البحث 19/01/2014
عدد صفحات البحث 7
Daoud Daoud( d.daoud@psut.edu.jo - )
Christian Boitet( Christian.boitet@imag.fr - )
Arabic Stemmer, Direct Evaluation, Information retrieval, Stemmer Correctness, Stemmer strength, Inter-stemmer similarity
In this paper, we present a comprehensive evaluation of four Arabic stemmers, based on metrics for correctness, strength and similarity. Two data sets were used in this study. For correctness evaluation, we used a list of 8697 Arabic words grouped into 1606 conceptual classes. For similarity and strength evaluation, we used a list of 72,000 unique Arabic words. Conclusions about correctness, strength and similarity of the four Arabic stemming algorithms are reported.
Lexical and Morphological Statistics of an Arabic POS-Tagged Corpus /
تخصص البحث : NLP for Information Retrieval
هندسة اللغة:
تاريخ تقديم البحث 19/01/2014
تاريخ قبول البحث 19/01/2014
عدد صفحات البحث 18
Hamdy Mubarak( hamdys@sakhr.com - )
Kareem Shaban( kshaban@sakhr.com - )
Forat Adel( forat@sakhr.com - )
Corpus Statistics, Arabic NLP, POS Tagging, Diacritization, MSA
Part-Of-Speech (POS) tagging is a basic component necessary for many Natural Language Processing (NLP) applications. Building a manually tagged corpus helps in studying key statistics of a given language which form the basis for POS tagging systems. In this paper, we present both lexical and morphological statistics for Arabic that are derived from the Sakhr’s POS manually tagged corpus. It covers text (7 M words) from a wide range of Arab countries in different domains over the years 2002-2004. The derived statistics are used as heuristics and preferential rules within a statistical Diacritizer which achieves a high accuracy in stem diacritization and POS disambiguation. Statistics includes information related to sentence and word lengths, punctuation marks, distribution of Arabic letters and diacritics, in addition to lexical and morphological information for POS distribution, stems, prefixes, suffixes, roots, morphological patterns, and morphosyntactic features like gender, number, person, and case ending. Modern Standard Arabic (MSA) is studied by analyzing the coverage of stems, roots, morphological patterns, prefixes, and suffixes. Comparisons with an arbitrary English corpus are shown in applicable cases.
Interlingua-based machine translation is probably the most attractive among the three classic approaches to MT. Early pioneers as well as current researchers experimented with this approach and produced some very stimulating methodologies to reaching such a language-independent framework. In this paper, we shall briefly review some of the most renowned endeavours in interlingua-based machine translation and bring into view how the latest of which; the Universal Networking Language (UNL) differs and compares to these other systems.
Manual annotation for time-aligning a speech waveform against the corresponding phonetic sequence is a tedious and time consuming task. This paper aimed to introduce a completely automated phone recognition system based on Best Tree Encoding (BTE) 4-point speech feature. BTE is used to find phoneme boundaries along speech utterance. Comparison to Mel-frequency cepstral coefficients (MFCCs) speech feature in solving the same problem is provided. Hidden Markov Model (HMM) and Gaussian Mixtures are used for building the statistical models through this research. HTK software toolkit is utilized for implementation of the model. The System can identify spoken phone at 59.1% recognition rate based on MFCC and 22.92% recognition rate based on BTE. The current BTE vector is 4 components compared to 39 components of MFCC. This makes it very promising features vector, BTE with 4 components gives a comparable recognition success rate compared to the 39 components MFCC vector widely in the area of ASR.
معالجة المحتوى المعجمي الدلالي في المعجم العربي الحاسوبي مقاربة لغوية حاسوبية /
تخصص البحث : Large Corpora
هندسة اللغة:
تاريخ تقديم البحث 19/01/2014
تاريخ قبول البحث 19/01/2014
عدد صفحات البحث 16
أ.د. وفاء كامل( wafkamel@yahoo.com - )
أ.د. محسن رشوان( mrashwan@rdi-eg.com - )
د. عبد العاطي هواري
المعجم العربي الحاسوبيArabic Computational Lexicon - الصناعة المعجمية Lexicography– المصادر المعجمية العربية الحاسوبية Lexical Resources Arabic Computational - لغة التعريف المعجمي Lexical Definition Language- المحتوى المعجمي الدلالي العربي Lexical Semantic Arabic Content- المدونة المعجمية Lexical Corpus- الدلالة المعجمية الحاسوبية Computational Lexical Semantics- اللسانيات المعجمية Lexical Linguistics
موضوع الورقة هو مقترح لمنهجية معالجة المحتوى المعجمي الدلالي للمعجم العربي الحاسوبي (في صورة تعريفات )؛ إذ يعد الجانب الدلالي أهم جوانب صناعة مصدر معجمي، لعدة أسباب هي: ـ كونه الغايةَ الأساسية من أي مصدر معجمي، يستهدف المستعمل البشري، أو المعالجة الحاسوبية. ـ تعَقّد جوانب المحتوى المعجمي واتساعها لتشمل جانبا من المحتوى الصرفي الدلالي، والجانب التركيبي، إضافة إلى الجانب الدلالي نفسه. ـ أن المحتوى المعجمي الدلالي في المعجم هو مصدر المعالجات الحاسوبية، التي تهدف إلى الفهم الآلي للغة، ومعالجة جوانبها الدلالية. وقد اقتُرِحت تصورات متعددة لصناعة مصادر معجمية عربية حاسوبية( )، غير أن مقارباتِها الجوانبَ المعجمية الدلالية جاءت تقليدية وغير معمقة، بل إنها تكاد تكون نَسْخا لمقاربات المعجم العربي الأساسي والمعجم الوسيط( )، فضلا عن المعاجم العربية التراثية. واللسانيون الحاسوبيون يقعون دائما في مشكلات عند تعاملهم الحاسوبي مع المصادر المعجمية العربية. كما أن المصادر الحاسوبية منها تقليديةٌ في معالجتها لهذا الجانب أيضا؛ لذا كان لزاما- عند إرادة البدء في صناعة مصدر معجمي عربي- البدء ببناء منهجية لمعالجة المحتوى المعجمي الدلالي، الذي يعد أهم مشكلات المعجم العربي عموما؛ إذ إن القضايا الدلالية في هذا المعجم قد عولجت دون منهج واضح. وينبني التصور النظري للمقترح على عدة جوانب هي: 1. المنطلقات النظرية : الصرفية والتركيبية والدلالية. 2. التحليل : مدونته، وإجراءاته، ومخرجاته. 3. التمثيل : لغته، وأبنيته
جميع البيانات التي يتم تسجيلها على النظام هي ملك للجهة صاحبة هذه البيانات
لا يتم الاطلاع على هذه البيانات من قبل مهندسي المركز إلا للضرورة القصوى ولغرض الدعم الفني وبالاتفاق مع الجهة صاحبة البيانات شفوياً أو كتابياً
لا يتم إعطاء أي بيان من بيانات النظام لأي فرد او جهة فرعية تنتمي للجهة صاحبة البيانات او لأي جهة أخرى إلا بموافقة كتابية من الجهة صاحبة البيانات
يمكن استخدام البيانات المسجلة على النظام بهدف عمل إحصائيات يستفاد منها فى قياس اداء النظام وكفاءة استخدامه من قبل مستخدميه
يتم تأمين جميع البيانات الخاصة بالنظام من خلال تأمين الحاسب الخادم الذي يستضيف البيانات ومن خلال تأمين انتقال البيانات بين جهاز المستخدم والحاسب الخادم وكذلك تأمين واجهة النظام التي يستخدمها المستخدم
كل مستخدم للنظام مسئول مسئولية كاملة عن كلمة المرور الخاصة به وعليه اتخاذ كافة الاحتياطات الممكنة حتى لا يستطيع أى شخص آخر الحصول عليها