|
DSpace@UM >
Faculty of Computer Science and Information Technology >
Masters Dissertations: Computer Science >
Please use this identifier to cite or link to this item:
http://hdl.handle.net/1812/1015
|
|
| Title: | A statistical parser to reduce structural ambiguity in Malay grammar rules |
| Authors: | Noor Hafhizah Abd Rahim |
| Keywords: | Statistical parser Natural language Parsing technique Malay language Top-down parsing Malay grammar |
| Issue Date: | Feb-2011 |
| Publisher: | University Malaya |
| Abstract: | ABSTRACT
The goal of the research is to develop a statistical parser that can help in reducing a structural ambiguity in a Malay language. Parsing is an important phase in understanding natural language. However, to parse a sentence is a difficult task due to the various ambiguity problems in natural language. Parsing technique is the most important components that need to be considered in developing any parser. The technique used in this research is top-down parsing and the grammar chosen is a context-free grammar (CFG)for Malay language. The CFG contains rule in forming a Malay basic sentence. The proposed Malay Statistical Parser uses probability values, which were computed for one hundred and fourty seven (147) grammar rules as the guideline in parsing the best parse tree. Since there is no probability for Malay CFG rules, one thousand (1000) of training data are collected from primary text books and various Malay grammar books. The probability values were calculated and it is known as Probability Context-free Grammar (PCFG). The parser is then evaluated using one hundred (100) test data, where the data was approved by two Malay linguists that were known as Munsyi Dewan. After that, the Malay statistical parser computes the highest probability value for each of the parsed
sentences. The result shows the parser achieved 100% recall, 93.25% precision and
96.75% f-score, where the parser is able to reduce ambiguity for Malay basic sentence.
ABSTRAK
Tujuan penyelidikan ini ialah membangunkan sebuah pengurai berstatistik yang dapat membantu mengurangkan ketaksaan berstruktur dalam Bahasa Melayu. Penguraian merupakan satu fasa penting dalam memahami bahasa tabii. Walau bagaimanapun, untuk mengurai sesuatu ayat, ia merupakan satu tugas yang sukar memandangkan terdapat banyak masalah dalam ketaksaan bahasa tabii. Teknik penguraian merupakan komponen yang paling penting yang perlu dipertimbangkan dalam membangunkan sebarang pengurai.
Teknik yang digunakan dalam penyelidikan ini ialah teknik penguraian atas-bawah dan
tatabahasa yang dipilih ialah nahu bebas-konteks untuk Bahasa Melayu. Nahu bebaskonteks tersebut mengandungi petua-petua bagi membentuk ayat mudah Bahasa Melayu.
Pengurai Berstatistik Bahasa Melayu menggunakan nilai-nilai kebarangkalian yang dikira untuk seratus empat puluh tujuh (147) petua-petua nahu yang digunakan sebagai panduan dalam memperoleh rajah pepohon yang terbaik. Memandangkan belum ada nilai
kebarangkalian bagi petua nahu bebas-konteks untuk Bahasa Melayu, seribu (1000) data
latihan diperoleh daripada buku-buku teks sekolah rendah dan tatabahasa Bahasa Melayu.
Nilai-nilai kebarangkalian yang dikira itu dikenali sebagai Nahu Bebas-konteks
Berkebarangkalian. Pengurai itu dinilai menggunakan seratus (100) data ujian yang
dipersetujui oleh dua orang pakar dalam Bahasa Melayu yang dikenali sebagai Munsyi
Dewan. Seterusnya, Pengurai Berstatistik Bahasa Melayu tersebut dapat mengira nilai
kebarangkalian yang tertinggi bagi setiap ayat yang diurai. Hasil keputusan menunjukkan
pengurai itu mencapai 100% recall, 93.25% precision dan 96.75% f-score, yang menunjukkan pengurai tersebut berjaya mengurangkan ketaksaan berstruktur bagi ayat
mudah Bahasa Melayu. |
| Description: | Dissertation (M.C.S.) -- Faculty of Computer Science & Information Technology, University of Malaya, 2011. |
| URI: | http://dspace.fsktm.um.edu.my/handle/1812/1015 |
| Appears in Collections: | Masters Dissertations: Computer Science
|
This item is protected by original copyright
|
|