<fmt:message key='jsp.layout.header-default.alt'/>  
 

DSpace@UM >
Faculty of Computer Science and Information Technology >
Masters Dissertations: Computer Science >

Please use this identifier to cite or link to this item: http://hdl.handle.net/1812/1015

Title: A statistical parser to reduce structural ambiguity in Malay grammar rules
Authors: Noor Hafhizah Abd Rahim
Keywords: Statistical parser
Natural language
Parsing technique
Malay language
Top-down parsing
Malay grammar
Issue Date: Feb-2011
Publisher: University Malaya
Abstract: ABSTRACT The goal of the research is to develop a statistical parser that can help in reducing a structural ambiguity in a Malay language. Parsing is an important phase in understanding natural language. However, to parse a sentence is a difficult task due to the various ambiguity problems in natural language. Parsing technique is the most important components that need to be considered in developing any parser. The technique used in this research is top-down parsing and the grammar chosen is a context-free grammar (CFG)for Malay language. The CFG contains rule in forming a Malay basic sentence. The proposed Malay Statistical Parser uses probability values, which were computed for one hundred and fourty seven (147) grammar rules as the guideline in parsing the best parse tree. Since there is no probability for Malay CFG rules, one thousand (1000) of training data are collected from primary text books and various Malay grammar books. The probability values were calculated and it is known as Probability Context-free Grammar (PCFG). The parser is then evaluated using one hundred (100) test data, where the data was approved by two Malay linguists that were known as Munsyi Dewan. After that, the Malay statistical parser computes the highest probability value for each of the parsed sentences. The result shows the parser achieved 100% recall, 93.25% precision and 96.75% f-score, where the parser is able to reduce ambiguity for Malay basic sentence. ABSTRAK Tujuan penyelidikan ini ialah membangunkan sebuah pengurai berstatistik yang dapat membantu mengurangkan ketaksaan berstruktur dalam Bahasa Melayu. Penguraian merupakan satu fasa penting dalam memahami bahasa tabii. Walau bagaimanapun, untuk mengurai sesuatu ayat, ia merupakan satu tugas yang sukar memandangkan terdapat banyak masalah dalam ketaksaan bahasa tabii. Teknik penguraian merupakan komponen yang paling penting yang perlu dipertimbangkan dalam membangunkan sebarang pengurai. Teknik yang digunakan dalam penyelidikan ini ialah teknik penguraian atas-bawah dan tatabahasa yang dipilih ialah nahu bebas-konteks untuk Bahasa Melayu. Nahu bebaskonteks tersebut mengandungi petua-petua bagi membentuk ayat mudah Bahasa Melayu. Pengurai Berstatistik Bahasa Melayu menggunakan nilai-nilai kebarangkalian yang dikira untuk seratus empat puluh tujuh (147) petua-petua nahu yang digunakan sebagai panduan dalam memperoleh rajah pepohon yang terbaik. Memandangkan belum ada nilai kebarangkalian bagi petua nahu bebas-konteks untuk Bahasa Melayu, seribu (1000) data latihan diperoleh daripada buku-buku teks sekolah rendah dan tatabahasa Bahasa Melayu. Nilai-nilai kebarangkalian yang dikira itu dikenali sebagai Nahu Bebas-konteks Berkebarangkalian. Pengurai itu dinilai menggunakan seratus (100) data ujian yang dipersetujui oleh dua orang pakar dalam Bahasa Melayu yang dikenali sebagai Munsyi Dewan. Seterusnya, Pengurai Berstatistik Bahasa Melayu tersebut dapat mengira nilai kebarangkalian yang tertinggi bagi setiap ayat yang diurai. Hasil keputusan menunjukkan pengurai itu mencapai 100% recall, 93.25% precision dan 96.75% f-score, yang menunjukkan pengurai tersebut berjaya mengurangkan ketaksaan berstruktur bagi ayat mudah Bahasa Melayu.
Description: Dissertation (M.C.S.) -- Faculty of Computer Science & Information Technology, University of Malaya, 2011.
URI: http://dspace.fsktm.um.edu.my/handle/1812/1015
Appears in Collections:Masters Dissertations: Computer Science

Files in This Item:

File Description SizeFormat
DissertationHafhizahFeb2011.pdfFull Thesis6.93 MBAdobe PDFView/Open


This item is protected by original copyright



Your Tags:

 

  © Copyright 2008 DSpace Faculty of Computer Science and Information Technology, University of Malaya . All Rights Reserved.
DSpace@UM is powered by MIT - Hawlett-Packard. More information and software credits. Feedback