<fmt:message key='jsp.layout.header-default.alt'/>  
 

DSpace@UM >
Faculty of Computer Science and Information Technology >
Masters Dissertations: Computer Science >

Please use this identifier to cite or link to this item: http://hdl.handle.net/1812/975

Title: Bayesian and fuzzy logic implementation for unsolicited commercial email inline filter
Authors: Wan Nur Azhani W.Samsudin
Keywords: Commercial email
Unsolicited email
Spam
Filtering
Naïve Bayesian technique
Fuzzy Logic
Issue Date: Jun-2010
Publisher: University Malaya
Abstract: ABSTRACT Current growth in the use of email for communication and the corresponding rising problem of unsolicited email, also known as ‘spam’, has generated a need of automatic processing of anti-spam email filters. Spam term is referred to unsolicited, unwanted and inappropriate bulk email that we received in our electronic mailbox. Spam mostly contains pornography pictures, illegal services, products promotions, get rich schemes and viruses. There are several machine learning techniques have been used to solve this spam problems, such as Support Vector Machine (SVM), Neuro-Fuzzy, Naïve Bayesian, Fuzzy Logic and others. Naïve Bayesian technique is one of the most popular filtering techniques which can be applied to automate the processing of anti-spam filter. This technique had been chosen to conduct the feature extraction and feature selection tasks. The feature extraction task will be done by applying stopword removal process and word stemming to the content of each email. While in the feature selection task, the most occurrence terms in each email is chosen as an input to the Bayesian probability. The other most popular technique is Fuzzy Logic. Fuzzy Logic is implemented in the classification task, which responsible to classify whether the email is ham or spam. There are five rules created for this system, includes five membership functions for Fuzzy inputs sets and two membership functions for Fuzzy output sets. Some of measurement evaluation had been used to evaluate filter performance. The measurements are precision, recall, error rate and accuracy. The proposed algorithm was implemented and tested using MATLAB software. The results show that NB with the implemented FL in classification task successfully classified email into spam and nonspam category, with 94% accuracy. ABSTRAK Perkembangan teknologi penggunaan emel dalam komunikasi masa kini dan peningkatan masalah emel yang tidak dikehendaki yang dikenali juga sebagai emel spam, telah menghasilkan satu keperluan terhadap penapis emel spam yang beroperasi secara automatik. Istilah spam dirujuk sebagai emel yang tidak dikehendaki oleh penerima dan tidak bersesuaian, diterima di dalam peti masuk emel elektronik. Kebanyakan emel spam mengandungi gambar-gambar pornografi, khidmat secara haram, promosi produk, skim cepat kaya dan penyebaran virus kepada penerima. Terdapat banyak teknik pembelajaran mesin telah digunakan untuk menyelesaikan masalah spam , contohnya Support Vector Machines(SVM), Neuro-Fuzzy, Naïve Bayesian, Fuzzy Logic dan sebagainya. Naïve Bayesian merupakan salah satu teknik penapis spam yang terkenal dan boleh diaplikasikan untuk menjadikan penapis spam yang beroperasi secara automatik. Di dalam projek ini, teknik Naïve Bayesian telah dipilih untuk melaksanakan proses pengekstrakkan elemen dan proses pemilihan elemen yang terbaik untuk proses seterusnya. Proses pengekstrakkan elemen dilakukan melalui proses penyingkiran stopword dan penyingkiran imbuhan awalan dan akhiran bagi setiap perkataan yang terdapat dalam setiap emel. Sementara itu, di dalam proses pemilihan elemen, perkataan yang mempunyai kekerapan keberlakuan yang tinggi akan dipilih untuk digunakan sebagai masukan ke dalam pengiraan kebarangkalian Bayesian. Selain daripada teknik ini, teknik Fuzzy Logic juga terkenal dan teknik ini digunakan dalam proses pengkelasan masukan emel sebagai spam atau bukan spam. Di dalam sistem Fuzzy, lima arahan telah direka, termasuk lima set masukan Fuzzy dan dua set keluaran sistem Fuzzy. Sesetengah pengukuran telah digunakan untuk menilai prestasi penapis emel. Pengukuran tersebut adalah kepersisan, kebolehan penapis emel untuk mendapatkan semua perkataan yang relevan serta dikehendaki oleh pengguna, kadar kesilapan dan ketepatan. Algoritma yand dicadangkan telah diaplikasikan dan diuji dengan menggunakan perisian MATLAB. Berdasarkan keputusan yang diperolehi, ia menunjukkan penggabungan teknik Fuzzy Logic di dalam proses klasifikasi dalam teknik Naïve Bayesian telah berjaya dalam mengklasifikasikan emel sebagai emel spam atau emel sah dengan peratus ketepatan sebanyak 94%.
Description: Dissertation (M.C.S.) -- Faculty of Computer Science & Information Technology, University of Malaya, 2010.
URI: http://dspace.fsktm.um.edu.my/handle/1812/975
Appears in Collections:Masters Dissertations: Computer Science

Files in This Item:

File Description SizeFormat
Cover.pdfCover, Abstract & Table of Contents548.15 kBAdobe PDFView/Open
Content.pdfChapters5.55 MBAdobe PDFView/Open


This item is protected by original copyright



Your Tags:

 

  © Copyright 2008 DSpace Faculty of Computer Science and Information Technology, University of Malaya . All Rights Reserved.
DSpace@UM is powered by MIT - Hawlett-Packard. More information and software credits. Feedback