ABSTRAKSI: Dengan semakin luasnya penggunaan internet menjadikan email semakin populer sebagai pilihan untuk mengirimkan iklan ke banyak orang, email semacam ini disebut sebagai spam email. Spam email telah menjadi permasalahan serius khususnya bagi pengguna email. Spam email mampu membanjiri mailbox pengguna email dengan email–email yang tidak diharapkan kedatangannya.
Spam filtering dibutuhkan untuk membantu mengenali adanya spam email atau bukan. Spam filtering dapat dibuat menggunakan teknik text classification dengan terlebih dahulu melakukan data preprocessing.
Tujuan Tugas Akhir ini adalah mengimplementasikan jaringan syaraf tiruan Learning Vector Quantization sebagai text classification dan menerapkan information gain pada feature extraction sebagai teknik untuk spam filtering dan menghitung tingkat akurasinya.
Dari hasil pengujian telihat bahwa LVQ dapat digunakan sebagai teknik text klasifikasi pada spam filtering hal ini diperoleh dari hasil testing yang menunjukkan akurasi 98% dengan uji coba menggunakan 1001 data learning dan testing dengan 100 data.Kata Kunci : spam email, spam filtering, text classification, data preprocessing, learning vector quantization, information gain.ABSTRACT: Along with wide application of internet made email become popular way for sending unsolicited advertising to many people, this kind of email called spam email. Spam email become a serious problem for e-mail users. Many spare e-mails flood into people's email inboxes and bring catastrophe to their study and work.
Spam filtering help us to recognize weather email is a spam or not. Using text classification method, spam filtering can be built by done the data preprocessing first.
The purpose of this final project is implement Neural Network Learning Vector Quantization as Text Classification and Information Gain (IG) as Feature Extraction based spam filtering and get the accuracy measures.
From the testing result known that Learning Vector Quantization can be use as text classification for spam filtering it can be show from the accuracy 98% with 1001 learning data set and 100 testing data set.Keyword: spam e-mail, spam filtering, text classification, data preprocessing, information gain, learning vector quantization.