ABSTRAKSI: Banyak algoritma yang dapat digunakan untuk mengatasi masalah email spam, contohnya Naïve Bayes. Namun, dengan hanya menggunakan classifier tunggal maka filtering system dapat dengan mudah diserang oleh pembuat spam. Oleh karena itu, diterapkan algoritma Symbiotic Naïve Bayes yang menggunakan local filter dari user yang berbeda untuk meningkatkan performansi filtering pada level personal.
Dilakukan beberapa pengujian untuk melihat pengaruh mekanisme pembobotan kata, ratio data training dan data testing, dan jumlah dataset terhadap performansi filtering system yang diukur dengan nilai precision, recall, dan f - measure. Ketiga hal tersebut dilakukan untuk mengetahui mekanisme pembobotan yang lebih baik, pada kondisi ratio data training dan data testing yang seperti apa, dan berapa jumlah ideal dari dataset sehingga Symbiotic Naïve Bayes dapat menghasilkan performansi yang tinggi.
Berdasarkan hasil pengujian dapat disimpulkan bahwa filtering system yang menggunakan data hasil mekanisme pembobotan term transformation menghasilkan performansi yang lebih baik dibandingkan dengan term frequency. Pada saat ratio data training lebih besar dibandingkan dengan data testing maka filtering system akan menghasilkan performansi yang lebih baik. Dan penambahan jumlah dataset dapat meningkatkan juga performansi filtering system.Kata Kunci : Naïve Bayes, Symbiotic Naïve Bayes, Klasifikasi, Dataset, DataABSTRACT: Many algorithms can be used to overcome the problem of spam email, such as Naive Bayes. However, using only a single classifier then filtering system can be easily attacked by spammers. Therefore, Symbiotic Naive Bayes algorithm is applied using local filters of different users to improve the performance of filtering on a personal level.
Do some testing to see the effect of word weighting mechanism, the ratio of training data and testing data, and the number of datasets to the filtering system performance as measured by the value of precision, recall, and f - measure. These three things are done to find a better weighting mechanism, the ratio condition training data and testing data such as what, and how the ideal number of datasets so Symbiotic Naive Bayes can produce high performance.
Based on the test results can be concluded that the filtering system that uses data transformation term results of the weighting mechanism produces a better performance compared with term frequency. At the time of the training data ratio larger than the data testing the filtering system will result in better performance. And increasing the number of datasets can improve filtering system performance as well.Keyword: Naive Bayes, Symbiotic Naive Bayes, Classification, Dataset, Data