ABSTRAKSI: Pesatnya penggunaan Internet mengakibatkan pertumbuhan dan pertukaran informasi yang sangat cepat. Informasi yang terdapat pada Internet sangat berlimpah dan beragam, sehingga mengakibatkan jumlah informasi terus meningkat secara eksponensial. Perkembangan informasi ini memungkinkan informasi dapat diakses dengan mudah oleh pengguna. Namun, dengan jumlah informasi yang terus bertambah setiap harinya menimbulkan masalah dan tantangan yang cukup besar. Oleh karena itu, diperlukan suatu pengkategorisasian terhadap artikel berita yang memudahkan pengguna untuk mencari artikel yang diinginkan. Salah satu cara yang dapat mengkategorikan dokumen adalah dengan menggunakan teknik kategorisasi dalam data mining.
Akan tetapi jumlah dimensi yang besar membuat performansi classifier kurang baik. Untuk mengatasinya digunakan teknik feature selection. Pada tugas akhir ini, digunakan pendekatan feature selection dengan wrapper feature selection. Sedangkan metoda pencarian subset untuk wrapper adalah hill-cilmbing search dan best first search dengan menggunakan teknik klasifikasi Naive Bayes dari tools WEKA 3.5. Pencarian feature subset dilakukan dengan menghitung nilai macro average F-measure dari setiap node dan akan dihasilkan feature terbaik.
Kata Kunci : feature selection, wrapper feature selection, best first search, hillABSTRACT: Internet usage that grow rapidly makes information develop and exchange very fast. Various kind of information are available on Internet, so it makes the number of information rises exponentially. This development makes the information is able to access easily by user. However, the number of information that increase more and more every day make big problem and challenge. Because of that, news article categorization is needed to make article serching more easy for user. One way to categorize the document is categorization technique on data mining.
However, high dimensionality makes classifier performance not good. To solve this problem, we use feature selection technique. This final project uses wrapper feature selection approach. While subset search method for wrapper are hill-climbing search and best first search with Naive Bayes classifier from WEKA 3.5. Feature subset searching is done by calculate macro average Fmeasure from each node and will be produced the best feature.
Keyword: feature selection, wrapper feature selection, best first search, hill