ABSTRAKSI: Meningkatnya penggunaan internet telah memicu pertumbuhan dan pertukaran informasi menjadi jauh lebih pesat dibandingkan era sebelumnya. Volume berita elektronik berbahasa Indonesia semakin bertambah besar dan menyimpan informasi yang berharga di dalamnya. Pengelompokkan berita berbahasa Indonesia merupakan salah satu solusi yang dapat digunakan untuk mempermudah mencerna informasi penting yang ada di dalamnya. Clustering dapat digunakan untuk membantu menganalisis berita dengan mengelompokkan secara otomatis berita yang memiliki kesamaan
Pada text clustering terdapat suatu permasalahan yaitu adanya fitur – fitur yang berdimensi tinggi. Diperlukan metode Feature selection untuk mengurangi dimensi fitur ini. Feature selection memiliki kemampuan mengurangi dimensionalitas suatu data sehingga dapat meningkatkan performansi clustering. Ada beberapa pendekatan sebagai teknik dari implementasi feature selection, salah satunya adalah filter based feature selection.
Pada tugas akhir ini, dilakukan analisis perbandingan metode feature selection antara Term contribution dan Document Frequency. Metode-metode feature selection tersebut diterapkan secara filter feature selection. Pada akhir pengujian, dapat dibuktikan bahwa metode Term contribution lebih baik daripada Document Frequency karena memperhitungkan frekuensi kemunculan term pada suatu dokumen dan jumlah dokumen yang dimiliki term tersebut, sehingga term yang terpilih adalah term yang khas atau bersifat diskriminator. Hal ini dapat meningkatkan performansi clustering dokumen berdasarkan precision dan entropy.Kata Kunci : : clustering, filter feature selection, Term contribution, Document Frequency.ABSTRACT: The increasing of internet's using has made the growth and exchanging of informations become higher than before. The volume of Indonesian electronic news become bigger and its save valuable information in it. The grouping of Indonesian news is one of solution which can be used to catch valuable information easier. Clustering can be used to help analizing news by grouping news which have the similarity automatically
Text clustering has a problem, that is high dimension of features. Feature selection's method is needed to reduce this problem. Feature selection has the ability to reduce data dimension so it can improve clustering's performance. There are some approaches as the technique of feature selection's implementation, one of them is filter based feature selecion.
On this final project, the analysis of feature selection's method between Document Frequency and Term contribution is done. These methods are implemented by filter feature selection. At the end of testing, can be proved that Term contribution is better than Document Frequency, because it considers term frequency in a document and the amount of document frequency, so the choosen terms are unique or discriminatory. It can improve clustering’s performance with precision and entropy as the points to measure the performanceKeyword: : clustering, filter feature selection, Term contribution, Document Frequency.