ABSTRAKSI: Jumlah dokumen yang sangat banyak dan harus ditangani memerlukan sitem pengorganisasian secara otomatis. Pendekatan yang sangat popular untuk mengelompokkan dokumen adalah dengan pemodelan berdasarkan ruang lingkup vektor yang merepresentasikan teks, didapatkan dari sejumlah term yang terletak dalam dokumen.
Teknik clustering berdasarkan matriks frekuensi term-dokumen menderita akan adanya noise yang diakibatkan penggunaan kata-kata yang berbeda tetapi memiliki arti yang sama. Relasi semantik (sinonim) seperti ini harus diatasi.
Metode yang digunakan dalam tugas akhir ini menggunakan Latent Semantic Indexing(LSI) yang dikombinasikan dengan double clustering untuk mengurangi dimensi dari ruang vektor. Dengan cara ini, teknik clustering diimplementasikan dalam ruang vektor yang lebih kecil dan noise yang berkurang.
K-means adalah salah satu analisa klaster yang sederhana. K-means tidak dapat mendeteksi noise. Penggunaan K-means yang ditambahkan dengan LSI dan teknik double clustering, noise dapat ditangkap dan dikurangi. Ketika noise berkurang, performansi seperti purity, recall, precision dan F-measure dari K-means dapat ditingkatkan.
Kata Kunci : clustering, Latent Semantic Indexing(LSI), K-meansABSTRACT: The large amount of documents which must be handled needs automatic organizing. A popular approach to clustering documents is the vector space model, which represents texts, usually generated from the set of terms contained in the documents.
The clustering based on the document-term frequency matrix suffers from noise caused by the frequent use of different words with similar meanings. These semantic relations (like synonyms) need to be handled.
The method described in this final project uses Latent Semantic Indexing (LSI) technique combined with double clustering to reduce the dimension of the vector space. In this way, the clustering is performed in a space with fewer dimensions and reduced noise.
K-means is a simply cluster analysis methodology. It can’t capture noise. Using K-means, which is added with LSI and double clustering technique, noise can be captured and reduced. When noise is reduces, the performance like purity, recall, precision and F-measure of K-means can be increased.
Keyword: clustering, Latent Semantic Indexing (LSI), K-means