ABSTRAKSI: Seringkali, bila diberikan suatu koleksi dokumen, akan muncul kebutuhan untuk mengelompokkan dokumen tersebut ke dalam-klaster-klaster berdasarkan tingkat kemiripan isi dokumen yang ada. Untuk jumlah dokumen yang sedikit, proses pengelompokan secara manual masih mungkin untuk dilakukan.Namun, untuk mengelompokkan dokumen dengan jumlah banyak, proses pengelompokan secara manual akan memakan waktu yang lama. Proses otomatisasi menjadi satu solusi yang bisa digunakan untuk mengurangi waktu yang diperlukan untuk melakukan pengelompokan. Oleh karena itu, dibutuhkan suatu metode pengelompokan (clustering) yang menghasilkan kelompok (cluster) dokumen yang sesuai dengan topik yang ada.
Pada Tugas Akhir ini diimplementasikan metode Non-negative Matrix Factorization (NMF) untuk melakukan proses clustering dokumen. Metode ini melakukan faktorisasi pada term-document matrix yang merupakan hasil dari proses preprocessing dokumen menjadi matriks dua dimensi yang setiap baris mewakili vektor term dan setiap kolom mewakili bobot yang berhubungan dengan term pada baris. Pengujian pada proses dalam proses clustering ini dilakukan untuk mengetahui akurasi kualitas cluster yang dihasilkan oleh metode Non-negative Matrix Factorization (NMF) bila dibandingkan dengan cluster awal dari dataset. Selain itu juga diuji pengaruh setiap parameter input terhadap hasil kualitas cluster. Hasil kualitas cluster ditunjukkan dengan nilai Accuracy.
Hasil clustering dengan metode Non-negative Matrix Factorization (NMF) ini menunjukkan bahwa nilai Accuracy cluster setelah proses clustering menggunakan metode Non-negative Matrix Factorization (NMF), dipengaruhi oleh jumlah klaster yang diinginkan dan jumlah dokumen yang digunakan. Dimana nilai akurasi tidak akan selalu naik pada jumlah klaster yang berbeda dengan jumlah dokumen yang sama.
Kata Kunci : Klasterisasi dokumen, Non-negative Matrix Factorization (NMF), AccuracyABSTRACT: Sometimes, when given a document collection, will come the need to classify documents into clusters based-similarity level of the existing document content. For a small number of documents, grouping process manually is still possible to do. But, to classify documents with large amounts, manually clustering process will take a long time. Process automation into a single solution that can be used to reduce the time required to perform clustering. Therefore, we need a method of clustering which produces clusters of documents in accordance with existing topics.
In this final project implemented Non-negative Matrix Factorization (NMF) method to perform the document clustering process. This method is doing the factorization on term-document matrix that is the result of preprocessing the documents into two-dimensional matrix in which each row represents a term vector and each column represents the weight associated with the term on the line. Test on the process of clustering process is performed to determine the accuracy of the quality of clusters produced by Non-negative Matrix Factorization (NMF) method when compared with the initial cluster of datasets. It also tested the influenced of each input parameter on the results of cluster quality. The result of cluster quality as indicated by an Accuracy.
The result of clustering by Non-negative Matrix Factorization (NMF) method, indicates that the value of Accuracy cluster after the clustering process using Non-negative Matrix Factorization (NMF), influenced by the desired number of clusters and the number of documents used. Where the value of accuracy will not always rise in the number of different clusters with the same number of documents.
Keyword: Document Clustering, Non-negative Matrix Factorization (NMF), Accuracy