ABSTRAKSI: Peningkatan jumlah dokumen dalam format teks yang cukup signifikan belakangan ini membuat proses pengelompokan dokumen (document clustering) menjadi penting. Pengelompokan dokumen bertujuan membagi dokumen kedalam beberapa kelompok (cluster) sehingga dokumen-dokumen yang mempunya tingkat kesamaan tinggi termasuk dalam cluster yang sama dan yang mempunyai mempunya kesamaan rendah termasuk dalam cluster yang berbeda. Untuk melakukan pengelompokan tersebut, digunakan salah satu algoritma clustering yaitu Canopy Clustering. Canopy Clustering merupakan pengembangan dari Kmeans clustering. Algoritma ini dapat mengatasi permasalah yang terdapat pada K-means dalam masalah akurasi dan waktu proses untuk set data yang besar. Clustering dari nilai parameter T. Parameter ini berfungsi sebagai ukuran cluster pada pembentukan Canopy. Untuk mengukur similarity antar dokumen sebelum proses clustering digunakan Euclidean distance.
Pada tugas akhir ini cluster yang dihasilkan diukur akurasinya menggunakan precision, recall, dan F1-measure . Berdasarkan percobaan yang dilakukan bahwa Canopy Clustering dengan menggunakan K-means lebih tinggi tingkat akurasinya dan lebih sedikit waktu prosesnya dibandingkan dengan Algoritma K-means murni.Kata Kunci : Canopy Clustering, K-means , ClusteringABSTRACT: An increasing number of documents in text format significantly lately makes the process of grouping documents (document clustering) becomes important. Grouping the document aims to divide the document into several groups (clusters) so that the documents possessed a high degree of similarity are included in the same cluster and possessed similarities that have low included indifferent clusters. To perform such clustering,clustering algorithms used one of the CanopyClustering. Canopy Clustering is a development of the Kmeans clustering. This algorithm can overcome the problems found on the Kmeans in amatter of accuracy and processing time for large data sets. Clustering of the value of the parameter T.This parameter serves as the cluster size on the formation of Canopy. To measure the similarity between the documents before the clustering process used Euclidean distance.
In this final cluster resulting accuracy is measured using precision,recall, and F1-measure. Based on experiments conducted that Canopy Clustering using K-means higher level of accuracy andless time to process compared to the K-means algorithm .Keyword: Canopy Clustering, K-means, Clustering