ABSTRAKSI: Seiring dengan perkembangan teknologi, semakin banyak informasi yang diberikan dalam bentuk dokumen teks digital. Dokumen teks memiliki informasi yang beraneka ragam, sehingga untuk memudahkan dalam pengambilan informasi agar sesuai dengan keinginan perlu adanya pengelompokan dokumen.Clustering adalah proses untuk mengelompokkan data ke dalam suatu klaster, sehingga objek pada suatu klaster memiliki kemiripan yang sangat besar dengan objek lain pada klaster yang sama, tetapi sangat tidak mirip dengan objek pada klaster yang lain. Clustering yang dilakukan terhadap dokumen-dokumen disebut document clustering.
Pada tugas akhir ini diimplementasikan suatu algoritma clustering yaitu algoritma cure. Algoritma cure merupakan algoritma yang bekerja dengan cara mengukur jarak antar dokumen dengan list poin perwakilan cluster yang sudah dipilih sebelumnya.
Pengujian yang dilakukan dengan menghitung jumlah cluster dan menghitung nilai cohesi dan separation cluster yang dihasilkan menggunakan algoritma cure . Berdasarkan nilai cohesi yang dihasilkan pengujian ini dalam membentuk cluster yang sesuai dengan kategori yang terdapat dari dataset diperoleh bahwa kualitas yang dihasilkan cukup bagus sekitar 0.0855. Sedangkan berdasarkan nilai separation yang dihasilkan pengujian ini yaitu 0.927039 meskipun membentuk cluster yang tidak sesuai dengan kategori dataset. Akan tetapi kualitas cluster yang dihasilkan cukup bagus, karena kualitas clustering baik jika semakin kecil nilai cohesi dan semakin besar nilai separation.
Kata Kunci : algoritma, cure, clustering, dokumen, cohesi, separationABSTRACT: During the development of technology, there’s more information provided in the form of digital text documents. The document text has a lot of type of information, so to ease in retrieving information that match with the one we want, there’s need for grouping of document. Clustering is a process for classifying data into a cluster, so the objects in a cluster has a very large similarity with other objects in the same clusters, but has very litle similarity to the object on the other clusters. Clustering that performed on the documents referred as document clustering.
In this final task a clustering algorithm is implemented, that is Cure Algorithm. Cure algorithm is an algorithm that works by measuring the distance between documents with points representative list of the cluster that has been previously selected.
Testing is done by counting the number of cluster and calculate the value of cohesion and cluster separation that produce using Cure Algorithm. Based on the value of cohesion that is produced in this test in forming the right cluster with the category that is from dataset, it is obtained that the quality that have been produced is good enough around 0.0855. As based the value of separation that have been produced in this test is 0.927039 although forming clusters that do not fit with dataset category. But the cluster quality that have been produced is good enough, because the quality of clustering is good if the smaller cohesion value and the bigger separation value.
Keyword: cure algorithm, clustering, document, cohesion, separation.