ABSTRAKSI: Seiring dengan perkembangan Teknologi, maka pertambahan keanekaragaman dokumen juga akan berkembang dengan cepat. Hal ini memberi dampak pada performansi search engine sekarang. Banyaknya dokumen yang ter-retrieve yang ditampilkan ke user banyak mengandung dokumen-dokumen yang tidak relevant. Hal ini membuat user kesulitan untuk mencari dokumen-dokumen yang diperlukan.
Clustering adalah salah satu solusi untuk memecahkan masalah tersebut. Clustering sendiri adalah proses pengelompokkan dokumen-dokumen yang memiliki tingkat kemiripan yang tinggi menjadi satu cluster. Dalam Tugas Akhir ini dilakukan pengelompokkan dokumen hasil pencarian dengan menggunakan Algoritma Buckshot. Buckshot merupakan salah satu metode clustering yang menggabungkan antara Algoritma HAC (Hierarchical Agglomerative Clustering) dengan K-Means. Buckshot memakai algoritma HAC dalam pemilihan initial centroidnya sehingga kualitas cluster yang dihasilkan menjadi lebih baik dibandingkan dengan K-Means.
Analisa yang dilakukan pada tugas akhir ini adalah membandingkan kualitas clustering menggunakan Algoritma Buckshot dengan kualitas clustering menggunakan Algoritma K-Means. Adapun kualitas clustering bisa dilihat dari nilai Cohesion, Separation dan Cohesion/Separation. Menurut pengujian, kualitas cluster yang dihasilkan Algoritma Buckshot lebih baik daripada K-Means asalkan jumlah cluster yang dipilih user tidak sama dengan jumlah sample dokumen acak yang digunakan oleh system. Nilai Precision dan Recall juga berpengaruh terhadap kualitas cluster yang dihasilkan.Kata Kunci : Clustering, Search engine, Algoritma Buckshot, Algoritma HAC, Algoritma K-Means, Cohesion, Separation, Precision, RecallABSTRACT: Along with the growing technology, there will be a rapid growth in Document diversities that causes degrading impacts on the performance of current search engines. A lot of ir-Relevant Documents will be retrieved and served to the user. Therefore, it will be troublesome for the user to find the documents that he wants.
Clustering is one of the solutions that can be used to solve this problem. Clustering, itself, is a process of collecting similar Documents into the same clusters. In this final project, clustering its done by using Buckshot algorithm. Buckshot is a method that combines HAC (Hierarchical Agglomerative Clustering) and K-Means algorithm. This method makes use of HAC algorithm to determine the initial centroids in order to make better quality clusters compared to the one that uses K-Means algorithm only.
The analysis done in this final project is meant to compare the quality of clusters formed using Buckshot and K-Means algorithm. The quality of the clusters will be determined by using Cohesion, Separation, and Cohesion/Separation values. During the test the Buckshot Algorithm show better result compare K-Means when the user pick the number of clusters that’s its defferent from random sample used by the system. The Quality of the clusters is also influenced by precision and recall values.Keyword: Clustering, Search engine, Buckshot Algorithm, HAC Algorithm, K-Means Algorithm, Cohesion, Separation, Precision, Recall.