ABSTRAKSI: Clustering adalah salah satu teknik dalam data mining yang melakukan distribusi terhadap data ke dalam kelompok yang anggota-anggotanya memiliki kemiripan. Salah satu algoritma clustering yang populer adalah k-means.
Pada tugas akhir ini, clustering yang dilakukan mengalami preprocessing terlebih dahulu menggunakan metode Kernel Principal Component Analysis (KPCA). KPCA menghasilkan sejumlah feature atau disebut juga sebagai principal component dalam jumlah yang lebih banyak daripada atribut data input. Setelah terbentuk sekumpulan principal component yang baru, maka dilakukan pemilihan principal component berdasarkan besarnya variansi. Semakin besar variansi yang dimiliki oleh suatu principal component, maka principal component makin mencirikan data. Setelah tahap pemilihan feature selesai, maka langkah yang selanjutnya adalah clustering menggunakan modified k-means. Pada modified k-means ini, akan dilakukan proses penentuan centroid, berbeda dengan algoritma k-means asli yang penentuan centroidnya dilakukan secara acak. Dari hasil pengujian dan analisis, didapatkan bahwa penentuan banyaknya feature yang digunakan dalam proses clustering mempengaruhi kualitas cluster. Selain itu pula, pemilihan terhadap jenis kernel dan nilai parameter kernel yang digunakan juga berpengaruh terhadap hasil cluster.
Kata Kunci : data mining, clustering, KPCA, modified k-meansABSTRACT: Clustering is one of data mining task that divides data into groups that elements in each group is similar between themself and are dissimilar to elements belonging to other groups. One of most used clustering algorithm is k-means.
In order to provide better clustering task, we need to process the data using Kernel Principal Component Analysis (KPCA). KPCA will produce a number of features (or called Principal Components) in greater numbers than the input data attribute. Then choose the number of PCs to be used based on the amount of variance. The greater variance owned by the PC, the PC is more represent the data. The next step is clustering using modified k-means. In modified k-means, the PC generated by KPCA will be used for deciding the initial centroid for k-means. Based on the test result, the number of features or PCs used in clustering process will affect the quality of cluster. In addition, the choice of kernel and kernel parameter values are used also affect the outcome of clustering.
Keyword: data mining, clustering, KPCA, modified k-means