ABSTRAKSI: Klastering merupakan salah satu metode data mining yang digunakan untuk mengelompokkan sejumlah obyek ke dalam klaster berdasarkan kesamaan karakteristik yang dimiliki obyek. Pada dataset yang memiliki banyak objek dimungkinkan adanya beberapa obyek yang memiliki perbedaan karakteristik dengan yang lainnya, obyek ini disebut outlier. Jumlah outlier yang sedikit dari banyaknya obyek menyebabkan outlier sulit untuk terdeteksi. Sedangkan tidak jarang ada informasi penting yang dapat digunakan dari keanomalian tersebut.
Klastering dapat digunakan untuk mendeteksi keberadaan outlier. Pada pembahasan tugas akhir ini, outlier didapatkan dari teknik postprocessing dari hasil klastering oleh algoritma CLARANS (Clustering Large Application based on RANdomized Search). CLARANS menerapkan prinsip k-medoid dan melakukan pengkombinasian teknik sampling dengan PAM (Partitioning Around Medoid) untuk menemukan medoid terbaik dari tiap klaster. Dikarenakan klastering CLARANS belum dapat mendeteksi outlier, maka diperlukan teknik postprocessing setelah klastering. Teknik postprocessing yang digunakan ada 2, yaitu Clustering Outlier Removal (COR) dan Separation.
Hasil pengujian sistem menghasilkan akurasi pendeteksian outlier hasil klastering CLARANS yang lebih baik oleh teknik COR dengan kondisi jumlah klaster yang ideal. Sedangkan pada teknik separation, nilai akurasi dipengaruhi oleh jumlah klaster dan model persebaran dataset.
Kata Kunci : klastering, deteksi outlier, k-medoid, CLARANS, clustering outlierABSTRACT: Clustering is one of data mining’s methods that used to grouped a set of objects into a cluster based on the similarity of its characteristics. In a large dataset, there is a possibility that more objects have difference characteristic with another, this object called outlier. The small number of outlier from a lot of objects causes the outlier difficult to detect. It is oftenly there are some important information can used from that anomaly.
Clustering can used to detect the existence of outlier. In this study of final task, outlier get from postprocessing technique of result by CLARANS (Clustering Large Application based on RANdomized Search) algorithm. CLARANS applying principle of k-medoid and combining the sampling technique with PAM to find the best medoid from each cluster. Because of clustering CLARANS disable to detect the outlier, then it need postprocessing technique after clustering. There are two postprocessing techniques, Clustering Removal Outlier (COR) and Separation.
Result of system obtain that accuration of detection outlier from clustering CLARANS is more better by COR in condition ideal number of cluster. Whereas in separation technique, value of accuracy influenced by number of cluster and distribution model of data.
Keyword: clustering, outlier detection, k-medoid, CLARANS, clustering outlier