ABSTRAKSI: Algoritma machine learning secara garis besar melakukan ekstraksi knowledge dari suatu database. Sebagian besar algoritma tersebut biasanya hanya bisa diaplikasikan pada data numerik ataupun nominal. Lain halnya untuk atribut continuous, dibutuhkan proses diskretisasi dahulu untuk merubah nilai atribut continuous menjadi interval.
Diskretisasi adalah proses mentransformasi nilai atribut continuous menjadi sejumlah interval terbatas yang berhubungan dengan nilai diskret, yaitu nilai numerik. Pendekatan yang biasa dilakukan dalam proses learning menggunakan mixed-mode data (campuran antara data numerik dan continuous) adalah melakukan diskretisasi terlebih dahulu sebelum proses learning (preprocessing).
CAIM (Class-Attribute Interdependence Maximization) adalah salah satu algoritma diskretisasi yang dirancang untuk supervised learning. Algoritma ini memaksimalkan saling ketergantungan (interdependency) antara kelas dan atribut, dan pada saat bersamaan menghasilkan jumlah interval diskret seminimal mungkin. Algoritma ini bekerja tanpa user harus mendefinisikan dahulu jumlah intervalnya.
Pada tugas akhir ini penulis mengimplementasikan metode diskretisasi CAIM untuk supervised learning pada sejumlah dataset. Lalu hasil diskretisasinya diujikan pada algoritma C5.0 untuk menghasilkan rule klasifikasi. Tingkat akurasi dan jumlah rule yang dihasilkan CAIM lalu dibandingkan dengan akurasi dan jumlah rule yang dihasilkan enam metode diskretisasi lain. Hasil perbandingan menunjukkan secara umum CAIM mencapai hasil terbaik – akurasi tinggi dan jumlah rule kecil – dibanding enam metode lain yang diujikan.Kata Kunci : CAIM, Class-Attribute Interdependence Maximization, diskretisasi,ABSTRACT: The task of extracting knowledge from databases is quite often performed by machine learning algorithms. The majority of these algorithms can be applied only to data described by discrete numerical or nominal attributes (features).
Discretization is a process to transform a continuous attribute’s value into a finite number of intervals and associate with each interval a numerical, discrete value. For mixed-mode (continuous and discrete) data, discretization is usually performed prior to the learning process, called pre-processing.
CAIM (Class-Attribute Interdependence Maximization) is one of discretization algorithm design for supervised learning. It maximizes the classattribute interdependence and to generate a possibly minimal number of discrete intervals. The algorithm does not require the user to predefine the number of intervals. It considered as CAIM’s superiority against other discretization algorithms for supervised learning.
This final project implements CAIM discretization methode for supervised learning to several datasets. C5.o algorithm is used to generate classification rules from data discretized by CAIM. The test performed using CAIM and six other state-of-the-art discretization algorithms show that the accuracy of generated rules is – on average - higher and the number of rules is lower for data discretized by CAIM when compared to data discretized using six other discretization algorithms.Keyword: CAIM, class-attribute interdependence maximization, discretization