ABSTRAKSI: Teknologi informasi yang berkembang dengan cepat memungkinkan bagi banyak instansi atau perusahaan untuk mengumpulkan dan menyimpan data dengan jumlah yang sangat besar. Data mining merupakan suatu proses untuk mengekstrak dan menganalisis data dalam jumlah besar ini, untuk mendapatkan pola-pola yang menarik sehingga didapat pengetahuan dari data-data tersebut. Salah satu fungsionalitas data mining adalah klasifikasi, dimana proses ini adalah untuk menemukan suatu gambaran model yang membedakan kelas-kelas data, agar dapat memprediksi objek-objek yang kelasnya belum diketahui.
Tugas Akhir ini mengimplementasikan algoritma MIND sebagai salah satu algoritma klasifikasi dengan decision tree untuk data dengan jumlah besar dan melakukan analisis terhadap performansi meliputi akurasi pengklasifikasian, waktu proses (waktu pengklasifikasian) dan skalabilitas, yang hasilnya dibandingkan dengan algoritma SPRINT. Implementasi ini sendiri dilakukan menggunakan SQL Server 2000 dan Delphi 6. Data yang digunakan untuk pengujian beragam mulai dari jumlah record sebanyak 57 sampai 3.163, jumlah atribut 10 sampai 28 dengan jenis atribut numerik dan kategoris dan kombinasi keduanya, dan juga menggunakan data sintetik untuk mengetahui skalabilitasnya.
Hasilnya diperoleh bahwa algoritma MIND yang diimplementasikan ini terbukti memiliki tingkat akurasi yang lebih baik daripada SPRINT yaitu mampu menghasilkan akurasi 100% dimana tingkat akurasi tertinggi SPRINT hanya sampai 99,08%. Pohon keputusan yang dihasilkannya cukup baik dan mudah dimengerti. Namun waktu prosesnya lebih lambat daripada SPRINT hingga rata-rata 19,27 kali pada data dengan jumlah atribut banyak (mulai 20 atribut keatas). Untuk data banyak (dengan jumlah record 100.000 keatas), pengimplementasian algoritma MIND yang dibuat ini ternyata tidak mampu menghasilkan klasifikasi data sehingga hasil pengimplementasian ini belum scalable sebagai suatu tools pengklasifikasi data.
Kata Kunci : data mining, algoritma MIND, klasifikasi, scalable classifierABSTRACT: Information technology that has developed rapidly allows many companies to collect and store a very large amounts of data. Data mining is a process of extracting and analyzing this large amounts of data to obtain the interesting patterns of them, thus we can get knowledges from the data. One of the data mining functionalities is classification, which in this process is to find a description model that can classify the data, for the use of predicting objects that the class lable is still unknown.
This final project implement the MIND algorithm as one of classification algorithm using decision tree for a very large amounts of data, and make an analysis to the performance of the algorithm implementation, which are the classification accuracy, processing time (classification time), and the scalability, where the results are compared to SPRINT algorithm. The implementation itself is done using SQL Server 2000 and Delphi 6. Data used in performance testing are varied from 57 to 3,163 records, and from 10 to 28 attributes, with numerical and categorical attribute types and also the combination of both, and synthetical data to figure out its scalability.
The result we get that MIND algorithm implemented here is proven to have higher accuracy level than SPRINT for being able to give 100% accurate while SPRINT can only give highest accuracy at 99.08%. The decision tree result is sufficiently good and comprehensible. However, MIND algorithm implemented here has slower processing time than SPRINT on the average 19.27 times, for data with many attributes (20 attributes and higher). For large data (100,000 records and higher), the implementation using MIND algorithm made here is not capable to result data classification, therefore this implementation is not scalable yet as a data classification tool.
Keyword: data mining, MIND algorithm, classification, scalable classifier