ABSTRAKSI: Pada supervised machine learning, data latih yang telah diberi label yang benar merupakan suatu hal yang menjadi prasyarat. Namun, dalam banyak pengaplikasiannya, tugas memberi label tidak bisa dilakukan secara otomatis, tapi melibatkan keputusan manusia dan oleh karena itu membutuhkan waktu yang banyak dan mahal.
Pada tugas akhir ini, active learning diimplementasikan pada support vector machine dan diteliti apa faktor yang mempengaruhi jumlah data latih yang diberi label dan tingkat akurasi sistem, dan bagaimana pengaruhnya. Selain itu juga dibandingkan metode pemilihan inisial data dan next data, yaitu metode random dan metode dissimilarity. Data yang digunakan dalam tugas akhir ini adalah Winsconsin Breast Cancer Diagnosis dan Hill-Valley dari UCI Repository. Tujuan utama dari active learning adalah memilih data yang penting atau berpengaruh pada sistem, sehingga bisa mengurangi jumlah data yang perlu diberi label.
Hasil penelitian adalah active learning mampu mengurangi jumlah data yang harus diberi label sampai 82.5% tanpa terjadi penurunan akurasi sistem yang significant.Kata Kunci : Active Learning, Support Vector Machine, klasifikasi, label data, pengurangan.ABSTRACT: In supervised machine learning, a training set of examples which are assigned to the correct target labels is a necessary prerequisite. However, in many applications, the task of assigning target labels cannot be conducted in an automatic manner, but involves human decisions and is therefore time-consuming and expensive.
In this final task, active learning is implemented in a support vector machine and examined what factors affect the amount of labeled training data and the accuracy of the system, and how they affect. It also compared the selection method of initial data and next data, the random method and the dissimilarity method. Data used in this final task is the Wisconsin Breast Cancer Diagnosis and Hill-Valley from the UCI Repository. The main goal of active learning is to select the data that is important or have influence in the system, so that it can reduce the amount of data that need to be labeled.
The results showed that active learning can reduce the amount of data need tobe labeled up to 82.5% without any significant decrease in the system accuracy.Keyword: Active Learning, Support Vector Machine, classification, data label, reduction.