ABSTRAKSI: Klasifikasi merupakan proses untuk mencari suatu himpunan model atau fungsi yang dapat mendeskripsikan dan membedakan kelas-kelas data atau konsep-konsep, dengan tujuan dapat menggunakan model tersebut untuk memprediksi kelas dari suatu objek yang mana kelasnya belum diketahui. Salah satu teknik atau metode yang digunakan dalam membangun model klasifikasi data adalah Bayesian Network (BN). BN terdiri dari dua bagian utama, yaitu membangun struktur DAG (directed acyclic graph) dan menghitung CPT (conditional probability table). Saat ini telah dikembangkan metode learning yang memungkinkan untuk membangun struktur BN secara langsung dari basis data. Metode-metode tersebut antara lain metode search and scoring (scored based) dan dependency analysis (constraint based).
Dalam tugas akhir ini digunakan algoritma learning dengan pendekatan dependency analysis yaitu Three Phase Dependency Analysis Õ (TPDA Õ). Algoritma ini dapat mengkonstruksi struktur Bayesian Network dari data yang telah diketahui urutan atributnya. TPDA Õ membangun struktur DAG (directed acyclic graph) dengan mengidentifikasi/menganalisa hubungan bebas bersyarat (conditional independence test) atau disebut juga CI test antar atribut, dimana CI menjadi constraint dalam membangun struktur BN. Dari struktur DAG yang telah di bangun oleh TPDA Õ dapat ditentukan klasifikasi dari suatu data.
Tujuan dari tugas akhir ini adalah untuk menga nalisa akurasi dari BN yang dibangun menggunakan TPDA Õ. Dari hasil pengujian pada kasus chest clinic dan primary tumor terdapat perubahan akurasi yang dihasilkan pada masingmasing data. Perubahan akurasi ini dapat terjadi akibat pengaruh threshold dan data yang digunakan. Rata-rata akurasi yang diperoleh pada kasus chest clinic adalah 86,2% dengan data training 900 record dan testing 100 record, sedangkan pada kasus primary tumor adalah 79,17%.
Kata Kunci : Bayesian Network (BN), konstruksi BN, TPDA Õ, klasifikasi,ABSTRACT: Classification is the process to find a set model or function that can describe and distinguish data classes or concepts, in order to use these models to predict the class of an object where the class is unknown. One of the techniques or methods used in building a data classification model is Bayesian Network (BN). BN consists of two main parts, namely to build the structure of DAG (directed acyclic graph) and calculate the CPT (conditional probability table). Currently learning methods have been developed that allows to build BN structures directly from the database. These methods include search and scoring method (scored based) and dependency analysis (constraint based).
In this final project used learning algorithm with dependency analysis approach that is the Three Phase Dependency Analysis Õ (TPDA Õ). This algorithm can construct a Bayesian Network structure from the known sequence of data attributes. TPDA Õ build structures DAG (directed acyclic graph) by identifying / analyzing relationships parole (conditional independence test) or also called CI tests between attributes, where CI is a constraint in building the BN structure. From DAG structure that has been established by TPDA Õ can be determined a data classification.
The purpose of this final project is to analyze the accuracy of the BN which was built using TPDA Õ. From the test results in cases of chest clinic and the primary tumor there is a change resulting accuracy on each data. Changes in accuracy are possible under the influence of threshold and data used. The average accuracy obtained in the case of chest clinic was 86.2% with 900 training data and testing records 100 records, whereas in the case of the primary tumor was 79.17%.
Keyword: Bayesian Network (BN), construction BN, TPDA Õ, classification,