ABSTRAKSI: Pada hakekatnya sebuah dokumen teks merupakan suatu jenis basis data yang tidak terstruktur, karena tidak memiliki field-field seperti halnya basis data konvensional. Berbedanya topik sebuah dokumen dengan dokumen yang lain bisa diartikan bahwa dokumen-dokumen tersebut menyimpan informasi yang berbeda
Kategorisasi dokumen text merupakan upaya untuk mengelompokan dokumen kedalam kelompok-kelompok yang sudah terdefinisi. Saat ini sudah banyak metode kategorisasi/klasifikasi dokumen seperti classifier K-Nearest Neighbor (KNN), Bayesian Classifier, Decision Tree dan metode Rocchio yang biasa digunakan utuk permasalahan klasifikasi.
Permasalahan kategorisasi secara hirarkis sebenarnya lebih banyak ditemui dalam dunia nyata, seperti penyimpanan file-file digital dalam folder-folder yang biasanya tersusun hirarkis. Salah satu implementasi kategorisasi ini adalah dengan memanfaatkan Fuzzy Relational Thesaurus (FRT) sebagai struktur hirarki kelas dalam kategorisasi.
Tugas akhir ini mengimplementasikan metode klasifikasi dokumen teks yang menggunakan FRT sebagai hirarki topiknya dan memanfaatkan metoda Rocchio sebagai metode bantuan pembentuk klassifiernya. Hasil pengujian menunjukan proses training untuk memilih fitur terbaik dalam metode FRT bisa menghasilkan classifier yang lebih baik dari classifier metode Rocchio.
Kata Kunci : kategorisasi teks hirarkis, Metode Rocchio, Fuzzy Relational ThesaurusABSTRACT: Intrinsically a text document is a kind of unstructured data base because it doesn’t has fields such as conventional database. Difference in topic of a document with another document mean that those documents contain different information.
Text categorization is task to assign document into a predefined set of category. Nowadays there are a lot of text categorization method such as K-Nearest Neighbor (KNN), Bayesian Classifier, Decision Tree and Rocchio method aplicable to classification problem.
Hierarchical categorization problems are found a lot in the real life, such as storing digital files into a hierarchically structured folders. One of implementation in categorization is by utilize Fuzzy Relational Thesaurus (FRT) as a class hierarchy structure in categorization.
This final project has implemented a text classification method that uses FRT as topic hierarchy and Rocchio method as an assist method to build its classifier. Test result showed that training process to select the best feature in FRT method could produce a better classifier than Rocchio method’s.
Keyword: hierarchical text categorization, Roccio method, Fuzzy Relational Thesaurus.