ABSTRAKSI: Kategorisasi teks merupakan sebuah otomatisasi dalam pengkategorian teks berdasarkan konten yang terdapat dalam dokumen tersebut. Pada riset kategorisasi teks sebelumnya, dokumen direpresentasikan sebagai “bag of words” yaitu sekumpulan kemunculan term dalam dokumen tersebut. Dalam melakukan kategorisasi teks, pertimbangan frekuensi kemunculan term saja tidak cukup sebab dalam melakukan proses kategorisasi teks perlu pula mempertimbangkan susunan term dalam dokumen. Oleh sebab itu digunakan skema pembobotan Distributional Feature. Pertimbangan Distributional Feature yang dibahas dalam tugas akhir ini adalah compactness of appearance dan position of the first appearance of a word.
Dalam Tugas Akhir Distributional Feature digabungkan dengan skema pembobotan Term Frequency Inverse Document Frequency (TFIDF) dan Inverse Term Frequency (ITF). Kemudian dilakukan pembandingan performansi berupa nilai precision, recall, dan F1 measure antara TFIDF, TFIDF·DF (TFIDF dan Distributional Feature) dan ITF·DF (ITF dan Distributional Feature).
Hasil pengujian menunjukkan bahwa, penggunaan Distributional Feature dengan skema pembobotan TFIDF (TFIDF·DF) dan Distributional Feature dengan ITF (ITF·DF) mampu menghasilkan performansi yang cukup baik. Hal ini dibuktikan dengan rata-rata precision, recall, dan F1 measure yang mendekati angka 1. Selain itu, penggunaan Distributional Feature dengan skema pembobotan TFIDF dan ITF mampu menghasilkan performansi yang lebih baik jika dibandingkan dengan skema pembobotan TFIDF ketika menggunakan 25%, 50%, dan 75% dataset dari setiap kelas untuk masing-masing topik. Sedangkan pada saat menggunakan 100% dataset, TFIDF menghasilkan performansi yang lebih baik dibandingkan dengan skema pembobotan TFIDF·DF dan ITF·DF.
Kata Kunci : kategorisasi teks, Distributional Feature, TFIDF, TFIDF·DF, ITF·DF, performansiABSTRACT: Text categorization is a method to categorize a document based on its contents. Latest research said that a document can be represented as a “bag of words” where a document is represented as a set of terms appearing in this document. When we categorize a text, we can not just considerate the frequency of a word, but we must also considerate about the structure of the words. For that reason, we should use Distributional Feature for text categorization based on the compactness of appearance and position of the first appearance of a word.
In this paperwork, the writer tries to combine the Distributional Feature with Term Frequency Inverse Document Frequency (TFIDF) and Inverse Term Frequency (ITF). The writer compares the result of each method by watching the value of its precision, recall, and F1 measure.
The result shows that the use of Distributional Feature gives a good result. It is proved by its recall, precision and F1 measure value which is near 1. The performance of Distributional Feature (TFIDF·DF, ITF·DF) when use 25%, 50% and 75% of dataset is better than TFIDF. At the other hand, TFIDF shows better performance when use 100% of dataset.
Keyword: text categorization, Distributional Feature, TFIDF, TFIDF·DF, ITF·DF, performance