ABSTRAKSI: Pengelompokan dokumen merupakan suatu permasalahan yang sangat penting saat ini. Hal ini disebabkan semakin banyak orang menyimpan dokumen berbentuk digital, tetapi belum dikelompokkan dengan baik. Ini menyebabkan timbulnya kesulitan dalam menemukan dokumen pada saat kita membutuhkan informasi didalam dokumen tersebut. Banyak jenis algoritma yang dapat digunakan untuk pengelompokan dokumen. Dalam tugas akhir ini, pengelompokan dokumen dilakukan dengan menggunakan Active Fuzzy Constrained Clustering.
Pada tugas akhir ini , dilakukan generalisasi pada proses build vector sebelum dokumen dkelompokkan dengan Active Fuzzy Constrained Clustering. Metode build vector yang akan digunakan adalah Vector Space Model (VSM) dan Generalized Vector Space Model (GVSM) dengan tambahan jenis informasi semantik. Dengan penerapan kedua metode ini, dapat dilihat perbedaan serta faktor yang dapat mempengaruhi dalam meningkatkan akurasi algoritma Active Fuzzy Constrained Clustering dalam pengelompokan dokumen.
Perhitungan similarity dengan menggunakan kamus kata wordnet (GVSM) sangat bergantung pada wordnet, jika kata kata pada dokumen pengujian dapat terdeteksi dengan baik pada wordnet maka akurasi hasil clustering juga akan lebih baik.
Kata Kunci : Active Fuzzy Constrained Clustering, Vector Space Model (VSM), Generalized Vector Space Model (GVSM), wordnet.ABSTRACT: Document clustering is a very important problem at this time. This is caused by the increase of people that stores digital document but not yet clustered well enough. This cause difficulties in finding the document when we need to get information information in the document. Many algorithm can be used in document clustering. In this final assignment, document clustering is done by using Active Fuzzy Constrained Clustering.
In this final assignment, generalization is done to the build vector process before the document is clustered with Active Fuzzy Constrained Clustering. The build vector method that are going to be used is Vector Space Model (VSM) and Generalized Vector Space Model (GVSM) with semantic information addition. With the use of this two method, it can be seen that the difference and the factor that can affect the accuracy improvement in the Active Fuzzy Constrained Clustering Algorithm in document clustering.
The similarity calculation by using wordnet thesaurus (GVSM) is very dependant to wordnet, if the word in the testing document can detect well in the wordnet, then the accuration will also be good.
Keyword: Active Fuzzy Constrained Clustering, Vector Space Model (VSM), Generalized Vector Space Model (GVSM), wordnet.