ABSTRAKSI: Comparative Text Mining (CTM) merupakan bagian dari text mining yang secara khusus mempunyai fungsi: menemukan tema umum dari semua koleksi, dan menemukan tema khusus dari suatu dokumen. Penggunaan CTM salah satunya yaitu untuk summarizing reviews. Summarization merupakan proses otomatis yang menghasilkan versi dokumen yang lebih pendek (50% atau kurang) namun tetap berguna bagi pengguna. Dengan summarization, pengguna diharapkan dapat
Metode clustering adalah metode yang memiliki kemampuan untuk menganalisis serta mengelompokkan secara otomatis dokumen-dokumen. Teknik clustering pada umumnya menggunakan kata dan dokumen biasanya dianggap sebagai kumpulan kata-kata tanpa adanya urutan atau yang disebut bag of word. Suffix Tree Clustering (STC) adalah algoritma pertama yang menggunakan frasa (multi-word terms) sehingga prosesnya lebih sederhana dibandingkan dengan algoritma yang lain. STC adalah algoritma incremental, kompleksitas waktu perhitungannya linear dan memenuhi kriteria untuk document clustering web.
Penerapan algoritma STC untuk CTM dilakukan untuk membuktikan dan melakukan kajian terhadap performansi dari algoritma STC tersebut. Dalam penelitian dilakukan pengamatan pengaruh parameter terhadap optimalisasi hasil yang dicapai, yaitu pengaruh parameter nilai background theme dan bestRank range.
Kata Kunci : Comparative Text Mining (CTM), metode clustering, Suffix Tree Clustering (STC), dan tema.ABSTRACT: Comparative Text Mining (CTM) is one of many techniques in text mining which peculiarly have the function: finding common theme from all collection and finding the special theme from a document. The use of CTM, for example, is for summarizing reviews. Summarization is an automatic process yielding shorter document version (50% or less) but remains useful for user. By summarization, user is expected to be able to catch the document’s content without having to see the overall of document.
Clustering method is a method having ability to analyze and to group documents automatically. Generally, clustering technique using word and document is usually considered as word sets without the existence of sequence, called bag of word. Suffix Tree Clustering (STC) is the first algorithm that use phrase (multi-word terms) so that its process is simpler than other algorithm. STC is an incremental algorithm, the complexity of the algorithm is linear and fulfill the criterion for clustering web documents.
This final assignment aims to study and to prove the performance of STC’s algorithm by applying it to CTM case. This experiment is done to see how parameters, which are background theme and bestRank range, influence the optimalization of the result.
Keyword: Comparative Text Mining (CTM), method of clustering, Suffix Tree Clustering (STC), and theme.