Penggunaan Algoritma Clustering based on Frequent Word Sequences (CFWS) dalam Pengelompokkan Artikel Berbahasa Indonesia

Mauliza

Penggunaan Algoritma Clustering based on Frequent Word Sequences (CFWS) dalam Pengelompokkan Artikel Berbahasa Indonesia

Mauliza

Informasi Dasar

Penggunaan Algoritma Clustering based on Frequent Word Sequences (CFWS) dalam Pengelompokkan Artikel Berbahasa Indonesia

Dilihat

402 kali

No. Katalog

113060253

Klasifikasi

005.1

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI: Sebagai bahasa yang kaya dengan kosa kata, bahasa Indonesia memiliki banyak kata yang berbeda namun memiliki arti sama (sinonim). Hal ini dapat menyebabkan banyak berita masuk ke dalam kelompok atau kategori yang tidak relevan dengan isi beritanya. Untuk itu diperlukan cara untuk mengolah data untuk mendapatkan manfaat dari data itu, salah satu cara untuk mengolah berita tersebut yaitu data mining.Dalam data mining terdapat salah satu metode yang sering digunakan yaitu clustering. Clustering merupakan pengelompokkan objek berdasarkan karakteristiknya. Pengelompokkan berita dapat menggunakan metode clustering dengan tujuan untuk mengelompokkan artikel berita sesuai dengan topik beritanya.

Dalam tugas akhir ini mengimplementasikan suatu metode clustering, yaitu algoritma Clustering based on Frequent Word Sequences (CFWS) pada artikel berita berbahasa Indonesia. CFWS merupakan algoritma yang mempresentasikan dokumennya dengan menggunakan kata-kata yang paling sering muncul secara berurutan pada setiap dokumen. Dengan menggunakan algoritma ini dapat mengurangi dimensi dari setiap dokumen secara signifikan sehingga proses clustering menjadi lebih efisien. Pengujian dilakukan untuk melihat kualitas hasil cluster berdasarkan metode pengukuran akurasi F-measure.

Berdasarkan pengujian yang sudah dilakukan, algoritma CFWS dapat menghasilkan hasil kualitas hasil cluster yang baik. Selain itu algoritma CFWS dapat menghasilkan hasil cluster yang baik untuk dataset dengan topik yang berdekatan maupun topik yang sangat berbeda.Kata Kunci : data mining, clustering, CFWS, F-measureABSTRACT: As a rich with vocabulary language, Indonesian language has many words with the same meaning (synonym). This can cause news report being grouped in a non relevant category with the news' content. Therefore, a method to to process data is needed for getting te benefit from that data. One of the method used to process news is data mining. In data mining, there is a method that is used often, which is clustering. Clustering is the grouping of object according to its characteristic. The news grouping can use the clustering methode with the purpose to group a news article appropriate with its news topic.

In this final assignment, a clustering method is implemented, which is the Clustering based on Frequent Word Sequences (CFWS) algorithm on Indonesian language news article. CFWS is an algorithm that represents documents by using the most frequent word sequncesthat appear inthe document. By using this algorithm, the dimension of the document can be reduced significantly so the clustering process can be more efficient. THe testing was done to see the quality of the final cluster according to the accuracy calculation with F-Measure.

According to the test that have been done, CFWS algorithm produce a good quality of cluster. Beside that, the CFWS algorithm can produce a good cluster for the data set with a similar topic and different topic.Keyword: data mining, clustering, CFWS, F-measure