ABSTRAKSI: Perkembangan dokumen teks sangat cepat di internet, perpustakaan digital, dan artikel-artikel. Informasi di internet sangat bermanfaat bagi pengguna, khususnya artikel berita dalam bentuk dokumen teks. Begitu banyak artikel berita yang ada di internet sehingga sangat menyulitkan pengguna internet untuk mendapatkan artikel berita yang diinginkan. Untuk itu diperlukan kategorisasi artikel berita berdasarkan informasi yang terkandung di dalamnya. Sehingga artikel berita tersebut bisa di kategorikan pada topik tertentu.
Klasterisasi dokumen/artikel merupakan salah satu metode yang dilakukan untuk menggali informasi yang terkandung dalam dokumen/artikel tersebut. Klasterisasi dilakukan untuk membuat klaster agar dokumen yang berhubungan atau dokumen yang informasinya mirip satu sama lain bisa berada dalam klaster yang sama. Sebuah dokumen mempunyai sifat dimensi tinggi dan volume data yang besar. Untuk itu diperlukan metode yang bisa menangani dimensi yang tinggi dan volume data yang besar.
Pada umumnya algoritma klasterisasi hanya fokus pada klasterisasi satu arah, misalnya membuat klaster dokumen berdasarkan distribusi kata, atau membuat klaster kata/word berdasarkan distribusi dokumen. Oleh sebab itu, dikembangkan metode Co- Clustering yang membuat klaster secara simultan pada kedua dimensi tabel. Hal ini dilakukan untuk mengurangi dimensi secara efektif dan efisien.Kata Kunci : co-clustering, information theory, mutual informationABSTRACT: Text document are growth rapidly on internet, digital library, and articles. The information on the web especially news articles are useful for user. A lot of news articles are available on internet. So, it is hard for user to get the news articles that they wanted. Hence news articles categorization based information content is needed. So, it can be categorized based on the topic.
Documents/articles clustering is one of ways to mine the information contents of documents/articles. Some related documents are located in the same cluster by clustering. A document can have high dimension and huge volume of data. For that reason, a technique is needed to handle it.
Generally, clustering algorithms focus on one-way clustering, for example, clustering based on words distribution or based on document distribution. therefore, coclustering which makes cluster simultaneously on the both of table dimension is developed to reduce the dimension effectively and efficiently.Keyword: co-clustering, information theory, mutual information