ABSTRAKSI: Bahasa merupakan alat berkomunikasi antar manusia untuk menyampaikan berbagai hal ke sesama. Bahasa untuk setiap daerah tentunya memiliki pola dan struktur tersendiri. Sedemikian penting dan kompleksnya struktur dan peran bahasa sebagai alat komunikasi sehingga muncullah berbagai penelitian tentang bahasa tersebut. Salah satu hal yang penting dalam menentukan makna dari sebuah kata dalam kalimat adalah menentukkan jenis kata tersebut.
Metode Graph Clustering dengan menggunakan algoritma Chinese Whisper digunakan untuk mencari kelompok dari kata-kata tersebut dimana bobot hubungan antar kata mencerminkan derajat kesamaan yang terdapat antara kata yang saling berhubungan tersebut. Hasil dari clustering menggunakan metode ini memiliki sifat yang lebih granular dari kelompok kata pada aslinya sehingga perlu proses tambahan berupa many-to-1 accuracy. Untuk memperoleh urutan kata pada suatu kalimat uji juga digunakan Viterbi dimana nilai-nilai yang digunakan berasal dari proses tagging yang telah dilakukan sebelumnya.
Proses clustering menggunakan metode Chinese Whisper ini kurang cocok untuk tipe corpus yang memiliki frekuensi kata dominan frekuensi rendah sehingga apabila nilai threshold HFW dan MFW ditingkatkan sebagai langkah mempertinggi hubungan antar kata dalam cluster akan berdampak pada banyak kata yang terbuang dan jarangnya pola urutan cluster.Kata Kunci : POS Tagging, clustering, Graph Clustering, tagging, Chinese WhisperABSTRACT: Language is one of many tools used by humans to communicate with each other. Languages in different areas usually differ between one and another, which certainly leads in every language having their own unique patterns, sequences, and structures. Because of its significant function and complex structure, many researches have been made to study all about language. One of the important things in finding a meaning of a word in context of a sentence is to identify its tag/word type.
POS Tag approach based on Graph Clustering method specifically using the Chinese Whisper algorithm is used to find the clusters/groups of these words where the weight of each word reflects on the similarity of each pair. Form this process the granularity of clusters are usually finer than average tag sets hence needing an extra mapping process using the many-to-1 accuracy. To gain the tag sequence of an input text a Viterbi algorithm is utilized where the values of the matrix used are gained from the clustering process.
Clustering using the Chinese Whisper method is not satisfactory if the corpus used contains many words of low frequency so when the HFW and MFW threshold are increased, to gain higher relevancy words in one cluster, will effect in many words being left out making the tag sequence sparse.Keyword: POS Tagging, clustering, Graph Clustering, tagging, Chinese Whisper