ABSTRAKSI: Konversi Indonesian grapheme-to-phoneme (G2P) merepresentasikan sebuah tugas memetakan setiap grafem / symbol eja dalam sembarang kata yang dikenal dalam bahasa Indonesia ke representasi fonemik / simbol pelafalannya.
Pencarian metode terbaik yang dilakukan dalam tugas akhir ini memberikan hasil berupa penetapan sebuah model bernama IG-tree + strategi tebakan-terbaik sebagai metode yang terpilih untuk memecahkan permasalahan konversi G2P. Model tersebut pada dasarnya menggunakan struktur pohon-keputusan yang dibangun berdasarkan data training, dikonstruksikan menggunakan konsep information gain (IG) dalam menentukan kepentingan relatif atribut-atribut, dan dilengkapi dengan strategi tebakan-terbaik dalam mengklasifikasikan instan-instan baru. Akan tetapi sistem dalam tugas akhir ini dikembangkan lebih lanjut dengan properti-properti baru yang ditambahkan pada struktur asalnya untuk meningkatkan performansi sistem. Mekanisme pruning diusulkan untuk model dengan dua tujuan: (1) meningkatkan kemampuan generalisasi model, dan (2) meminimalkan ukuran model. Properti baru yang lain, peng-handle kasus homograf menggunakan metode kategorisasi teks, diusulkan untuk sistem untuk menangani kasus khususnya berupa beberapa himpunan kata yang sepenuhnya sama dalam representasi grafemik namun berbeda satu sama lain dalam representasi fonemik.
Ditunjukkan dalam tugas akhir ini bahwa model tersebut secara umum berperformansi bagus sementara properti-properti tambahan yang diusulkan memang memberikan keuntungan tambahan sebagaimana yang diharapkan.Kata Kunci : konversi grapheme-to-phoneme, bahasa Indonesia, IG-tree, strategi tebakan-terbaik, pruning, peng-handle kasus homografABSTRACT: Indonesian grapheme-to-phoneme (G2P) conversion represents a task of mapping each grapheme / spelling symbol in any Indonesian word to its phonemic representation / pronounciation symbol
A selection for the best method is in this final project results in determining a model called IG-tree + best-guess strategy as the chosen model to solve G2P conversion problem. The model is basically in decision-tree structure built based on a trainingset, constructed using concept of information gain (IG) in weighing the relative importance of attributes, and equipped with the best-guess strategy in classifying new instances. However, the system is in this final project leveraged with new features added to its pre-existing structure to improve its performance. A pruning mechanism is proposed for the model for two objectives: (1) improving its generalization ability, and (2) minimizing its dimension. Another new feature, the homograph case handler using a text-categorization method, is proposed for the system to handle its special case of a few sets of words which are exactly the same in graphemic representations but are different each other in phonemic representations.
It is shown in this final project that the model in general performs well while the additional features really give additional benefits as expected.Keyword: grapheme-to-phoneme conversion, Indonesian, IG-tree, best-guess strategy, pruning, homograph-case handler