ABSTRAKSI: Perkembangan speech synthesizer saat ini meningkat cukup pesat. Berawal dari hasil suara yang didapatkan tidak terdengar alami sama sekali, kemudian menuju ke arah prosodi yang semakin bagus. Salah satu contoh penerapan speech synthesizer adalah pada Text-to-Speech. Speech synthesizer berada pada blok terakhir dalam sistem Text-to-Speech. Speech synthesizer merupakan sebuah sistem yang mampu menghasilkan suara tiruan manusia dengan sintesa ucapan. Metode speech synthesizer yang ada saat ini adalah formant synthesis, articulatory synthesis, concatenative synthesis.
Metode yang digunakan dalam tugas akhir ini adalah metode diphone concatenation. Mula-mula sintesa ucapan dibentuk dengan melakukan perekaman suara dan hasilnya disimpan dalam database. Kemudian suara rekaman tersebut dipecah menjadi diphone yang memiliki transisi antar dua bunyi yang berdekatan (adjacent phones) sehingga akan lebih stabil saat digabungkan dengan diphone yang lain. Untuk menggabungkan unit ucapan diphone, digunakan algoritma Waveform Similarity Overlap-Add (WSOLA). Dengan menggunakan algoritma WSOLA, perangkaian antar diphone yang mengandung transisi antar dua bunyi yang berdekatan (adjacent phones), menjadi halus tanpa bunyi yang bersifat eksplosif.
Dari metode diphone concatenation dan penerapan algoritma WSOLA maka sintesis ucapan yang dihasilkan ternyata dapat dimengerti dengan jelas, lancar dalam pengucapan dan datar tanpa intonasi. Semakin beranekaragam unit diphone yang terdapat pada database akan memudahkan dalam pembentukan sintesis ucapan, sehingga akan meningkatkan kualitas hasil sintesis. Namun semakin besar memori yang dibutuhkan untuk menyimpan unit-unit diphone tersebut. Dari hasil penilaian Mean Opinion Score (MOS), parameter intelligibity mencapai nilai 3,41 dan fluidity yang mencapai 3,35 serta naturalness mencapai nilai 3,28. Dengan demikian kemampuan sistem dalam mensintesis suara ucapan manusia termasuk dalam kategori cukup.Kata Kunci : speech synthesizer, diphone concatenation, algoritma WSOLAABSTRACT: Currently, the development of speech synthesizer is increasing rapidly. From the speech results obtained that does not sound natural to hear at all, and then go to the better prosody. One of the speech synthesizer applications is on the Text-to-Speech system. Speech synthesizer is a system that is capable of producing sound imitation with human speech synthesis. There are three method of speech synthesizer, that is formant synthesis, articulatory synthesis, concatenative synthesis.
Diphone concatenation is the method used in this final assignment. Initially, speech synthesis formed with voice recording and the results stored in database. Then it brakes into diphone that has a transition between two neighboring sound (adjacent phones) so it will be more stable when combined with another diphone. To combine speech diphone units, Waveform Similarity Overlap-Add (WSOLA) algorithm is used. By using the WSOLA algorithm, combination between diphone containing transition between two neighboring sounds (adjacent phones), will be smooth without the explosive sound.
Combining diphone concatenation method with WSOLA algorithm would make the speech synthesis sounds clear, smooth and as natural as the voice of human being without prosody. The more diverse units of the diphone database will facilitate the establishment of speech synthesis, will improve the quality of synthesis results. But the larger memory will be needed to store them. Based on Mean Opinion Score (MOS), the intelligibility, fluidity and naturalness parameter has reach 3,41; 3,35 and 3,28. So that the system is fair enough in synthesizing human speech.Keyword: speech synthesizer, diphone concatenation, WSOLA algorithm