ABSTRAKSI: Text to speech (TTS) merupakan salah satu aplikasi dalam bidang teknologi informasi sebagai salah satu cara interaksi antara manusia dan komputer dengan cara mengkoversi teks menjadi ucapan/suara. Saat ini sudah dibuat TTS Bahasa Indonesia untuk penggunaan di PC yaitu IndoTTS, namun pelafalan pada IndoTTS ini masih belum natural.
Dalam sistem Text to Speech (TTS), sebenarnya pembentukan intonasi yang benar merupakan faktor penting yang akan mempengaruhi pembacaan pada output sistem. Bagian yang mengatur pembentukan intonasi di bagian output sistem ini disebut pembangkitan prosodi. Intonasi yang dihasilkan dari bagian ini meliputi durasi dan pitch pengucapan teks input.
Proses penentuan nilai durasi dan pitch dari teks input bersifat kompleks dan non-linear, maka sebagai dasar sistem digunakan Multilayer Perceptron Neural Network (MLPNN) sebagai model prosodinya. Model prosodi berbasis MLPNN membentuk intonasi pengucapan teks input dengan cara menentukan nilai durasi dan pitch dari tiap fonem penyusun teks input. Penentuan nilai durasi dan pitch dilakukan setelah sistem melakukan pembelajaran terhadap sampel pengucapan dari suatu kalimat.
Dalam tugas akhir ini, telah dibuat aplikasi Text to Speech Bahasa Indonesia dengan disertai peningkatan natural (kealamian) dalam pelafalan kalimat berupa teks (tidak termasuk angka dan simbol-simbol). Pembuatan aplikasi TTS ini menggunakan bahasa pemrograman Borland Delphi 7.0 dan memanfaatkan database diphone Bahasa Indonesia yang sudah tersedia serta menggunakan pembangkit ucapan Mbrola. Setelah dilakukan pengambilan MOS dari 30 koresponden yang terdiri dari mahasiswa dan masyarakat sekitar, didapatkan bahwa hasil dari sistem TTS dengan model prosodi MLPNN lebih baik kualitasnya dibandingkan dengan sistem IndoTTS.Kata Kunci : Prosodi, MLPNN, diphone, MBROLA.ABSTRACT: Text to Speech is one of Information Technology application which is used as an interaction between human and computer by converting text becoming voice. Nowadays, TTS Bahasa Indonesia has been made for PC use that is IndoTTS, but IndoTTS reading is still unnatural.
In Text to Speech system, a forming of the right intonation is very important factor that will influence voice in system output. Part of this system that arranges intonation forming in output part called ‘prosody evocation’. Intonation, resulted from this part, includes duration and pitch of input text pronunciation.
Process of duration value determination and pitch from input text have complex and non-linear characteristic, so as a base of prosody model system Multilayer Perceptron Neural Network (MLPNN) is used. Prosody model based on MLPNN produces intonation of input text pronunciations by deciding duration value and pitch from every phoneme of input text compiler. Determination of duration value and pitch is done after system does some learning about pronunciation sample from a sentence.
In this final task, Text to Speech of Indonesian language application has be made and accompanied by natural improvement in reading a sentence without numeral and symbols. This application is done by using programming language Borland Delphi 7.0 with diphone Indonesian language database which has been available and MBROLA pronounciation generator. After getting the MOS result from 30 coresponden, it can be concluded that TTS system with MLPNN prosody model has better quality compared with IndoTTS system.Keyword: Prosody, MLPNN, diphone, MBROLA.