ABSTRAKSI: Speech recognition merupakan salah satu teknologi yang mempermudah pekerjaan manusia dalam berinteraksi dengan komputer. Oleh karena itu, penelitian mengenai speech recognition merupakan kunci pengembangan teknologi tersebut. Pada penelitian sebelumnya, telah dikembangkan speech recognition menggunakan metode Hidden Markov Model (HMM). Saat ini, HMM merupakan metode yang handal untuk aplikasi speech recognition.
Pada penelitian ini dibuat pemodelan sistem speech recognition speech-to-text dengan menggunakan Mel Frequency Cepstral Coefficients (MFCC) dan Hidden Markov Model (HMM) yang mampu mengenali ucapan sebuah kata dalam bahasa Indonesia. Sistem dirancang menggunakan metode MFCC untuk ekstraksi ciri dan metode HMM untuk pencocokan ciri. Pada tahap ekstraksi ciri, dilakukan pengambilan ciri-ciri tertentu dari tiap sukukata. Vektor ciri yang terbentuk dikuantisasi vektor menggunakan K-Mean Clustering untuk mendapatkan codebook-nya. Setelah itu, codebook diklasifikasi dengan data latih yang telah dibuat sebelumnya dengan metode Hidden Markov Model (HMM).
Pengujian ini dilakukan dengan mengubah-ubah nilai koefisien pada MFCC, jumlah codebook, dan state HMM. Performansi sistem diukur berdasarkan aspek akurasi yang didapat dari parameter SRR (Syllable Racognized Rate). Berdasarkan hasil pengujian, hasil akurasi terbaik adalah 62,5% pada pengujian dengan koefisien MFCC 8. Kinerja sistem masih stabil dengan AWGN (Additive White Gaussian Noise) pada batas SNR sebesar 30.Kata Kunci : Speech recognition, speech-to-text, Mel Frequency Cepstral Coefficients (MFCC), Hidden Markov Model (HMM)ABSTRACT: Speech recognition is a technology that is helpful for people working with computer efficiently. Therefore, research in speech recognition is the key to develop the speech technology. On previous research, speech recognition was developed by Hidden Markov Model (HMM) method. Until now, HMM method still used because of reliability for speech recognition.
This final assessment research is designing the model of speech recognition system speech-to-text based using Mel Frequency Cepstral Coefficients (MFCC) and Hidden Markov Model (HMM) that can recognite speech in a Bahasa word. The system is designed using MFCC for feature extraction and HMM for feature matching. In feature extraction process, the signal character of each syllable is taken. The next step, feature vector is quantizied by K-Mean Clustering to get its codebook. Last process, the codebook is classified using HMM method by comparing input with training data.
This research is tested by changing the number of the MFCC coefficients, codebook and HMM states. And the system performance is measured based on the accuracy level that is calculated by SRR (Syllable Recognized Rate) parameter. According the test, the best accuracy is 62,5%, get in the test using MFCC 8 coefficients. And system still work properly with AWGN (Additive White Gaussian Noise) limited on SNR 30.Keyword: Speech recognition, speech-to-text, Mel Frequency Cepstral Coefficients (MFCC), Hidden Markov Model (HMM)