Automatic Speech Recognition (ASR) memiliki kemampuan yang dapat membuat komputer mengenali apa yang diucapkan oleh seseorang berdasarkan sinyal suara yang diucapkan oleh seseorang. Dengan kemampuan tersebut sistem ini dapat digunakan untuk mengenali jika seseorang salah dalam mengucapkan sebuah kata. Metode yang digunakan dalam tugas akhir ini adalah Mel Frequency Cepstral Coefficient (MFCC) untuk ekstraksi ciri yang akan mengubah deretan nilai amplitudo menjadi frame-frame yang kemudian akan diolah menggunakan mel-filterbank yang mengadaptasi cara kerja pendengaran manusia sehingga terbentuklah nilai-nilai koefisien yang menjadi fitur ciri. Hasil dari MFCC kemudian diolah menjadi codebook yang nantinya akan menjadi masukkan dalam Hidden Markov Models (HMM) untuk dibuat modelnya. Hasil dari ekstraksi ciri dari data tes kemudian dikuantisasi untuk menjadi data yang akan dikenali menggunakan model yang telah didapat. Pengujian dilakukan dengan menggunakan 10 pasangan kata dengan tingkat kemiripan yang tinggi dan sering tertukar dilafalkan secara terpisah. Dari hasil pengujian didapat tingkat akurasi rata-rata setiap pasangan kata sebesar 78,3% pada model HMM 3 state dan 81,67% pada model HMM 5 state.