Lemmatisasi adalah teknik pada natural language processing yang digunakan untuk mengembalikan kata kepada kata dasarnya yang disesuaikan dengan kamus Bahasa Indonesia. Lemmatisasi digunakan pada kebutuhan yang berhubungan dengan text mining seperti information retrieval yang dilakukan pada tahap preprocessing.
Metode lemmatisasi pada Bahasa Indonesia lebih dikenal dengan istilah stemming. Tahun 1996, Nazief sudah pernah membangun system stemming, namun masih terdapat beberapa kesalahan. Dalam perkembangan waktu, sudah banyak yang telah memperbaiki system lemmatisasi / stemming Bahasa Indonesia.
Sastrawi dan Widayanto merupakan peneliti yang telah membangun system lemmatisasi yang memperbaiki algoritma sebelumnya. Keduanya memiliki akurasi yang lebih baik dari system yang sebelumnya, namun masih terdapat beberapa kesalahan karena adanya aturan morofologi yang tidak diinputkan kedalam algoritmanya, hal ini membuat kata tidak berhasil di lemmatisasi sehingga akurasi yang didapatkan masih kurang optimal. Selain itu waktu yang dibutuhkan pada saat menjalankan sistem lambat yang membuat performance sistem masih cukup rendah.
Penelitian ini melakukan perbaikan algoritma Widayanto dengan menambah beberapa aturan lemmatisasi dan perbaikan pada kata akibat tipografi menggunakan spellchecker. Algoritma yang diusulkan pun mengatur ulang algoritma pada untuk mempercepat proses lemmatisasi. Dataset yang digunakan pada penelitian ini adalah novel sastra, buku agama, dan berita dengan total 8 dataset. Hasil akurasi pada penelitian ini dapat meningkatkan akurasi dan performance dari metode Widayanto dan Sastrawi.