IMPROVEMENT OF LEMMATIZATION FOR INDONESIAN TEXT DOCUMENT WITH SPELLCHECKER

INDIRA SYAWANODYA

Informasi Dasar

396 kali
19.05.001
004
Karya Ilmiah - Thesis (S2) - Reference

Lemmatisasi adalah teknik pada natural language processing yang digunakan untuk mengembalikan kata kepada kata dasarnya yang disesuaikan dengan kamus Bahasa Indonesia. Lemmatisasi digunakan pada kebutuhan yang berhubungan dengan text mining seperti information retrieval yang dilakukan pada tahap preprocessing. Metode lemmatisasi pada Bahasa Indonesia lebih dikenal dengan istilah stemming. Tahun 1996, Nazief sudah pernah membangun system stemming, namun masih terdapat beberapa kesalahan. Dalam perkembangan waktu, sudah banyak yang telah memperbaiki system lemmatisasi / stemming Bahasa Indonesia. Sastrawi dan Widayanto merupakan peneliti yang telah membangun system lemmatisasi yang memperbaiki algoritma sebelumnya. Keduanya memiliki akurasi yang lebih baik dari system yang sebelumnya, namun masih terdapat beberapa kesalahan karena adanya aturan morofologi yang tidak diinputkan kedalam algoritmanya, hal ini membuat kata tidak berhasil di lemmatisasi sehingga akurasi yang didapatkan masih kurang optimal. Selain itu waktu yang dibutuhkan pada saat menjalankan sistem lambat yang membuat performance sistem masih cukup rendah. Penelitian ini melakukan perbaikan algoritma Widayanto dengan menambah beberapa aturan lemmatisasi dan perbaikan pada kata akibat tipografi menggunakan spellchecker. Algoritma yang diusulkan pun mengatur ulang algoritma pada untuk mempercepat proses lemmatisasi. Dataset yang digunakan pada penelitian ini adalah novel sastra, buku agama, dan berita dengan total 8 dataset. Hasil akurasi pada penelitian ini dapat meningkatkan akurasi dan performance dari metode Widayanto dan Sastrawi.

Subjek

Natural language processing
 

Katalog

IMPROVEMENT OF LEMMATIZATION FOR INDONESIAN TEXT DOCUMENT WITH SPELLCHECKER
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

INDIRA SYAWANODYA
Perorangan
ARIEF FATCHUL HUDA
 

Penerbit

Universitas Telkom
Bandung
2019

Koleksi

Kompetensi

  • CSH6G3 - ANALISIS DAN PENAMBANGAN TEKS
  • IF5333 - PENGENALAN PENGGALIAN DATA
  • IF6242 - PENGGALIAN & PENCARIAN WEB & TEKS
  • CSG513 - SOCIO INFORMATICS
  • CII7E3 - ANALISIS DAN PENAMBANGAN TEKS
  • CII7E3 - ANALISIS DAN PENAMBANGAN TEKS

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini