Pengumpulan Korpus Paralel Bahasa Indonesia-Sunda dari Wikipedia Menggunakan Metode Pointwise Mutual Information

ARIZAL FIRDAUS

Informasi Dasar

17.04.2256
C
Karya Ilmiah - Skripsi (S1) - Reference

Pengumpulan korpus paralel sedang gencar dilakukan untuk keperluan studi dan pengembangan NLP. Namun, untuk pasangan kalimat beberapa bahasa, khususnya Bahasa Indonesia-Sunda, jumlah korpus paralel yang tersedia masih sangat sedikit. Sedangkan untuk mengumpulkan korpus paralel secara manual memerlukan waktu yang lama dan biaya yang mahal. Dengan alasan tersebut, pengumpulan korpus paralel akan lebih efektif dan efisien jika dikumpulkan secara otomatis. Dalam tugas akhir ini, akan dilakukan penelitian pengumpulan korpus paralel pada Wikipedia meggunakan metode Pointwise Mutual Information (PMI) untuk menentukan sentence similarity. Pengambilan data dari artikel Wikipedia bahasa Indonesia dan Sunda dengan memanfaatkan fasilitas interlanguage link dan MediaWIki API. Dengan metode ini, diharapkan didapat korpus paralel yang cukup baik dengan efisien.

Kata kunci: korpus paralel, Wikipedia, pointwise mutual information, interlanguage link, MediaWiki API

Subjek

Natural language processing
 

Katalog

Pengumpulan Korpus Paralel Bahasa Indonesia-Sunda dari Wikipedia Menggunakan Metode Pointwise Mutual Information
 
 
 

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

ARIZAL FIRDAUS
Perorangan
Arie Ardiyanti Suryani, Kurniawan Nur Ramadhani
 

Penerbit

Universitas Telkom
Bandung
2017

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini