Pembangunan Dataset Parafrasa Bahasa Indonesia untuk Sistem Pembangkit Parafrasa Otomatis

RYAN ABDUROHMAN

Informasi Dasar

148 kali
23.04.2505
006.35
Karya Ilmiah - Skripsi (S1) - Reference

Parafrasa dapat diartikan sebagai pengungkapan suatu teks dengan diksi yang berbeda tapi merujuk pada makna yang sama. Sistem yang dapat membangkitkan parafrasa secara otomatis memiliki peran yang sangat penting pada Natural Language Processing (NLP). Pada penelitian sebelumnya, dataset pararfrasa yang dihasilkan diekstrak menggunakan mesin penerjemah dengan asumsi pasangan teks sudah pasti memiliki kesamaan semantik. Sehingga, filter yang digunakan hanya pada perbedaan ragam diksi. Akibatnya, dataset yang dihasilkan cenderung kurang memuaskan dalam hal keragaman leksikal dan kesamaan semantik. Oleh karena itu, penelitian ini bertujuan untuk meng-generate dataset parafrasa dengan memanfaatkan task selain mesin penerjemah yaitu Abstractive Summarization pada dataset Liputan6. Hasil ringkasan manusia yang ada dalam dataset Liputan6 akan dipasangkan dengan teks hasil ringkasan sistem. Setelah itu, pasangan teks akan difilter berdasarkan rata-rata dari kesamaan semantik menggunakan BERTScore dan keragaman leksikal menggunakan inverseSacreBLEU. Dataset yang dihasilkan kemudian dievaluasi untuk dijadikan data latih pada pembangkit parafrasa serta dievaluasi pula secara manual oleh manusia. Proses filtrasi yang digunakan terbukti berhasil meningkatkan keragaman leksikal dibanding penelitian sebelumnya yang ditunjukkan peningkatan skor inverseSacreBLEU dari 57,42 ke 72,76. Adapun dataset yang dihasilkan dari liputan6 (146.030 data) memiliki jumlah hampir 40 kali lipat lebih kecil dari penelitian sebelumnya (5.753.296 data), tapi memiliki skor kesamaan semantik dan keragaman leksikal yang lebih tinggi dengan peningkatan sebanyak 1-2 poin skor. Hal ini menunjukkan kualitas dataset yang dihasilkan lebih baik dari penelitian sebelumnya.

Subjek

NATURAL LANGUAGE PROCESSING
Language and language-computer,

Katalog

Pembangunan Dataset Parafrasa Bahasa Indonesia untuk Sistem Pembangkit Parafrasa Otomatis
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

RYAN ABDUROHMAN
Perorangan
Arie Ardiyanti Suryani
 

Penerbit

Universitas Telkom, S1 Informatika
Bandung
2023

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini