Normalisasi Teks Tidak Baku Media Sosial dengan Sequence to Sequence

RISTA ARYANTIWI

Informasi Dasar

49 kali
23.04.3539
004
Karya Ilmiah - Skripsi (S1) - Reference

 

Gaya penulisan informal dan penulisan kata yang tidak tepat sering kali menimbulkan dampak negatif pada beberapa penelitian Natural Language Processing(NLP), untuk itu diperlukan proses normalisasi yang berperan merubah bentuk data yang tidak terstruktur menjadi lebih terstruktur dengan standar yang telah ditentukan, normalisasi dinilai dapat mengurangi dampak dari gaya penulisan informal dan meningkatkan performa NLP.

Pada penelitian ini akan dilakukan proses normalisasi dengan pendekatan berbasis mesin translasi, menggunakan arsitektur Sequence to Sequence dengan jaringan lstm dan mekanisme attention, dataset yang digunakan dikumpulkan dari dataset penelitian mesin translasi dengan target bahasa indonesia, penggalan komentar dari media sosial Twitter, dan melalui kuisioner kalimat sehari-hari. Hasil keluaran sistem diharapkan dapat berupa kalimat yang baku dan dapat diproses dengan baik oleh semua permodelan NLP.

Pada penelitian ini didapatkan nilai rata-rata akurasi dengan algoritma BLEU score sebesar 27.44% untuk data uji yang seluruh katanya dikenali oleh kamus tokenisasi, dan 18.49% untuk data uji yang mengandung kosa kata diluar dari kamus tokenisasi. Berdasarkan nilai akurasi tersebut, sistem yang dibangun dinilai belum cukup cakap untuk di implementasikan secara langsung dan masih membutuhkan banyak pengembangan dan pelatihan lebih lanjut.

Subjek

Automatic control-data processing
MEDIA SOSIAL,

Katalog

Normalisasi Teks Tidak Baku Media Sosial dengan Sequence to Sequence
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

RISTA ARYANTIWI
Perorangan
Arie Ardiyanti Suryani
 

Penerbit

Universitas Telkom, S1 Informatika
Bandung
2023

Koleksi

Kompetensi

  • CII4E4 - TUGAS AKHIR

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini