Perbandingan Algoritma Sentencepiece BPE dan Unigram Pada Tokenisasi Artikel Bahasa Indonesia

TRIWIDYASTUTI JAMALUDDIN

Informasi Dasar

173 kali
20.04.2236
003.3
Karya Ilmiah - Skripsi (S1) - Reference

Tokenisasi merupakan sebuah konsep yang mencakup proses sederhana dimana urutan teks dipecah menjadi bagian-bagian yang lebih kecil atau token dan kemudian dimasukkan sebagai input ke dalam model Natural language processing (NLP), atau proses model yang lebih kompleks seperti menerapkan pengetahuan dunia Deep Learning (DL). Tokenisasi akan lebih rumit ketika berhadapan dengan kasus semua kata dikelompokkan menjadi satu token atau tanpa pemisah dan kesalahan dalam tipografi. Paper ini mengusulkan model unsupervised tokenization menggunakan suTokenisasi merupakan sebuah konsep yang mencakup proses sederhana dimana urutan teks dipecah menjadi bagian-bagian yang lebih kecil atau token dan kemudian dimasukkan sebagai input ke dalam model Natural language processing (NLP), atau proses model yang lebih kompleks seperti menerapkan pengetahuan dunia Deep Learning (DL). Tokenisasi akan lebih rumit ketika berhadapan dengan kasus semua kata dikelompokkan menjadi satu token atau tanpa pemisah dan kesalahan dalam tipografi. Paper ini mengusulkan model unsupervised tokenization menggunakan subword unit tokenizer dan detokenizer representasi oleh neural network, implementasi algoritma Byte Pair Encoding (BPE) dan Unigram Language Model. dapat melatih sebuah kalimat tanpa spasi menjadi sebuah kata yang benar. dengan melakukan percobaan menggunakan bahasa Indonesia, dan mencapai hasil akurasi yang sebanding. Kata kunci: Unsupervised Tokenization, Subword Tokenizer, Byte Pair Encoding (BPE), Unigram Language Modelbword unit tokenizer dan detokenizer representasi oleh neural network, implementasi algoritma Byte Pair Encoding (BPE) dan Unigram Language Model. dapat melatih sebuah kalimat tanpa spasi menjadi sebuah kata yang benar. dengan melakukan percobaan menggunakan bahasa Indonesia, dan mencapai hasil akurasi yang sebanding.

Subjek

COMPUTER SCIENCE
 

Katalog

Perbandingan Algoritma Sentencepiece BPE dan Unigram Pada Tokenisasi Artikel Bahasa Indonesia
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

TRIWIDYASTUTI JAMALUDDIN
Perorangan
MOCH. ARIF BIJAKSANA, IBNU ASROR
 

Penerbit

Universitas Telkom, S1 Informatika
Bandung
2020

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini