Perbandingan Algoritma Sentencepiece BPE dan Unigram Pada Tokenisasi Artikel Bahasa Indonesia

TRIWIDYASTUTI JAMALUDDIN

Perbandingan Algoritma Sentencepiece BPE dan Unigram Pada Tokenisasi Artikel Bahasa Indonesia

TRIWIDYASTUTI JAMALUDDIN

Informasi Dasar

Perbandingan Algoritma Sentencepiece BPE dan Unigram Pada Tokenisasi Artikel Bahasa Indonesia

Dilihat

567 kali

No. Katalog

20.04.2236

Klasifikasi

003.3

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

Tokenisasi merupakan sebuah konsep yang mencakup proses sederhana dimana urutan teks dipecah menjadi bagian-bagian yang lebih kecil atau token dan kemudian dimasukkan sebagai input ke dalam model Natural language processing (NLP), atau proses model yang lebih kompleks seperti menerapkan pengetahuan dunia Deep Learning (DL). Tokenisasi akan lebih rumit ketika berhadapan dengan kasus semua kata dikelompokkan menjadi satu token atau tanpa pemisah dan kesalahan dalam tipografi. Paper ini mengusulkan model unsupervised tokenization menggunakan suTokenisasi merupakan sebuah konsep yang mencakup proses sederhana dimana urutan teks dipecah menjadi bagian-bagian yang lebih kecil atau token dan kemudian dimasukkan sebagai input ke dalam model Natural language processing (NLP), atau proses model yang lebih kompleks seperti menerapkan pengetahuan dunia Deep Learning (DL). Tokenisasi akan lebih rumit ketika berhadapan dengan kasus semua kata dikelompokkan menjadi satu token atau tanpa pemisah dan kesalahan dalam tipografi. Paper ini mengusulkan model unsupervised tokenization menggunakan subword unit tokenizer dan detokenizer representasi oleh neural network, implementasi algoritma Byte Pair Encoding (BPE) dan Unigram Language Model. dapat melatih sebuah kalimat tanpa spasi menjadi sebuah kata yang benar. dengan melakukan percobaan menggunakan bahasa Indonesia, dan mencapai hasil akurasi yang sebanding. Kata kunci: Unsupervised Tokenization, Subword Tokenizer, Byte Pair Encoding (BPE), Unigram Language Modelbword unit tokenizer dan detokenizer representasi oleh neural network, implementasi algoritma Byte Pair Encoding (BPE) dan Unigram Language Model. dapat melatih sebuah kalimat tanpa spasi menjadi sebuah kata yang benar. dengan melakukan percobaan menggunakan bahasa Indonesia, dan mencapai hasil akurasi yang sebanding.