Development of Word-Based Text Compression Algorithm For Indonesian Language Document

Ardiles Sinaga

Development of Word-Based Text Compression Algorithm For Indonesian Language Document

Ardiles Sinaga

Informasi Dasar

Development of Word-Based Text Compression Algorithm For Indonesian Language Document

Dilihat

340 kali

No. Katalog

213110015

Klasifikasi

302.23

Jenis katalog

Karya Ilmiah - Thesis (S2) - Reference

Abstraksi

ABSTRAKSI: Teknologi informasi berkembang sangat pesat saat ini, khususnya untuk penanganan data. Data merupakan aset berharga bagi semua orang, terutama bagi perusahaan yang lebih besar. Khusus untuk perusahaan besar yang sudah memiliki cabang di beberapa tempat. Transmisi data dari kantor pusat ke kantor cabang membuat perusahaan harus menyediakan alat yang baik untuk melakukannya. Perusahaan-perusahaan ini juga membutuhkan alat yang dapat digunakan untuk kompres data sehingga dapat mengurangi ukuran data itu sendiri.
Ide utama dari Word-Based encoding adalah untuk mengidentifikasi setiap kata dari teks sumber, kemudian kata yang didentifikasi itu akan dicek apakah terdapat huruf besar pada kata tersebut. Setelah itu, kata tersebut akan dicek kembali apakah terdapat simbol atau angka. Lalu setelah itu akan dilakukan stemming terhadap kata untuk memisahkan kata dasar dari imbuhan. Simbol, angka dan imbuhan akan diberi indeks sesuai dengan indeks yang sudah disimpan sebelumnya dalam kamus dasar. Sedangkan kata dasar yang diperoleh setelah proses stemming akan dicek kembali ke kamus dasar, apakah cocok atau tidak. Jika kata dasar tidak cocok pada kamus, maka kata ini akan menjadi entri baru ke dalam kamus.
Pada pengujian ini dilakukan pada data asli yang berukuran antara 10.000 Byte sampai 500.000 Byte dan menggunakan panjang bit kode 16 bit. Hasilnya menunjukkan bahwa rasio kompresi metode yang diusulkan sebanding dengan aplikasi populer RAR hingga 200 kbyte, sementara waktu pengolahannya jauh lebih baik daripada metode urutan dari karakter yang dibalik pada algoritma LZW
Kata Kunci : Kompresi data, WB-LZW, Berbasis Kata, Stemming, Tree, Kamus dasar, Kamus utamaABSTRACT: Information technology is growing very rapidly, in particular for data handling. Data is a valuable asset for everyone, especially for larger companies with branches in several places. Data transmission from headquarters to branch offices make the company must provides good tools to do it. These companies also need tools that can be used to compress data to reduce their size.
The main idea of the word-based encoding is to extract each word of the source text, then it is checked whether containing capital letters or not. After that, it is checked if there is a symbol or number. The particle will be separated from the basic word using stemming algorithm. Symbols, numbers and affixes will be indexed in the basic dictionary. The basic word will also be checked whether it exists in the basic dictionary or not. If there not a match, then the word will be stored to the supplement dictionary.
The experiment was conducted on the text file with the size from about a 10.000 bytes up to 500.000 bytes and a code with length of bits is 16 bits. The result shows that the compression ratio of the proposed method is comparable with popular RAR application up to 200 kbyte, while its processing time is much better than the Reversed Sequence of Characters on LZW method.
Keyword: Data Compression, WB-LZW, Word-Base, Stemming, Tree, Basic Dictionary, Main Dictionary