Informasi Umum

Kode

19.04.081

Klasifikasi

004 - Data Processing, Computer Science/Pemrosesan Data, Ilmu Komputer, Teknik Informatika, Hardware Komputer

Jenis

Karya Ilmiah - Skripsi (S1) - Reference

Subjek

Text Mining

Dilihat

78 kali

Informasi Lainnya

Abstraksi

Pada bahasa Indonesia, sistem NER (Named Entity Recognition) masih memerlukan banyak perbaikan. Padahal NER adalah komponen utama dalam IE (Information Extraction) yang digunakan oleh komponen lanjutan lainnya. Untuk menciptakan sistem NER bahasa Indonesia yang andal menggunakan pendekatan machine learning, diperlukan dataset yang besar. Apabila dataset dibangun dengan melabeli secara manual, ukuran dataset yang dihasilkan sangat kecil. Oleh sebab itu, dibuat sistem untuk membangun dataset NE (Named Entities) bahasa Indonesia yang dilabeli secara otomatis menggunakan data Wikipedia sebagai sumber korpus dan DBpedia sebagai referensi pelabelan NE dengan metode Entities Expansion untuk memperluas referensi pelabelan NE DBpedia. Saat ini sistem yang ada belum dapat mendeteksi nama yang mengandung kata diawali huruf kecil pada pelabelan otomatisnya, belum mencoba menambahkan gazetteers entitas person, serta aturan metode DBpedia Entities Expansion masih dapat dimodifikasi untuk menghasilkan kualitas referensi pelabelan NE yang lebih baik. Pada tugas akhir ini dibangun sistem yang mengatasi kekurangan tersebut. Evaluasi menunjukkan, dataset NE bahasa Indonesia terbaik yang dibangun pada tugas akhir ini menghasilkan F1-score 54,93%, lebih tinggi 3,32% dari hasil penelitian sebelumnya 51,61%. Dataset terbaik ini dibangun dengan menambahkan metode deteksi pada pelabelan otomatis, menggunakan DBpedia Entities Expansion modifikasi, tetapi tanpa menambahkan gazetteers entitas person.

Kata kunci: Wikipedia, DBpedia, Entities Expansion, Pelabelan Otomatis, Dataset NE Bahasa Indonesia

  • CSH4G3 - PENAMBANGAN DATA
  • CSH4H3 - PENAMBANGAN TEKS
  • CII4I3 - PENAMBANGAN DATA
  • CPI4I3 - PENAMBANGAN DATA

Koleksi & Sirkulasi

Seluruh 1 koleksi sedang dipinjam

Anda harus log in untuk mengakses flippingbook

Pengarang

Nama HAJI DITO MURYA ALFAROHMI
Jenis Perorangan
Penyunting Moch. Arief Bijaksana
Penerjemah

Penerbit

Nama Universitas Telkom
Kota Bandung
Tahun 2019

Sirkulasi

Harga sewa IDR 0,00
Denda harian IDR 0,00
Jenis Non-Sirkulasi