ANALISIS DAN IMPLEMENTASI EKSTRAKSI INFORMASI PADA E-JOB MARKETPLACE MENGGUNAKAN METODE BOOSTED WRAPPER INDUCTION (BWI)

OLFIT ARIANI PURBA

Informasi Dasar

180 kali
113070317
006.312
Karya Ilmiah - Skripsi (S1) - Reference

ABSTRAKSI: Ekstraksi informasi adalah suatu proses untuk mencari data yang spesifik dan penting dari sebuah dokumen yang tidak terstruktur (natural language document) menjadi dokumen yang terstruktur. Ekstraksi informasi ini merupakan solusi yang dapat mengubah job posting dari dokumen yang tidak terstruktur ataupun semi-terstruktur menjadi dokumen yang terstruktur. Konsepnya adalah dengan cara meng-ekstrak informasi job posting berdasarkan beberapa label field, seperti company, title atau position, city, salary, dll. Metode yang digunakan adalah metode Boosted Wrapper Induction yang dapat menangani free text dengan menghasilkan rule-rule yang dapat mengenali keberadaan field yang ingin diekstrak. Evaluasi performansi sistem menggunakan precision, recall dan F-Measure. Parameter yang mempengaruhi performansi sistem adalah jumlah iterasi boosting yang akan mempengaruhi jumlah rule detector yang dihasilkan, nilai lookahead yang menyatakan jumlah token yang akan diperhitungkan sebagai kandidat prefix dan suffix, serta pemakaian wildcards. Dari hasil yang diperoleh dapat disimpulkan keberadaan wildcard sangat berpengaruh untuk meningkatkan performansi sistem. Dan iterasi boosting juga cenderung meningkatkan performansi akan tetapi sangat bergantung pada jumlah variasi rule yang dihasilkan. Dan untuk parameter lookahead, performansi sistem bergantung pada jumlah prefix atau suffix dari detector yang selalu berpasangan.Kata Kunci : Information Extraction, Wrapper, Wrapper Induction, AdaBoost, Boosted Wrapper InductionABSTRACT: Information Extraction is a process to find a specific and important data from an unstructured document (natural language document) into a structured document. Information Extraction information is a solution that can change the job posting format from unstructured document or semi-structured document into a structured document. The concept is a way to extract information from job posting based on some field labels, such as company, title or position, city, salary, etc. The method used is boosted wrapper induction method that can handle free text to generate rules that can recognize the existence of fields that should be extracted. Evaluation of system performance using precision, recall and F-Measure. Parameters that affect the performance of the system is the number of boosting iterations that will affect the number of rules generated detector, the value of stating the number of lookahead tokens that will be considered as candidates for the prefix and suffix, and the use of wildcards. From the results obtained can be inferred the existence of a wildcard is very influential to increase system performance. And boosting iterations also tend to increase the performance but were highly dependent on the amount of variation generated rule. And for the lookahead parameter, system performance depends on the number prefix or suffix of the detector is always in pairs.Keyword: Information Extraction, Wrapper, Wrapper Induction, AdaBoost, Boosted Wrapper Induction

Subjek

DATA MINING
 

Katalog

ANALISIS DAN IMPLEMENTASI EKSTRAKSI INFORMASI PADA E-JOB MARKETPLACE MENGGUNAKAN METODE BOOSTED WRAPPER INDUCTION (BWI)
 
 
Indonesia

Sirkulasi

Rp. 0
Rp. 0
Tidak

Pengarang

OLFIT ARIANI PURBA
Perorangan
Imelda Atastina, Kusuma Ayu Laksitowening
 

Penerbit

Universitas Telkom
Bandung
2011

Koleksi

Kompetensi

 

Download / Flippingbook

 

Ulasan

Belum ada ulasan yang diberikan
anda harus sign-in untuk memberikan ulasan ke katalog ini