ANALISIS DAN IMPLEMENTASI CORPUS-BASED STEMMING DENGAN MENGGUNAKAN CO-OCCURRENCE DARI VARIASI KATA

Dimas Aryo Kunto Wibisono

ANALISIS DAN IMPLEMENTASI CORPUS-BASED STEMMING DENGAN MENGGUNAKAN CO-OCCURRENCE DARI VARIASI KATA

Dimas Aryo Kunto Wibisono

Informasi Dasar

ANALISIS DAN IMPLEMENTASI CORPUS-BASED STEMMING DENGAN MENGGUNAKAN CO-OCCURRENCE DARI VARIASI KATA

Dilihat

328 kali

No. Katalog

113050229

Klasifikasi

005.1

Jenis katalog

Karya Ilmiah - Skripsi (S1) - Reference

Abstraksi

ABSTRAKSI: Di zaman globalisasi belakangan ini, informasi tentunya menjadi hal yang sangat penting bagi manusia. Dengan informasi yang dapat berupa teks, gambar, ataupun suara, manusia dapat menjawab segala macam bentuk pertanyaan yang muncul unutk memecahkan masalah yang dihadapinya.
Untuk mendapatkan informasi tersebut, manusia dapat menggunakan berbagai macam search engine seperti Google, Yahoo, Altavista, ataupun yang lainnya. Di dalam search engine tersebut terdapat suatu proses pengembalian kata dasar yang disebut stemming. Untuk menghasilkan pencarian dokumen yang akurat, tentunya proses stemming tersebut harus baik.
Banyak terdapat algoritma stemming yang telah dikembangkan, salah satunya adalah Algoritma Nazief Adriani yang merupakan algoritma stemming unutk Bahasa Indonesia. Algoritma ini adalah algoritma terbaik untuk struktur morfologi Bahasa Indonesia. Namun, di dalam pengimplementasiannya masih terdapat beberapa kekurangan, salah satunya adalah penyamarataan makna variasi kata.
Oleh karena itulah digunakan metode corpus-based stemmer yang tidak tergantung bahasa untuk menghindari penyamarataan makna variasi kata tersebut. Pada pemgimplementasiannya, metode yang menggunakan statistik co-occurrence dari variasi kata ini dapat meningkatkan akurasi dari sistem Information Retrieval.

Kata Kunci : Search Engine, Stemming, Algoritma Nazief Adriani, Corpus-Based Stemmer, Co-occurrence, Information RetrievalABSTRACT: Lately, information has became very important thing for human. They can answer all kind of questions to solve their problem by information that can be in the form of text, picture, or voice.
They can use all kind of search engine like Google, Yahoo, Altavista, etc. to get that information. There are some process inside that search engine. One of those process is stemmning. Stemming is a process to return original form of word variants. In order to get best return hits, the stemmer process must be good.

There are many stemming algorithm that has been developed. One of them is Nazief & Adriani Algorithm that is Indonesian stemming. This algorithm is the best algorithm for Indonesian language structure. However, there are still some shortcomings in its implementation. One of them is leveling the meaning of the word variants.
Therefore, writer uses corpus-based stemmer which language independent to avoid those problem, including leveling the meaning of the word variants. Using statistics of word variants, this method can enhance accuracy of the Information Retrieval System.
Keyword: Search Engine, Stemming, Algoritma Nazief Adriani, Corpus-Based Stemmer, Co-occurrence, Information Retrieval