ABSTRAKSI: Pada plagiarisme dalam media teks, ukuran dan jumlah dari teks dapat mempengaruhi performansi dari metode deteksi. Berangkat dari masalah ini, diusulkan penggunaan keyword extraction, yang berfungsi untuk menghasilkan suatu teks kunci dari teks asal. Teks kunci inilah yang kemudian akan digunakan sebagai pengganti teks asal dalam deteksi plagiarisme.
Pada tugas akhir ini, akan dibahas implementasi konsep keyword extraction dalam metode deteksi plagiarisme, serta perancangan suatu sistem dari konsep tersebut. Konsep keyword extraction yang diimplementasikan adalah centrality measure, dengan metode deteksi dasar LCS (longest common subsequence). Tiga jenis centrality yang dibahas adalah degree centrality, closeness centrality, dan betweenness centrality.
Pengujian sistem dilakukan untuk mengetahui apakah sistem yang diusulkan ini dapat menghasilkan performansi yang lebih tinggi dari metode deteksi biasa. Performansi diukur dari segi akurasi dan presisi sistem serta waktu proses yang diperlukan sistem.
Analisa dilakukan terhadap hasil pengujian untuk menyimpulkan performansi sistem dibandingkan dengan performansi metode deteksi dasar. Selain itu, juga disimpulkan jenis centrality mana yang cocok digunakan dalam sistem.
Kata Kunci : Indikasi plagiarisme, deteksi kesamaan antar teks, perbandingan antar teks, ekstraksi kata kunci, sentralitas, pengukuran sentralitas, longest common subsequence (LCS)ABSTRACT: In text plagiarism, the size and number of the texts can affect the performance of detection methods. Stemming from this problem, it is then proposed to use keyword extraction to produce a key text from each text. The key text will then be used to replace its source text in plagiarism detection.
In this thesis, implementation of keyword extraction in a plagiarism detection method and the design of a system based on said concept will be discussed. Keyword extraction concept that will be implemented is centrality measure, with LCS (longest common subsequence) as basic method. Three kind of centrality that will be discussed and implemented are degree centrality, closeness centrality, and betweenness centrality.
System is tested to find out whether the proposed system can produce better performance than basic method. Performace is measured by system accuracy, precision, and running time.
Testing result is analyzed to find the performance comparation between system and basic method. A conclusion will also be reached about which centrality concept that fit best for the detection system.
Keyword: Plagiarism indication, detection of similarity between texts, text comparison, keyword extraction, centrality, centrality measure, longest common subsequence (LCS)