ABSTRAKSI: Plagiarisme merupakan tindakan menjiplak karya seseorang dan mengakuinya sebagai karya sendiri. Plagiarisme terhadap dokumen susah untuk dihindari. Oleh karena itu detektor otomatis sangat membantu untuk menemukan praktek-praktek plagiarisme pada dokumen seperti MOSS, TESSY,JPlag, COpyCatch dan lainlain.
Untuk melakukan deteksi plagiarisme dokumen pada intinya dengan melakukan metode yang terdari dari dua proses sekuensial yaitu mengubah dokumen menjadi representasi linier yang disebut token string, kemudian membandingkan setiap token string satu sama lain. Algoritma yang digunakan dalam skripsi ini adalah Running Karp-Rabin Greedy String Tiling (RKR-GST). Algoritma ini mampu menemukan bagian-bagian yang identik pada dua buah string tanpa terpengaruh urutan maupun posisi substring. Untuk setiap pembandingakn dua buah dokumen, nilai similaritas dihitung dan bagian-bagian dokumen yang diduga merupakan hasil praktek plagiarism ditandai.
Aplikasi Algoritma RKR-GST ini dibangun berdasarkan prinsip diatas dengan menggunakan bahasa pemrograman java. Aplikasi ini mampu menemukan dugaan-dugaan praktek plagiarism dan telah diuji menggunakan dokumen hasil pengumpulan dari situs elektronik dan menggunakan dokumen latih yang telah dimodifikasi.
Untuk pengujian, sebaiknya nilai similaritas tidak menjadi keputusan final untuk menentukan kasus-kasus plagiarism karena ada kemungkinan hasil deteksi salah. Oleh karena itu, untuk dugaan –dugaan plagiarism yang meragukan hendaknya penguji mencermati isi dokumen pasangan tersebut sebelum mengambil keputusan.Kata Kunci : plagiarisme dokumen, preprocessing, RKR-GST, string matchscanpattern.ABSTRACT: Plagiarism is the act of copying someone's creation and claim it as their own creation. Plagiarism of documents is hard to be avoid. Therefore, automatic detectors are very helpful to find the practices of plagiarism in documents such as MOSS, Tessy, JPlag, COpyCatch and others.
To make a document plagiarism detection, the point is with do some method which consists of two sequential processes that convert documents into a linear representation called a token string, then compare each token string with one another. The algorithm that used in this thesis is the Running Karp-Rabin Greedy String tiling (RKR-GST). This algorithm is able to find the parts that are identical in the two strings without affected the sequence and position of the substring. For each comparison of two documents, the similarity is calculated and parts of the document which allegedly is the result of the practice of plagiarism is marked.
Applications RKR-GST algorithm builds upon the basic principles using Java programming language. This application is able to find the practice of plagiarism and has been tested using a document collection of electronic sites, in addition to the tests was conducted using the training documents that have been modified.
For testing, similarity values should not be the final decision to determine cases of plagiarism because there is the possibility of incorrect detection results. Therefore, for the dubious plagiarism examiner should examine the contents of the document pairs before making a decision.Keyword: document plagiarism, preprocessing, RKR-GST, string matching,scanpattern.