ABSTRAKSI: Plagiarisme merupakan perbuatan secara sengaja atau tidak sengaja dalam memperoleh kredit atau nilai untuk suatu karya ilmiah, dengan mengutip sebagian atau seluruh karya ilmiah orang lain, tanpa menyatakan sumber. Tindakan plagiarisme ini sangatlah buruk, tindakan ini tidak hanya memberikan dampak negatif ke orang yang dijiplak namun terhadap orang yang melakukan plagiat juga. Oleh karena itu, sudah banyak diciptakan algoritma untuk mendeteksi adanya kejadian plagiarisme. Beberapa contoh algoritma pendeteksian plagiarisme, diantaranya Longest Common Subsequence (LCS), Edit Distance, Fingerprinting Document, dan Winnowing.
Pada algoritma LCS, bila diterapkan pada dokumen D1 dengan jumlah token m, dan dokumen D2 dengan jumlah token n, maka kompleksitas pencocokan mencapai O(mn). Kompleksitas ini membutuhkan waktu pemrosesan lebih lama apabila dokumen harus dicocokkan pada corpus yang besar. Kompleksitas waktu ini dapat diatasi dengan mengurangi jumlah token yang dibandingkan. Pada tugas akhir ini dibangun sistem pendeteksian plagiarisme menggunakan metode Co-Occurrence Statistical Information dan LCS. Fingerprint yang mengandung kata kunci hasil ekstraksi dokumen dengan metode Co-Occurrence Statistical Information dibandingkan dengan fingerprint dokumen lain menggunakan algoritma LCS.
Proses pendeteksian menggunakan metode Co-Occurrence Statistical Information dan LCS, memerlukan waktu komputasi yang lebih cepat dibandingkan hanya dengan LCS saja, sedangkan untuk nilai similarity yang dihasilkan relatif sama.Kata Kunci : Plagiarisme, Fingerprint, Co-Occurrence Statistical Information, Longest Common Subsequence.ABSTRACT: Plagiarism is an act of taking the writings of another person and passing them off as one's own. The fraudulence is closely related to forgery and piracy-practices generally in violation of copyright laws. For overcoming the plagiarism, many algorithms have been proposed such as Longest Common Subsequence (LCS), Edit Distance, Document Fingerprinting and Winnowing.
In LCS algorithm, the complexity of matching two documents D1 and D2 with number of tokens m and n respectively is equal to O(mn). The complexity will increase by the increment of corpus number which will be matched. For decreasing the complexity the decrement of compared tokens number is necessary. This thesis proposed Co-Occurrence Statistical Information and LCS for building plagiarism detector. Co-Occurrence Statistical Information is used for extracting keywords which will be used as a fingerprint of a document. Plagiarism detection will be done by comparing the fingerprint of the related documents using LCS algorithm.
The proposed method requires less complexity compared with LCS without Co-Occurrence Statistical Information. However, the similarity value is relatively similar.Keyword: Plagiarism, Fingerprint, Co-Occurrence Statistical Information, Longest Common Subsequence.