ABSTRAKSI: Pendeteksian dan penghitungan kesamaan dokumen yang saat ini luas digunakan adalah pendeteksian dan penghitungan kesamaan berbasis kata. Dua dokumen yang membicarakan hal yang berbeda di lingkungan yang sama bisa saja menggunakan kata- kata yang sama. Dengan menggunakan pendeteksian dan penghitungan kesamaan berbasis kata kedua dokumen ini bisa dianggap mengandung informasi yang sama. Tetapi dengan memperhatikan frasa yang digunakan oleh masing masing dokumen maka dapat lebih terlihat perbedaan dan kesamaan informasi di antara kedua dokumen tersebut.
Tugas akhir ini membangun sebuah aplikasi yang dapat mendeteksi dan menghitung kesamaan antar dokumen dengan cara membandingkan dua dokumen pada satu waktu. Dokumen akan direpresentasikan dengan menggunakan konsep graph sehingga dapat dideteksi dan dihitung kesamaannya. Selain mendeteksi dan menghitung kesamaan frasa, juga dihitung kesamaan gabungan (gabungan kesamaan frasa dan kata) . Dokumen inputan adalah dokumen .txt berbahasa Indonesia
Terdapat 4 Langkah pada proses pendeteksian dan penghitungan kesamaan dokumen yaitu preprocessing, pembentukan graph, pendeteksian kesamaan dan penghitungan kesamaan.
Keluaran dari aplikasi ini adalah nilai kesamaan antar tiap dokumen yang menjadi inputan.
Kata Kunci : Kata kunci: Similarity, Dokumen, Graph, Bahasa Indonesia, txtABSTRACT: Document similarity detection and measurement which commonly used nowadays is term based similarity and measurement. Two documents that talk about different topic in the same enviroment can use same words. By using term based detection and measurement, the two documents can be judged as having same information.But when we consider the phrases used by each document we can see the difference and similarity of information between the two documents.
In this final task, an application has been developed to detect and measure the similarity among documents by comparing two documents at a time. Documents are represented using graph concept so the similarity can be detected and measured. In this final task, also done the combination similarity (combination of term based and phrase based similarity). Input documents are text document (.txt) in bahasa Indonesia.
There are four steps in document similarity, they are preprocessing, graph construction, similarity detection, and similarity measurement.
The output of the aplication is similarity measurement between each input document.Keyword: Kata kunci: Similarity, Document, Graph, Bahasa Indonesia, txt