ABSTRAKSI: Seiring dengan penggunaan internet sebagai media untuk bertukar informasi, bertukar dan berbagi opini juga dapat dilakukan. Dari opini-opini yang ada di internet, tidak semua opini tersebut berguna sehingga terkadang menyulitkan pihak-pihak yang membutuhkan informasi yang terkait. Opini yang tidak diperlukan tersebut dapat disebut juga dengan opinion spam. Spam opinion dalam dunia internet dapat terjadi dalam hal apapun, salah satunya dalam forum. Spam opinion dalam forum dapat berupa opini-opini sampah yang tidak berguna dalam suatu topik permasalahan yang sedang dibahas.
Text Classification merupakan salah satu solusi yang dapat mengatasi permasalahan tersebut. Salah satu metode pada Text Classification adalah Support Vector Machine. Klasifikasi berfokus pada penentuan postingan yang termasuk junk post atau tidak. Dalam Tugas Akhir ini, proses pembobotan dataset dengan memanfaatkan nilai TF dan juga nilai TF-IDF. Pembobotan dengan TF-IDF menghasilkan hasil yang lebih baik jika dibandingkan dengan TF saja. Kedua pembobotan tersebut digunakan untuk menghitung nilai similarity dari masing-masing postingan dan dikaitkan dengan topik yang sedang dibahas pada forum dengan menggunakan cosine similarity. Hasil evaluasi menunjukkan metode Support Vector Machine mampu menyelesaikan permasalahan spam opinion ini. Proses preprocessing data seperti penghilangan stopword dapat menurunkan hasil akurasi klasifikasi, sedangkan nilai parameter C tidak dapat mempengaruhi hasil klasifikasi secara signifikan.Kata Kunci : text classification, opinion spam, Support Vector Machine, TF,TF-IDF, cosine similarityABSTRACT: Along with the use of the internet as tools to share information, exchange and share opinions can also be perfomed. The opinions that exist on the internet, not all opinions are useful so that sometimes complicate the parties who need the related information. The opinions that are not useful can be describe as Spam Opinion. Spam opinion in internet can occur in any case, one of them in the forum. Spam opinion in the forum can be the junk opinions that useless in a topic being discussed.
Text Classification is one of the solution that can solve these problems. One of Text Classification method is the Support Vector Machine (SVM). The classification focused on determining a post that junk post or not. In practice, carried out weighting the data set by using the TF and TF-IDF. The TF-IDF weighting is produced better results when compared to TF alone. Both weighting was used to calculate the similarity of the existing posts which are associated with the topic being discussed on the forum using the cosine similarity. The evaluation result shows that Support Vector Machine method is able to soleve the junk post problems. The process of data preprocessing such as stopword removal may affect the classification results, while the value of the parameter C can not affect the classification results significantly.Keyword: text classification, opinion spam, Support Vector Machine, TF,TF-IDF, cosine similarity