ABSTRAKSI: Identifikasi web spam merupakan suatu tantangan yang besar bagi search engine. Web spam dengan sengaja melakukan manipulasi posisinya dengan menarik perhatian surfer dalam proses perangkingan pada search engine. Salah satu teknik yang digunakan oleh spammer yakni link farm yang merupakan kumpulan link web yang saling terhubung untuk mendapatkan PageRank yang tinggi. Oleh karena itu apabila diketahui salah satu web spam maka link farm dapat diidentifikasi, dan dapat menganggap web yang terhubung dalam link farm tersebut adalah web spam.
BadRank adalah suatu metode yang digunakan untuk mendeteksi web spam berdasarkan anggapan bahwa suatu web akan dianggap spam apabila memiliki keterhubungan link dengan web spam. Metode BadRank perlu dilakukan modifikasi untuk memastikan nilai BadRank yang diperoleh konvergen dengan memastikan matriks yang terbentuk stokastik. Selain itu metode ini juga dapat dioptimasi dengan c ara menambahkan variabel yang berisi web yang diyakini bukan spam (trust) .Dalam tugas akhir ini digunakan dataset WEBSPAM -UK 2006 untuk pengujian BadRank dengan modifikasi stokastik dan trust.
Dari hasil pengujian diperoleh bahwa untuk dataset web spam uk 2006 , metode badrank dengan modifikasi leafbadlinks with trust mampu mendeteksi spam yang lebih baik 1%-3% dibandingkan dengan modifikasi lainnya. Selain itu juga penambahan variabel trust mampu untuk lebih mengoptimalkan 3%-5% deteksi web spam pada metode badrank.Kata Kunci : Web Spam,Badrank,Link FarmABSTRACT: The identification of web spam has been identified as a major challenge for web search engines. Spam web sites deliberately manipulate their placement by paying customers in search engine rankings. One of the techniques used by spammers is so -called link spam, where farms of interlinked web sites are used to give high PageRank to certain web. These link farms tend not to have any legitimate content and so do not have incom ing links from sites outside the farm. Therefore, if one page within a link farm can be identified, we can reasonably suspect that any pages that point to it are also web spam.
BadRank is a method for detecting spam web sites, based on the premise that a p age is spam if it points to another spam page; i.e., the BadRank score of a page is the weighted sum of the BadRank scores of the pages that it links to. BadRank method need to modified to make BadRank score is converge by ensure the matrix is stochastic . Additionally, we can consider methods for incorporating knowledge about trusted (known non -spam) sites into the BadRank calculation. In this final project used WEBSPAM-UK 2006 dataset to test BadRank with stochastic modified and trust
From the result testing we can analyze that for the datasset web spam uk 2006, badrank that modified with leafbadlinks with trust can detects spam better than another modification. And also badrank that added by trust variable more effective to detect web spam than without it.Keyword: Web Spam,Badrank,Link Farm