SPAM POTECTION Part 1

SPAM POTECTION 

penulis akan membahas satu persatu cara untuk mengurangi SPAM karena dampaknya yang ditimbulkan merugikan. Dari segi teknis untuk mengurangi SPAM, yaitu filtering

  Telah terdapat beberapa metode filtering yang dapat digunakan untuk mencegah spam diantaranya :

a. Keyword filtering 

 Metode ini merupakan Application Layer Filtering (ALF). Dengan metode ini, spam di-blok berdasarkan kata-kata tertentu yang sering dituliskan pada spam-mail misalnya : ”viagra”,”porno”.

b. Signature –Based Filtering

 Metode ini akan membandingkan e-mail yang datang dengan spam-mail yang telah diketahui. Hal ini dilakukan dengan membuat beberapa alamat e-mail palsu. Spam-mail yang biasanya dikirim ke beratus-ratus alamat e-mail juga akan dikirim ke alamat-alamat palsu ini. Sehingga dengan membuat list alamat-alamat mana saja yang mengirim mail ke alamat palsu ini, spam mail dapat diblok. Salah satu cara untuk menunjukkan bahwa dua buah e-mail sama dilakukan dengan memberikan “signature” pada setiap e-mail. Metode untuk memberikan signature antara lain dengan memberikan angka untuk setiap huruf, lalu semua angka tersebut dijumlahkan. Sehingga setiap e-mail akan memiliki “signature” yang berbeda. Dalam hal ini, dua e-mail yang memiliki signature yang sama, dan dikirim ke beberapa alamat dapat dikategorikan sebagai spam-mail. Cara inilah yang diterapkan pada signature-based filtering. Tetapi metode filter ini sangat mudah dikalahkan oleh spammers. Cukup dengan menambahkan sembarang karakter yang berbeda pada setiap copy spam-mail, akan membuat copy spam-mail itu memiliki signature yang berbeda. Sehingga metode ini tidak terlalu efektif untuk mem-filter spam.  
c. Bayesian (Statistical) Filtering
 Metode Bayesian Filtering merupakan metode anti spam filter yang terbaru. Metode ini mengenali spam berdasarkan kata-kata (token) yang terkandung pada sebuah e-mail. Metode filter ini pertama kali perlu di-“training” menggunakan dua koleksi e-mail, satu koleksi merupakan spam-mail, dan koleksi yang lain merupakan legitimate mail. Dengan cara seperti ini, pada setiap e-mail baru yang diterima, Bayesian filter dapat memperkirakan probabilitas spam berdasarkan kata-kata yang sering muncul di koleksi spam-mail atau di koleksi legitimate mail. Bayesian filter efektif untuk mem-blok spam karena filter ini dapat secara otomatis mengkategorikan spam-mail atau legitimate mail. 
Kelemahan dari Bayesian chain rule ini adalah tiap kata diasumsikan terpisah dan tidak tergantung satu sama lain. Padahal dalam menganalisis suatu teks, setiap kata saling berhubungan satu dengan yang lain. Kelemahan ini diatasi oleh algoritma probabilitas chi-squared yang dikembangkan pada proyek SpamBayes (akan dibahas berikut ini).
Pengembangan Algoritma Bayesian
  Salah satu pengembangan algoritma Bayesian filter adalah proyek SpamBayes yang ditujukan untuk melakukan pembaharuan dari algoritma Bayesian filter yang pertama kali dikembangkan oleh Paul Graham. Proyek SpamBayes ini dimotori oleh Gary Robinson dan Tim Peters. Secara prinsip proyek SpamBayes ini sama dengan algoritma Bayesian dari Paul Graham. Kelebihannya adalah SpamBayes dapat mengkategorikan mail menjadi spam-mail, non-spam mail (ham), dan unsure-mail. Unsure-mail dapat dikatakan sebagai pesan yang tidak dapat dikategorikan secara rating menjadi spam mail ataukah ham mail. Pengkategorian seperti ini juga dilakukan dengan cara yang sama yaitu dengan memberikan algoritma belajar pada SpamBayes berdasarkan beberapa e-mail yang dikategorikan sebagai spam mail atau ham mail. 
 Arsitektur dari system SpamBayes memiliki beberapa bagian yang berbeda dengan algoritma Bayesian dari Paul Graham, Diantaranya :
a. Tokenizing
Tokenizer akan membaca mail dan memecah-mecahnya menjadi beberapa kata (token). Proses tokenizing ini dapat dilakukan pada body message, header message, kode-kode HTML, dan gambar. Tetapi karena proyek ini mengambil contoh spam dan ham mail dari sumber-sumber yang berbeda, maka tokenizing pada proyek SpamBayes hanya dilakukan pada body message. Tokenizing pada body message dilakukan dengan mendeteksi spasi (white space) antar kata. Tentunya dengan melakukan tokenizing pada body dan header message , karakterisasi spam atau ham mail dapat dilakukan dengan lebih baik. Tokenizing pada header message dapat dilakukan dengan menghitung jumah penerima message pada recipient (to/Cc) header. Sedangkan tokenizing pada kode HTML dapat dilakukan pada kode “font”, “table”, atau “background”. Tokenizing juga dapat dilakukan untuk menunjukkan bahwa message tanpa header subject, tanpa from address, akan dikategorikan sebagai spam-mail. 
b. Combining dan Scoring
Bagian selanjutnya dari sistem SpamBayes ini adalah scoring dan combining.  
Bagian inilah yang membedakan sistem SpamBayes dengan algoritma awal  
 Bayesian dari Paul Graham. 
Algoritma Paul Graham :
Algoritma Bayesian dari Paul Graham hanya memberikan nilai (score) pada mail yaitu 1 untuk spam murni dan 0 untuk ham murni, sementara nilai di antara itu tidak dikategorikan sebagai “unsure”. Semua mail hanya akan dikategorikan sebagai spam atau ham, dan hal ini dapat menimbulkan kesalahan pengkategorian. Gambar di bawah ini menunjukkan masalah yang ada pada Algoritma Paul Graham :
 
Gambar 1. Plot scoring message menggunakan pendekatan Paul Graham
Pada gambar di atas, sumbu X menunjukkan nilai dari message dengan skala dari 0-100, (dengan 0 adalah ham murni dan 100 adalah spam murni. Sumbu Y menunjukkan jumlah message (dalam skala logaritmik). Dari gambar di atas terlihat bahwa sebagian besar spam memperoleh nilai di sekitar 100 dan sebagian besar ham memperoleh nilai di sekitar 0. Namun dapat dilihat juga bahwa terdapat cukup banyak jumlah ham yang memperoleh nilai di sekitar 100 dan terdapat pula cukup banyak jumlah spam yang memperoleh nilai di sekitar 0. Hal ini berarti telah terjadi kesalahan pengkategorian message. Sementara teknik scoring yang dilakukan oleh Gary Robinson menghasilkan plot seperti di bawah ini : 
 
Gambar 2. Plot scoring message menggunakan pendekatan Gary Robinson

Teknik ini memberikan hasil yang berbeda. Dari gambar terlihat bahwa terdapat nilai yang overlap antara nilai ham dan nilai spam. Hal ini dapat diatasi dengan memberikan suatu nilai cut-off tertentu, misalnya a, dengan nilai di atas a berarti spam, dan nilai di bawah a berarti ham. Dibandingkan dengan algoritma Paul Graham yang menunjukkan banyak spam-mail yang bernilai di sekitar nilai ham murni dan sebaliknya, maka teknik Gary Robinson ini telah mampu mengatasi hal tersebut. Tidak ada spam mail yang memiliki nilai di sekitar ham murni. 
  Gary Robinson menggunakan Teorema Central Limit untuk membuat plot di atas. Teorema ini menghasilkan dua nilai internal, satu untuk spam dan satu untuk ham, serta dapat memberikan respon “ragu-ragu” jika nilai ham dan nilai spam keduanya terlalu tinggi atau terlalu rendah. Hal ini tidak dapat dilakukan pada algoritma Paul Graham. 

 Pendekatan dengan teorema Central Limit ini kemudian diperbaharui kembali oleh Gary Robinson dengan menggunakan teorema probabilitas chi-squared. Teorema Chi-squared serupa dengan teorema central limit, kelebihan dari teorema Chi-squared ini adalah tidak adanya masalah training seperti pada teorema central limit dan hasil pengkategorian yang diperoleh semakin baik. 
  Teorema Chi-squared menghasilkan dua nilai, probabilitas ham (“*H*”) dan probabilitas spam (“*S*”). Spam mail akan memiliki nilai *S* yang tinggi dan nilai *H* yang rendah. Pada suatu kondisi suatu mail memiliki nilai *S* dan nilai *H* yang keduanya tinggi atau keduanya rendah, maka probabilitas yang dihasilkan adalah sekitar 0.5 yang artinya mail tersebut tidak termasuk spam dan juga tidak termasuk ham. Kondisi inilah yang dinamakan “unsure” pada sistem Spambayes. Gambar di bawah ini menunjukkan hasil yang diperoleh berdasarkan teorema Chi-squared :
 
Gambar 3. Plot scoring message menggunakan teorema Chi Squared

Seperti terlihat bahwa pada akhir proses, terdapat tiga kemungkinan hasil yang berbeda yaitu Spam, Ham atau Unsure. Telah dibahas sebelumnya bahwa dengan sistem SpamBayes, message yang sulit untuk dikategorikan sebagai spam atau ham akan dikategorikan sebagai unsure. Misalkan e-mail komersial dari suatu perusahaan yang melakukan bisnis dengan perusahaan kita, pada kali pertama dapat dianggap sebagai “unsure” mail karena spam-mail dan mail komersial menggunakan bahasa yang hampir sama. Sedangkan pada algoritma Bayesian Paul Graham, mail seperti ini akan tetap dikategorikan sebagai spam atau ham mail, sehingga dapat menghasilkan false positive atau false negative. Dengan melakukan training tertentu berdasarkan address perusahaan pengirim atau produk yang ditawarkan, “unsure” mail selanjutnya dapat dikategorikan sebagai spam atau ham. 







d. Rule-based (heuristic) filtering
 Filter ini mem-blok spam-mail dengan mencari pola karakteristik tertentu yang mengindikasikan spam contohnya : kata-kata “kotor”, kata dengan banyak huruf besar atau banyak tanda seru, atau tanggal pengiriman yang tidak tepat. Kekurangan dari metode ini adalah rule (aturan ) yang digunakan bersifat statis, sehingga jika spammers menggunakan pola baru untuk mengirim spam-mail, aturan yang baru harus diberikan pada filter. Sedangkan pada Bayesian filter, kita cukup memberitahu filter bahwa pengklasifikasian e-mail yang dilakukannya salah, maka Bayesian filter akan secara otomatis mempelajari pola yang terdapat pada e-mail tersebut. 
e. Challenge-response filtering
 Jika kita memperoleh e-mail pertama kalinya dari seseorang, maka challenge-response filter akan mengirim e-mail kembali ke alamat pengirim tersebut dan memerintahkannya untuk meng-akses alamat web tertentu dan mengisi suatu form sebelum e-mail yang ia kirim dapat kita terima. Dengan cara seperti ini, kita dapat mem-filter spam dengan akurat. Karena hanya pengirim yang benar-benar berkepentingan dengan kita yang akan melaksanakan prosedur tersebut. Tetapi metode ini dapat dikatakan “kasar”, karena membuat orang lain melakukan pekerjaan ekstra untuk mengirim e-mail kepada kita. Selain itu kekurangan metode ini adalah legitimate e-mail dapat hilang atau terlambat sampai, karena pengirimnya tidak mengetahui bahwa ia harus melakukan suatu prosedur dari challenge-response filter agar e-mailnya dapat diterima. Kekurangan yang lain adalah karena filter ini hanya menyeleksi e-mail berdasarkan alamat pengirimnya, maka spammers yang melakukan spoofing akan mampu menaklukkan filter ini. Sehingga filter ini tidak terlalu efektif untuk mem-blok spam-mail. Cara yang dapat dilakukan adalah dengan mengkombinasikan filter ini dengan Bayesian filter, yaitu e-mail yang dikategorikan sebagai spam oleh Bayesian filter, di-challenge kembali oleh challenge-response filter ini. Dengan cara seperti ini, keakuratan Bayesian filter akan bertambah, dan challenge-response filter juga dapat digunakan dengan efektif.  

  Dari penjelasan di atas, dapat disimpulkan bahwa pada metode filtering banyak cara dapat dilakukan.



  Cara lain dari segi teknis yang dapat dilakukan adalah Blocking.Karena metode filtering tidak akan mengatasi (menyelesaikan) SPAM,filtering hanya akan membantu meringankan masalah yang ada. Di lain hal filtering juga dapat mendatangkan SPAM-SPAM baru. Hal ini bisa terjadi karena pihak penjual SPAM filtering komersial dengan sengaja memasukkan nama clien nya sebagai daftar daftar SPAM. Maka pihak pengelola server (client) yang tidak ingin terganggu oleh SPAM terpaksa membeli filtering dari pihak komersial.
  Filtering dapat memilah email yang ”benar” dengan SPAM tapi filtering tidak mampu mencegah masuknya SPAM ke dalam jaringan. Untuk itu dibutuhkan suatu cara untuk mem-block SPAM yang biasa disebut Realtime Black Hole. Cara ini untuk mementahkan SPAM yang akan masuk kedalam jaringan,SPAM-SPAM tersebut datang dari pihak (mesin) lain. Daftar mesin-mesin yang mengirimkan SPAM ini akan terus di UP DATE oleh suatu organisasi,daftar ini dapat dimanfaatkan untuk menolak email atau apapun bentuknya yang datang dari mesin yang terdaftar sebagai pengirim SPAM. 
  Ada beberapa cara untuk melakukan blocking antara lain :
- Address blocking
Metode ini memblok spam-mail berdasarkan IP atau domain atau alamat e-mail tertentu yang telah dikategorikan sebagai alamat spammer.  

- Black listing
Metode ini hampir sama dengan address blocking, yaitu mem-blok spam berdasarkan list alamat spammers yang telah diketahui. Biasanya black listing ini dikerjakan oleh beberapa sukarelawan dan dibuat dalam bentuk database spam-mail, sehingga dapat digunakan oleh semua orang. Salah satu black listing yang dapat diakses adalah Open Relay Data Base, ORDB.org.

- White Listing
Kebalikan dengan Black listing, white listing berisi daftar alamat yang dikategorikan sebagai pengirim e-mail yang sah (legitimate mail). Alamat pengirim mail yang tidak termasuk dalam daftar ini akan diasumsikan sebagai spam-mail. 

 


























  KESIMPULAN
  Berdasarkan pembahasan yang telah dilakukan dapat diambil kesimpulan bahwa :
- SPAM merupakan email sampah
- Email dianggap sampah ini tergantung dari sudut pandang individu masing-masing
- Dianggap SPAm jika didalam email tersebut terdapat virus atau malware
- Tidak ada satupun cara untuk benar-benar menghilangkan SPAM,yang ada hanya mengurangi masuknya SPAM
Cara-cara agar email atau mail serevr terhindar dari SPAM :
• Jangan merespon mail SPAM (yang berupa penawaran produk-produk tertentu yang sangat banyak jumlahnya)
• Jangan me-reply dengan istilah ”remove” karena email anda akan tercatat sebagai email yang aktif.Kemungkinannya besar anda akan terus dikirimi SPAM
• Jangan mengakses site-site yang direkomen oleh SPAM.
SPAM POTECTION 

0 comments:

 

My Favorites

IKLANKU

wibiya widget

BLOG SOFTWARE Copyright © 2009 Blogger Template Designed by Bie Blogger Template