自從離開公司之後﹐舊伙兒說﹐垃圾電郵量大幅上升了。

實係啦﹐之前我起碼個個禮拜 Tune 一次喎﹐家陣卻係 Default ﹐點會冇分別?

做 Admin ﹐有 Spam Assassin 幫手﹐其實已經有好多野唔使自已落手落腳﹐系統自動會調整。但係自動系統並唔會萬試萬靈﹐若果能夠增長一點 Human Decision ﹐協助自動程式長進﹐咁就會更好。

有關 sa-learn 的基本應用﹐可以參考這篇舊文:
http://linuxgazette.net/105/youngman.html

SA 的 Bayesian Filter ﹐其實唔太適合小型 Mail Server ﹐唔識 Tune 就會出好多戇居野。

於是乎有些人主張轉用 Bogofilter。兩隻野的原理並不是差幾多﹐Bogofilter 的優勢﹐該是耗少點 CPU Power 。如果 Postmaster 把工作目標﹐放在盡量減低 spam showing rate 之上﹐而不必憂慮 system resources / scaling problem ﹐那就不必爭論 Sa 好用還是 Bogo 好用。敗家一點﹐把 Spam 和 Bogo 連在一起用的﹐也大有人在呢。

也有人採取 filter outsourcing 策略﹐把所有 account forward 去 Gmail ﹐等 Gmail 做過濾器。咁都冇話唔得﹐Gmail support pop ﹐若果 hosting agent 夠膽死﹐甚至可以把公司的 webmail client ﹐駁去 Gmail server 。整個系統圖象﹐就是 webmail portal on webmail portal ﹐並唔會慢好多。(呃錢呃 Google ﹐小兒科啦…)

講番 SA Tuning ﹐實際上﹐一個人肉 Admin 可以做到乜野?

首先﹐你要收集 *已知* 的 spam pattern reports 。垃圾信有一定的周期﹐同一系列的 circulation ﹐通常是一個禮拜起﹐一個禮拜沉﹐周而復始。如果你找到了第一波 key word ﹐我肯打包單﹐一個禮拜做三粒鐘 tunning ﹐效果會勁過 gmail 十萬倍。

絕大部份 spam 都會分流到某些知名的 traps ﹐以及動態 relay ﹐這是重點。

只要借助 spamhaus 之類的服務﹐spot out 有問題的 ip ﹐咁就可以自已 build up 一個 honey pot 。

Honey pot 就是你的 spam database ﹐專門用來招惹狂蜂浪蝶。

有了 database ﹐就要開始分析了。點分?用 google !

spam 的本質就是牟利。一咪就係坤人入會 / 俾錢 / 過戶﹐一咪就是 sale 野。任何可以 sale 的東西﹐都一定會在 search engine 上具有商業價值﹐於是你一定可以在 google search 中找到大量廣告……

咁多個一定加在一起﹐你就知道 google 係一本字典﹐佢可以幫你找到每一個單字的「價」。最勁的就是﹐google 不會理會助語字彙﹐頻率太高的濫字﹐google 自然會幫你噎走。

動一動腦筋﹐你可以找到呢期最 marketable 的字是甚麼﹐其實來來去去都係個廿零個﹐花兩三個月 study 就乜都上手了。

跟往﹐唔該用 perl 去幫你 report 呢期廿大值錢字的 spam 率﹐配合貴公司客實際需要﹐加大 sa score 。

例:

 (clamdscan: 0.88/1428. spamassassin: 3.0.2. perlscan: 1.25st.
 Clear:RC:0(189.130.57.47):SA:1(5.1/5.0):.
 Processed in 1.006824 secs); 16 Nov 2006 02:04:08 -0000
X-Spam-Status: Yes, hits=5.1 required=5.0
X-Spam-Level: +++++
X-Spam-Report: SA TESTS
  3.1 HELO_DYNAMIC_DHCP      Relay HELO'd using suspicious hostname (DHCP)
  4.2 HELO_DYNAMIC_IPADDR    Relay HELO'd using suspicious hostname (IP addr
                             1)
  0.5 DATE_IN_PAST_03_06     Date: is 3 to 6 hours before Received: date

這是一個入 honey pot 的信頭 (header) ﹐SA 已經幫你抽佢出來。

睇下講乜?

TheSubway com Post its Hot Stock List and MPRG is on it as New Movie Hits VH1! 
	
Company: The Motion Picture Group
Symbol: MPRG
Price: $0.25
3 Day Target: $1.00
Status: Strong Investment 
	
The Motion Picture Group's (MPRG) New feature film staring Keifer Southerland, has launched on VH1 and will be airing at Key hours over the next several weeks. 
	
Keifer Southerland stars as Jack Bower in the Hit TV show \"24\". MPRG is formed by a group of producers that have been a part of some of the last decades hottest films. 
	
Its no wonder MPRG has hit the Hot Stock List. The price is at $0.25 but it wont stay there long. The new film Airs this weekend on VH1. Grab MPRG first thing Thursday morning this one is sure to go through the roof!

又係股票喎﹐你有玩開呀?咁 filter 股票用語﹐咪玩死自己?
不過﹐若果係堅野﹐唔洗 mix up 娛樂資訊吧?
把當中最值錢(推)的東西 .上市公司名 ( MPRG ) ﹐俾個 tag 佢﹐
再把電影名星(最能「拉」客﹐一樣值錢!)﹐又俾個 tag 佢。
最後﹐把出現兩組 tag 的信﹐判決死刑!

有 N 咁多個上市公司名﹐又有 N 咁多個名星﹐你想做 Housekeeping ﹐就別去維護一個大到無倫的 tagger filter 。只要跟住 google 又好﹐yahoo 又好﹐del.icio.us 又好, technorati 又好﹐針對最 hit 的十零廿個名詞做 filter ﹐就已經好夠了呀。三五七日更新一下﹐一定無死。 ( 識唔識用 google sets / trends 呀?)

咁你就可以在三個月內﹐宣告自己個 filter 勁過 gmail 。

( 仲想勁 d ? 其實把握 tagging / clustering 係好重要的。若果你 host webmail service ﹐堆信反正都留在 server 即時過濾未必是最好的方案﹐retroactive approach 可能仲好。若如此﹐你要的是甚麼?只要給每一封信記一個 finger print / hash code 就夠!將 sa 用來做 clustered honey pot 的派信員﹐等系統定定地碌過各個集中營 ﹐歸納點算過﹐再用 finger print 將之前派出的信種族大屠殺 !)