早前 AOL 因為流出了部份用戶在網站搜尋的紀錄「給大家研究」﹐發生了一場不大不小的風波﹐有管理層因而被革了職。但是若有心要研究搜尋紀錄﹐Google 不才是最有趣的對象嗎?偏偏﹐Google 不用怎樣特地開放﹐對於懂用的人而言﹐都已經有太多東西好玩了。
作為一個 NetAdmin ﹐用 regex 看 Log 是家常便飯﹐對於甚麼 request 是有問題﹐在外洩保安資訊的﹐應該或多或少有點底。在 Unix 上看 log 可以用 grep ﹐在 google 用 inurl + site 等語法﹐來找相關資料﹐效果亦相當可觀。(怎可觀法?我曾有次受人拜託要 recover 一個 password ﹐於是乎在 google 打 inurl:userid=blah site:foo.bar ﹐竟然找了出來……當然這有非一般的內情…)(試玩 link ﹐其實還有更多更簡單更精彩的…… )
九月中﹐美國發生了一單 ATM 被駭改的懸案﹐某保安研究員事後透過 google ﹐不消二十分鐘便找到作案可用的手法。原因無他﹐ATM 機本身的保安密碼﹐出廠後無人按指引更新過﹐那只要下載該 ATM 的說明書﹐便會把握到「正當地修改」的方法。
有人指出﹐ATM 總是要有人管﹐有人入錢的﹐所有保案機制亦然﹐總有個門路給內人使用﹐所以只要當一個內鬼﹐甚麼保安制機都可以破解。說法是不錯﹐只是若情況換上了任一個 街外的 googler ( 或任一款 dataminer ) ﹐都可以輕鬆解徐保安﹐問題就嚴重得多。
像是沒有修改 master password ﹐這種事情的發生概率﹐不單止不是零﹐往往還是高於 50% 。 以往 NetAdmin 要面對的保安問題﹐最為煩擾乃是 brute force / dict attack ( 不計 DoS ) 。若這種入侵活動所花費的 cpu time + bandwidth ﹐有一成轉為在各大 search engine 上挖資料﹐那就真真大鑊。
那怕你把東西機制得如何嚴密﹐你也得靠一班訓練有素、心理質素優良的用戶(尤其是上司)﹐才會減少資料外洩的漏子。Google cache 之惡﹐在於它比任何找得上的 cache 都龐大豐富﹐在於 Google 傾向冒險求進多於保障萬全﹐更在於「你老闆傾向趨附之而不防之」。如是者﹐就算你懂得 Robots.txt ﹐你想用 https ﹐都會被綁手綁腳﹐敗於非戰之罪。
(想知多點﹐可以先看看此入門書:Goolge Hacking ﹐雖是編於 2004 ﹐但依然相當實用﹐中大圖書館也有得借 / online access。)
Google Trends: password, inurl, id (被用以搜尋的次數)
想想看﹐當紅色線(inurl ) 爬到黃色線 (id) 或藍色線 (password) 的水平 ﹐災難就來臨了。
圖表下邊﹐黃線和藍線的比例﹐某程度反映了可以用google 去看 vs 和可以用 google 去爆的網站的比例

