September 2006


System & Nethood29 Sep 2006 10:34 am

早前 AOL 因為流出了部份用戶在網站搜尋的紀錄「給大家研究」﹐發生了一場不大不小的風波﹐有管理層因而被革了職。但是若有心要研究搜尋紀錄﹐Google 不才是最有趣的對象嗎?偏偏﹐Google 不用怎樣特地開放﹐對於懂用的人而言﹐都已經有太多東西好玩了。

作為一個 NetAdmin ﹐用 regex 看 Log 是家常便飯﹐對於甚麼 request 是有問題﹐在外洩保安資訊的﹐應該或多或少有點底。在 Unix 上看 log 可以用 grep ﹐在 google 用 inurl + site 等語法﹐來找相關資料﹐效果亦相當可觀。(怎可觀法?我曾有次受人拜託要 recover 一個 password ﹐於是乎在 google 打 inurl:userid=blah site:foo.bar ﹐竟然找了出來……當然這有非一般的內情…)(試玩 link ﹐其實還有更多更簡單更精彩的…… )

九月中﹐美國發生了一單 ATM 被駭改的懸案﹐某保安研究員事後透過 google ﹐不消二十分鐘便找到作案可用的手法。原因無他﹐ATM 機本身的保安密碼﹐出廠後無人按指引更新過﹐那只要下載該 ATM 的說明書﹐便會把握到「正當地修改」的方法。

有人指出﹐ATM 總是要有人管﹐有人入錢的﹐所有保案機制亦然﹐總有個門路給內人使用﹐所以只要當一個內鬼﹐甚麼保安制機都可以破解。說法是不錯﹐只是若情況換上了任一個 街外的 googler ( 或任一款 dataminer ) ﹐都可以輕鬆解徐保安﹐問題就嚴重得多。

像是沒有修改 master password ﹐這種事情的發生概率﹐不單止不是零﹐往往還是高於 50% 。 以往 NetAdmin 要面對的保安問題﹐最為煩擾乃是 brute force / dict attack ( 不計 DoS ) 。若這種入侵活動所花費的 cpu time + bandwidth ﹐有一成轉為在各大 search engine 上挖資料﹐那就真真大鑊。

那怕你把東西機制得如何嚴密﹐你也得靠一班訓練有素、心理質素優良的用戶(尤其是上司)﹐才會減少資料外洩的漏子。Google cache 之惡﹐在於它比任何找得上的 cache 都龐大豐富﹐在於 Google 傾向冒險求進多於保障萬全﹐更在於「你老闆傾向趨附之而不防之」。如是者﹐就算你懂得 Robots.txt ﹐你想用 https ﹐都會被綁手綁腳﹐敗於非戰之罪。

(想知多點﹐可以先看看此入門書:Goolge Hacking ﹐雖是編於 2004 ﹐但依然相當實用﹐中大圖書館也有得借 / online access。)

inurl
Google Trends: password, inurl, id (被用以搜尋的次數)
想想看﹐當紅色線(inurl ) 爬到黃色線 (id) 或藍色線 (password) 的水平 ﹐災難就來臨了。

圖表下邊﹐黃線和藍線的比例﹐某程度反映了可以用google 去看 vs 和可以用 google 去爆的網站的比例

CUHK25 Sep 2006 06:56 pm

以下屬轉載或推介﹐原文可以 bbs 找到 ﹐想聯絡 wonghang 請上 bbs 找他。

作者: wonghang (Tamama二等兵) 看板: CUHK
標題: 中大圖書館的電腦
時間: 2006年9月21日 星期四 23:41:32

是block了使用者, 無法「安全地移除」一thumb drive。

其實可以自己寫程式去解決,
我在google找到了CodeProject的一段code,
於是我把它修改成一個專用來safely remove thumb drive的小程式

http://ihome.cuhk.edu.hk/~s057485/saferemove.zip

MD5: a8687339d8fd3e8467dcb2acc330540c

使用方法請看zip中saferemove.cpp一開頭的comments

希望對大家有用吧


※ 發信站: 香港地(hkday.net)
◆ From: 219.77.43.108

Robotics, A.I. , N.N.25 Sep 2006 04:21 pm

Current research: neural networks with temporal bais and governing function.

ordinary neuron network: signals has temporal bais based on layers and circuit design.
ordinary learning function: characterising signal magnitude.
temporal bias archived by computation: simple event driven OO programming.
circuit realization: integration operator (recurrent nn).

Main-point :
PoV A. Learning function characterising “signal time shifts” and chronicle events.
PoV B. Suppressing error / Provisioning implied trends , without delaying learning / adaptation

ripple

X is the matter of Subject.

It is governed / disturb by lots of events. Some of the events are predictable and thus to be considered as outstanding sources to for learning. The effect (from) of these events are some how understood, but the triggering time have to be studied / due to change.

Successful learning provides faster and more precise adaptation, outlining temporal relation of centers of decision.

Traditional model:
Error -> tune signal magnitude -> leads to signal decay -> lost track

Proposed model:
Error -> delay / stretch signal -> implies stacks ->
A. stack limits / overflow ?
B. lost in choosing stack / trapped ?
C. better responce to 1st wave ?
D. unefficient learning ?

B/D -> implies second layer of learning/decision (speedy PCA)
Objective : Optimizing C/A

Pros:
- Real life analysts face the same problem set. There is hope to enhance these projections by computation.

Cons:
- Traditional model may be enough, it does not consider human concept / modelling. New model worths no more than satisfying error-poned “model / explanation” needs.

Critique24 Sep 2006 05:19 pm

自十九世紀未到二十世紀未﹐工業化已經發展到非專業而不宜茍存的地步。馬克思認為資本主義在壓榨工人權益﹐於是工人要團結起來搞革命。這一個批評﹐若是落在今天﹐則己變得相當之玄妙。

工人革命的條件﹐其實和民族革命條件相類似。近一世紀的絕大多數革命﹐實為民族主義的革命﹐而工人革命只是一個個榥子。共產國際對於基層工人始終缺乏號召力﹐基層人民一旦擁帶出民族國家的執政體﹐雖則此執政體必然要處理國土以內的民族共融問題﹐但更難免地要相對於其他國家的國家民族的團結體制。

然則當國家漸漸地退位﹐出問題的不單是原先共產政權所依賴的基層工人政黨﹐而是基層工人本身。以往基層工人的角色是為政治組織的力量來源﹐同時又是國家經濟、生產力的中堅﹐他們反抗壓榨的力量﹐就在於工人自主的經濟可能性。如今﹐工人自主己經變成一種論述的形式﹐工人本身的專業化﹐已經超越了基本人權、尊嚴、平等關係﹐而成為工人經濟的核心價值觀。

世界雖然不是二元﹐但向來都可以相對化地描述。昔日採用的勞資階級分歧﹐放於今日﹐大可以改為能人和庸人之間的分歧。

昔日納綷主義的可怕﹐是在於以種族建構人類之間的能力階級觀念﹐從而借淘汰不適為名﹐實施種族屠殺為實。但今天種族放諸於全球化的語境來看﹐已經變為次要的號召。相對而言﹐經濟狀況、文化差異﹐才是主要的衝突基點。沒有被屠殺的庸者﹐始終逃不掉社會邊緣化壓力。

一個有專業學識﹐懂得和英語世界溝通的巴勒斯坦人﹐不會只礙於宗教和種族的歧見﹐而不可以和以色列人合作。但是幾乎在每一個國家﹐都出現地緣、業緣的貧富政治對立。

不難看出﹐在美國﹐在英國﹐政黨各有基地﹐而權力平衡則取決於少量的中間區域。這些經濟強國尚且可以利用民主制度﹐去保持國民情緒平衡。新保守主義雖然未必有利於經濟﹐卻不致於使國家缺於國際競爭中的劣境﹐強權(軍事顯現)依然足以激起民粹﹐而民粹正好是用以化解經濟結構差異的普國共同語言。

近來有三個比較大的政治動蕩國度(細的也太多了)﹐這些國度正好是無從以強權和民粹舒洩經濟發展引來的不平等。

如果以台灣台獨主張﹐視為民進黨的政治資源﹐那實在是摸不通現代政治中的要命難題。民進黨始終是以「相對於國民黨大陸兵仔先進」而自居﹐這並非再是台獨視野底下的民粹﹐而已轉化為文化經濟差異帶來的心理問題底下的民粹。

國力和經濟底下的邊緣性﹐並非任何民粹思想所足以解決的問題﹐然則民粹主義卻提供了一個機會﹐讓專業性、經濟力、文化資源皆處於下風﹐並且結構性地難以向上爬的底層人民﹐宣洩一口冤氣﹐向中產、專業者施展壓力。

我認為這個框架﹐比較適合解釋香港、台灣﹐以至泰國目前所處的政治局面。這也是一個普世的命題。民主社會本來是期待專業、文化人主導﹐但建制底下﹐新經濟的邊沿人也得借助這個框架來向社會中堅反彈。他們所持的﹐乃是控制選票的量﹐乃是基要思想底下的團結力﹐乃是一同要宣洩一口被社會所遺棄的氣。是故他們不會為了穩定經濟﹐而等待下一輪選舉。

人民的幸福﹐並不盡然理性的。感性需要往往更關係到幸福和存活的尊嚴﹐這個需要﹐在缺乏強大宗教支柱(統合性)的遠東地區﹐尤其不能政治地解決。

陳水扁無法解決台灣的經濟困局﹐是故他若要處理新經濟底下的邊緣壓力﹐只能運用民粹語言﹐而他自己卻為這種語言所反噬。如果取代陳水扁的新政權﹐只是一個如施明德所要求的清廉者﹐他依然要面對發展經濟和能庸階級差距拉大的問題﹐社會資源有限﹐任一邊不處理好﹐就會被中美所拉倒吸乾。

(我始終認為﹐挺扁和倒扁的共同動力﹐都是在於被經濟體所遺棄﹐而後才有這個空虛去參與政治運動。)

於泰國而言﹐誰真有能力取代他信?他信可是兼具李光耀的政經能力﹐和埃斯特拉達的親民形象於一體的政客。他並不算腐敗﹐卻是敗於出賣國家企業給他國財團的行為﹐這充其量是表露他帶領不到本土商人踏入專業化的國際市場去﹐使泰國變成了庸人的國度。(所以﹐他信也許是一個強人版本的董建華)

比起伊斯蘭世界泡出來恐怖主義反擊﹐遠東、東歐一樣要回應專業階級的納粹本質。在沒有足夠條件提供福利﹐尤其從資料網絡所洩露、屬於他國和本土專業階級共享的福利底下﹐無論是以民主選舉為基調的罷免運動﹐或是透過軍事行動所促成的政變﹐都只是社會邊緣階級無力自持後﹐對專業納粹社會作出的反噬。

Uncategorized22 Sep 2006 03:34 pm

昨晚同事來電﹐談及 ntscmp.com 被 block 一事﹐我一時未想到別的反應﹐因為被 block 被惡搞﹐似乎是我所習以為常的。

被大陸 block ﹐我們的 bbs 如是﹐訊通的一台 server 如是﹐沒甚麼新奇古怪了。被香港亂 route ﹐我不是沒有見過﹐更不致於猜測有哪些權貴在干涉。

別傻﹐國家早就在干涉。

香港人對於網絡上的反動派﹐消息並不算是靈通。有靈通的接頭人﹐但他們都太習慣在封鎖底下做事﹐習慣繞圈子通訊﹐反而察覺不到一般人蒙受擺佈。

我在七月時﹐曾經和朋友面談說﹐近來很怪。上去 datacenter ﹐處處都是國語人﹐都在動地板底下的大條子。內地生意人利用香港的網絡辦工﹐一點都不奇﹐只是平常消不著親自出馬﹐反正請香港人就可以有效地做到一般的操作。

那幹麼會經常有國語人在 datacenter 活動呢?是因為自由行、專才計劃﹐內地工程師地可以輕鬆來港工作﹐而反襯得本土工人又貴又多餘?是因為新來港人士、內地留學生太多﹐而洗掉了本地 IT 界的粵語勢力?

我只是純粹地猜測﹐以上的東西都有可能﹐但不足以構成廣泛現象。要麼中港交流越來越多﹐香港要處理大量內地需要的財經、管理資訊﹐那還要在中港之間建構金盾﹐效率就遠不如在港內管制資訊了。

這絕不是 routing / dns caching 那種古老的方法。大陸慣用的手段﹐恐怕是捕獵 packets 。初期尚且會有通訊的﹐而當中繼點開始分析到內容後﹐才會把其後的 packets drop 掉或是惡搞。

那回到 ntscmp.com 的問題﹐是不是如坊間所說﹐為李嘉誠或其關係人士所搞的鬼呢?

我不喜歡李氏﹐但是專業知識告訴我﹐這件事和中共、李氏都無關﹐各 ISP 亦不是罪魁禍首。看不到的原因很簡單﹐就是因為 host ntscmp.com 的公司實在是太臭了﹐host 了好些 bank phishing 而不顧申訴﹐結果被國際上的監控機構掛了上黑名單。

例子: http://phishery.internetdefence.net/data/796

香港的 isp 可能是甚麼都沒有做﹐或是只是有租用外國經過濾的大水管﹐而 ntscmp 是在外國就被擋了的。

坊間危言聳聽的說法﹐各位應要有心理準備。但我認為事實歸事實﹐有很多長時批評李氏的土炮網站都未死﹐又幾時輪到 ntscmp 呢?

Critique10 Sep 2006 12:36 pm

我一直想找東西比較﹐當初香港有倒董﹐實質這個社會消耗了多少﹐又換來了甚麼?

現在最好的比較對象還未出現﹐台灣有倒扁﹐跟香港倒董可謂風馬牛不相及。如果香港有倒曾﹐那還可以跟倒扁相提並論。

陳水扁可謂是政壇上的演歌高手。台灣有好多深入的報評﹐已經分析到﹐阿扁的左右手都已經廢掉了﹐政治能量所餘無幾﹐他只能把戲演下去。是故﹐換掉阿扁﹐再差的情況﹐是既無政治能量﹐又無演技魅力的人當權。

施明德把反貪作為大旗﹐號召出至今最大的示威陣容﹐這個陣容對任何政客而言﹐都是可怕的。要做到比阿扁清廉﹐談何容易?阿扁敗在管束不了家人﹐這已經表示他盡了最大努力管束手下﹐甚至管到沒有人再有條件替他效勞。而在其後﹐他的家人才有得「風光」。他的家人的賄賂價值﹐實在沒有得再低了。

他的家人腐敗﹐還阿扁本身還是近乎滴水不漏﹐這點說明甚麼?那些賄賂第一家庭的錢﹐基乎都是白花掉了﹐沒奈何﹐換掉阿扁﹐賄賂者也可以出一口鳥氣。

是故﹐欲想貪官當權的﹐誰不比施明德更想迫走阿扁?在街上喊口號反貪的人﹐卻是跟在背後造貪的金主﹐站了在同一陣線上。阿扁一倒﹐若拉不出施賄瀆職處﹐這個道理真是沒有得再明白。

呂秀蓮無論如何﹐還是會頂上一陣子。但她對甚麼單位都沒好處﹐亦不能提供平衡各陣營的協調力﹐她這台戲﹐還未有台詞。

恰巧﹐這陣子各個潛在有力問鼎的單位﹐都不敢多吭聲﹐寧可讓施明德盡攬風光。那麼﹐他朝無論是誰上了場﹐還是會跟熱哄哄的反貪陣營保持距離。阿扁越挺得長時間﹐反貪陣營也就要繼續佔著言道﹐這代表新的接捧人﹐長時間都想不出個好方法接捧。

阿扁越快倒下﹐可供宣傳新台詞的空間越多。偏偏就是﹐台戲實在不好唱。下了台的阿扁隨時可以搖身一變﹐成為第二個施明德﹐恐怕要比施明德還厲害得多。

System & Nethood04 Sep 2006 06:43 pm

這是不是一個很笨的命題?

當你有管過電郵伺服器﹐也許會有不同的視點。郵箱的容量﹐並非為了替用戶儲存多些郵件;面對越來越龐大的垃圾信浪潮﹐服務供應商寧願你「有大吃大」……

兩年之前﹐免費郵箱都是有限 size ﹐比如說要給你 10Mb mailbox ﹐又會把大於 1Mb 郵件(連附件)打回頭。如果我把上述例子稱為 10/1 ﹐那當時比較強一點的服務﹐可能是 50/10。

自從 Gmail 等大件頭免費郵箱登場以來﹐市場很快就淘汰掉 100/2 以下的﹐餘下來可以生存的服務﹐基本上都有 100/10 的等級。

有趣的是﹐以住用戶為了順利把信送到免費郵箱﹐要把內容控制到盡量精簡。而現在﹐若你經常要在 hotmail / yahoo 的垃圾箱中找回有用的信件﹐最好的方法是﹐叫寄信的人每次都 attach 200Kb ~ 2Mb 的檔案給你。

小容量的郵箱﹐往往是死於被 spam mail 塞爆。若一個 email account﹐可以在 google search 得到﹐或是因業務關係被 marketing agent 得知﹐三個月內﹐平均每天寄到該 email 的 spam ﹐總容量可能有 0.5mb 。換句話說﹐若不能由系統直接刪掉部份過濾出的信件﹐100 天不處理的 spam/trash ﹐便已經佔了 50mb 。

對於發放垃圾信的機構來說﹐他們始終受到頻寬限制。若每分鐘可以發出 10 萬封 10kb 以下的信件﹐他們不會改發 5 千封 200kb+ 的信件﹐以免 total yielding 下降到不能運作的地步。是故﹐即使機器越來越強勁﹐頻寛越來越大﹐目前還沒有必要把 200kb 以上的信件﹐看作 spam mail 而 scan 。於是乎﹐attachment 夠大﹐往往會跳過好過檢查程序﹐而被當作可信的郵件。

scan spam 跟 scan virus attachment ﹐loading 有好大分別。前者意味著和最前線的 smtp 同步 stream line 運作﹐後者僅關乎用戶登入和檢查郵件的頻率。如果服務供應商不避免檢查大郵件﹐伺服器的負荷可能會在關鍵的頂峰時間﹐倍大十多倍﹐拖死其餘運作資源。

中等 size ( 200k ~ 10Mb) 的郵件﹐既沒有必要偏執地過濾﹐要過濾也沒有足夠的資源﹐那就等同於最優待的郵件了。

進一步推論﹐如果想減低難以辦別的郵件的比率﹐最好就是讓用戶安心地發大信件﹐習慣發大信件﹐傾向於發大信件…… 若大信件最少有 30Kb 大﹐平均則是 500kb ﹐那 1G 的信箱也只是存得了 2000 封信。若每天遇計可以收發 10 封信﹐那 2000 封信也不過是半年不刪信的存量…

電郵存半年﹐正正是暗底裏的 standard expectation …

若果你看看自己的信箱﹐好過半年內留下的信件都沒有超過 200mb ﹐那與其質疑我﹐倒不如想想會不會有很多該收到的信終於沒有收到?

我有管些 200mb 以下的郵箱﹐經驗之談就是:一般活躍戶口﹐若要維持在這容量以內﹐除用戶本身要勤於清容垃圾信外﹐伺服務直接濾掉的郵件比率﹐要在 66% ~ 90% 才行。

如果我說﹐一個勤力到死的伺服器管理員﹐在 200mb 的框架底下﹐只能做到濾掉 90%+ 垃圾信﹐而損失 <5% 正件。那試問﹐有甚麼理由不把郵箱加到 1Gb 以上﹐而把所有機器濾出的垃圾信通通留在用戶的 bulk / spam folder ?

目前﹐三個大宗派免費電郵服務﹐數 hotmail/msn 濾得最兇狠﹐yahoo 最浪費郵遞時間﹐gmail 保存最多垃圾信。

濾得兇﹐拖得久﹐往往會導致到用戶收不到他願意收的信。事實上﹐server 的負擔也會格外大。

和 yahoo 相比﹐gmail 的現有的活躍用戶量還是很小宗。若兩者拉近了距離﹐gmail 想保持 mail server 的效能優勢﹐難免要負擔數倍甚至數十倍於 yahoo的成本。若僅是數倍成本﹐gmail 還可以靠較佳的廣告嵌件計設﹐較頻密的用量﹐而期望有相對大的收益支持下去。數十倍的話﹐還是會拖個當死。

對於小形 hosting agent 來說﹐管理 mail server 的平均成本﹐實則是 yahoo / google 的千倍萬倍是也﹐規模效益差太遠了。


Listed on BlogShares