2008-08-03 04:26:11克理斯 在 Internet!

Search Engine 用的 Crawler 開發里程碑紀錄!!!

97 年 8 月 1 日 (西元 2008 年) , 測試完成一台主機可以產生 3000 個 Thread 的 Crawler 主機,並且可以做垂直挖擷資訊和分析向下及向外的網頁連結 , 經過測試瓶頸在於大量的網址的分析。

開發時程:10個工作日 + (每天加班 六小時+ 假日停休)

solve:網頁的網碼問題、單機程序問題、解決結構性的網頁資料分析
多執行序平行運算問題

bugs : Javascript 的部分會 lost 掉!
對於錯誤控制的部分太少

nex step :處理內容重覆性比對

但書:不在 公司的工作項中....

但,自己撥時間發展!!! GO.