2008-04-03 07:54:00Chris(小K)

研究火力展示- 新版搜尋引擎完成!

在昨天 2008 年的 4 月 2 日,  demo 了開發了將近一年的 search engine. 
有 multi-processes , multi-Thread , share memory , chache memory  , single instance ...etc 之外 , 
最基本的是資料量的處理和功能 , 
處理的資料 spec 是 70GB 的 raw data (全文資料) , 產生的運算檢索檔達 20 多G 之譜 , 但 turning 到每一個查詢的反應時間在 1 秒內處理完.
最 wroost 的狀況是4 秒.... (這是筆數過多且有 很多的 or not and 的 logic 在裡面造成的)
以上的數字是一個單台主機以 200 個 client 同時處理計算的 loading 下完成 , 主機等級選用 DELL 1950 主機 , 一台10萬元.

並且 在資料的排序上,基上有七種欄位排序的方式 , 正逆排序也做完 , 效率一樣. 

在更新組建方面 , 使用 service oriented  architecture (SOA) 的方式建構 update / delete / insert  組建檔 , 及瞬間的 refresh 達 20 多G 的 index.

搜尋全文系統 , 在於對文章的每一筆資料 , 只要是內容字樣相同 , 就可以完整的被找到 , 一筆不差.
並且對於文字的前後排列組合方式 , 如:中華、華中 這兩個字的查詢 , 要是不同的結果集!

在語意的部分 , 並非很了解 , 但足夠的硬體設備和 Turning 開發出來的搜尋全文系統,  在公司待了近二年的時間 , 總算完成一個階段性的任務.

下一步 , 就是 turning 老闆還期望的偏好型搜尋 , 也就是試看看精準搜尋 , 打算使用拿手的 Genetic Programming 和 Fuzzy Algorithm 來實做這一個挑戰.
並且第一階段的火力展示 , 使搜尋引擎有一個新的名字叫:Search.1 (因為敝公司有一個全世界的產品叫 Free.1 )

昨天就在 demo 完後 , 就再架起二台 Linux 主機系統  <---- 是用一般 PC 架起來的 >_< ... 省預算!!!
大概二週吧 , 丟進去演算相關的演算法生存機制的程式就可以如期完工 .... 

加油!!!