鉅亨看世界─網路金礦
噓!亞馬遜網路公司 (Amazon.com)(AMZN-US) 可不想被網友發現它們的小秘密。事實是,它們不僅會追蹤顧客購買的書籍資料,還保留了那些你曾瀏覽過卻沒有購買的商品紀錄。此舉讓它們清楚地知道,下次該向你推薦哪類型的書籍。
若你使用的是其出產的電子書-Kindle,那亞馬遜所得到的資訊可能就更豐富了。
亞馬遜並非是唯一一家這麼做的網路公司。根據《經濟學人》報導,在整個網路經濟當中,有越來越多公司開始收集並匯編有關網民的大量數據,包含他們的行為、喜好、與他人的關係,甚至是當他們純粹默默瀏覽網頁時也不例外。
■數據創造經濟
舉例來說,社交網站 Facebook 就是個很好的例子。該網站每日追蹤其4億用戶,其中,有一半用戶會花平均一個小時的時間在該網站上。但 Facebook 不願表示他們到底收集到了些什麼資料。相較之下,Google(GOOG-US) 雖願意透露其收集的資訊,卻依舊保留了許多細節,而網路拍賣商 eBay (EBAY-US) 則乾脆選擇保持緘默。
熟悉許多科技內幕的 Tim O’Reilly 表示︰「這些公司並不希望引起這麼多的關注,因為這是其競爭優勢的核心。數據對網路公司來說是創造財富的關鍵,擁有別人所不知道的數據,將會是他們領先其他公司很大的優勢。」
一家知名網路公司的主管則承認說︰「我們無法『深入』對此作評論或發表意見。與其說是考慮到敏感的隱私權,還不如說是我們不打算給予對手任何實用的提示及內幕消息。」換句話說,該公司不希望透露任何有價值的商業機密。
眾公司如此沉默的態度,反應出消費者或多或少對於被監管感到一定程度的不安與不歡迎,然而這種做法是毫無遠見的,原因有二:第一,政治家和大眾已經對此感到焦慮,美國聯邦貿易委員會主席 Jon Leibowitz 就曾公開抱怨表示,該產業現有的資料數據實在太少了。第二,一旦消費者知道這些數據的用途何在,他們可能將會感到印象深刻而非擔憂害怕。
當傳統企業還在透過調查或購買趨勢收集有關客戶的資料時,網路公司則可利用發生在其網站上的一切事物收集數據。幾家大型網站在很久之前就已經認知到,來自其網站上的資訊就是它們最大的財富。此外,這些數據還能不斷及時更新並被使用,這是傳統企業所無法比擬的。
部分技術在各個網站上已經非常普遍,大型網站在部署一個新功能時,會先經過不斷測試,好找出最佳的運行效用。譬如說,影音租片網站 Amazon & Netflix 便使用一種叫做「協同過濾」(collaborative filtering) 的統計技術,當用戶瀏覽該網頁時,系統將自動向用戶推薦影片,同時也會顯示出其他用戶喜歡的影片類型。而 Amazon & Netflix 網站光是利用這項技術,就多出了數百萬美元的營收。根據統計,有近三分之二的顧客會依照電腦的推薦而選片。
知名網站 eBay 乍看之下只不過是一個提供商業交流的中立平台,但實際上它也從中獲得了不少資訊,包含消費者在網路上的投標行為、搜索範圍、商品價格趨勢及用戶瀏覽頁面的時間長度。
Google 則是將這些數據發揮至最大功效的公司。它利用大量匪夷所思的資訊創造出新的經濟價值。這也解釋了,為什麼 Google 這僅成立 11 年的公司,其市值已經達到 1700 億美元。Google 利用這些資訊 改善服務或創造出一個全心的產品。
■用滑鼠寫下排名
1998 年,Google 其中之一的創辦人 Larry Page 發明了專用於搜尋的計算程式「PageRank」,該程式可演算出一個網頁等級在一個數值基礎上所得到的重視,其排名是依賴關係和公信力。
PageRank,亦可稱為 PR 值,是 Google 用來評測一個網頁重要性的一種方式,在融合了標題、標誌和關鍵字等所有因素之後,Google 透過 PageRank 來調整結果,使那些更具重要性的網頁在搜索結果中可提升網路排名,進而提高搜索結果的相關性與質量。
PR 值共可分為 10 級,越高便越可說明該網頁在搜索排名中的地位重要性,也就是說,在相同條件的情況下,PR值越高的網站在 Google 搜索結果的排名就越有優先權。
PR 值的高低取決於一個頁面的「得票數」,得票數是由所有連向它的頁面之重要性來決定,簡單來說,每到一個頁面的超連結,便相當於對該網頁投下一票。而擁有較多連結的頁面會有較高的等級,反之若一個頁面沒有任何連結頁面,那麼它就沒有等級。
儘管這套系統對網路業來說是一大創新,但它也被部分人濫用於垃圾郵件的連結。Google 公司的工程師們因而意識到,要解決問題是顯而易見的:提供用戶她們真正想查詢的資料。
每當用戶在谷歌網頁上搜尋一項東西時,在 30 秒之內其產生的結果可能會多達 200 萬筆資料,但往往用戶真正需要的只有 1 頁,透過顧客所選擇的網頁,Google 便能知道哪個才是他們正在尋找的。因此計算程式將會自動重新調整資訊,而 Google 也意識到這種數據採集將是一項大生意。
事實上,Google 並非第一個改善數據的,這也並非是技術創新。其中最突出的例子可追溯到 19 世紀中葉,一名美國海軍 Matthew Fontaine Maury 曾有過聚集太平洋航線的航海日誌的主意,好找到擁有最佳風向與洋流的路線。儘管這一過程既緩慢又艱苦,但他創造出早期的社會網路。
■全球最好的字典系統
這套遞歸學習的數據原理同樣適用於該網頁的其他服務上,舉例來說,Google 字典服務就利用了此數據原理,其開創性的方法使它成為全球最好的字典系統,並幾乎適用於每一種語言。微軟表示,它們在 20 年間花了百萬美元,才研發出專屬又強大的字典檢查程式。
Google 另外兩個新服務也採取同樣的做法:翻譯與語音搜尋。這兩個服務都曾被研究人工智慧的電腦科學家視為是大絆腳石,在過去40多年間,研究人員不斷嘗試要設計出使電腦能明白語音及語言結構的編碼程式。
這意味著,研究人員想要定義規則,例如在名詞和動詞中該如何排設才能表達出正確的時態等。同時,所有語法的例外規則也都需要編程。相較之下,Google 將其視為一個用大量數據與處理能力便可解決的大型數學問題,並從中獲得了一些非常有用的作用。
至於在翻譯部分,該公司同樣憑藉該系統獲得了成功。在美國 Google 公司描劃的未來計劃中,人們將可以通過 Google 網站的「機器統計式翻譯」把文件即時翻譯成世界各種主要語言,而不再需要透過語言專家幫助。
這套由 Google 研發的「機器統計式翻譯」程式,與通過專家為電腦錄入語法規則和辭匯庫的傳統方法不同,「機器統計式翻譯」把翻譯文本庫完整錄入電腦,電腦通過程式辨識出應該選取哪些部分。
Google 工程師 Franz Och 說,雖然目前的翻譯質量仍不算完美,但「機器統計式翻譯」比傳統機器翻譯已經進步許多。新方法的翻譯基本達意,只是用詞顯得有些生硬。
目前,「機器統計式翻譯」系統已經涵蓋超過 50 種語言,該系統可辨識出常用語言的單字或是簡單片語,但部份冷門語言則不能直接翻譯,必須透過英文當作媒介。用戶們只需訪問其網頁便可以使用這些軟體。
Franz Och 也表示,他們將數以億計的翻譯文本輸入電腦,其中包括不少聯合國與歐盟工作文件。他希望自家的翻譯系統可以透過統計和分析的方式,在翻譯時可避免掉一些外交上的失禮言語。當遇到類似「外交忌語」時,程式會自動選擇禮貌詞彙進行替換翻譯。
「輸入系統的翻譯文本越多,機器翻譯的品質就越高。同時也可以迴避一些不必要的外交忌語。」他說。
■電腦的新形勢
Google 並非第一個萌生此想法的公司,早在 90 年初期,IBM 便試圖建立一個英翻法的翻譯系統,然而該系統並不成功,導致最後被放棄。Franz Och 不屑地表示,IBM 的程式上只有幾百萬份資料,但 Google 卻擁有數十億的資料,當然會成功。
語音辨識突顯出使用數據的重要性。當顧客要使用 Google 的電話目錄系統或語音汽車導航服務時,只要撥打有關號碼並說出他們想找尋的東西,該系統就會重複複訟一遍,當顧客確認或選擇重新查詢之後,使用者的語音將被轉換為編碼數值字串文件,然後傳送至 Google 的網路伺服器進行解讀,在幾秒中內,該系統便可透過計算概率的方式找出最恰當的回覆。
這是一項現有技術的延伸,Google 之前就已為黑莓機 (BlackBerry) 開發在地圖導航指令上的語音辨識功能。目前新開發的這項技術將提供使用者更便利、強大的手機功能,並結合語音辨識與傳統導航功能,以便應用於日常生活中形形色色的需求。
經由專業人士測試後發現,這個功能幾乎可以涵蓋當地所有的資訊,而不只是僅限於傳統的導航,同時亦包括知識的取得,如自由女神像的由來等眾多世界性範圍的問題。為了推出這項服務,Google 需要一個現有的語音辨識系統,因此它授權了該領域的龍頭-Nuance軟體。
普林斯頓大學的 Edward Felten 表示:「被重複使用的數據代表著電腦史的成長,這將是電腦的新形勢-利用大量數據並透過統計分析的方式,去推測未來網路趨勢。」
許多網路公司現也抱持同樣的看法。Facebook 定期檢查期龐大的數據庫,以提高使用率。該網站發現,最有效能吸引用戶持續使用網站的方式,就是讓他們與朋友之間有互動,因此該網站不斷更新用戶們的最新動向。網路遊戲公司 Zynga 也曾每個月追蹤約 100 萬名用戶,好改善其遊戲。
亞馬遜公司前首席電腦研究員 Andreas Weigend 說:「利用追蹤用戶所生成的數據,使我們將可建立出更好的系統。」風險資本家 Marc Andreessen 則認為,這些公司建立了一個新文化,透過科技技術處理大量數據,這是傳統公司所無法比擬的。
數據回收是 Google 在無數活動項目中共同的主題,這有助於解釋為什麼它們會有許多被稱為是測試版或早期測試版的活動:事實上,這源自於它們從不間斷的研究發展。
一項能讓 Google 用戶們儲存醫療紀錄的服務,將能使公司從中察覺有價值且有關對疾病與治療方式的寶貴模式。一項能讓用戶檢測電力使用裝置的服務,則可提供有關能源消耗的豐富資訊。這些將可能成為世界上最好的消費電子產品數據庫,它甚至可以預知可能發生的故障。同時,Google 還免費提供統計數據查詢,其對零售銷售關注的禽流感疫情,被視為是準確的預測。
近年來,全球近三分之二的網路搜尋透過 Google 伺服器執行,加上 Google Docs、Gmail 和 YouTube 等服務的使用不斷成長,Google 儼然已是網路使用者最重要的資訊門戶。
Google 估計,若讓用戶們了解到自己能輕易地刪除資料並更改隱私設定,他們將能更放心的與該公司分享這些資訊,而 Google 也能藉由這樣的措施,減少先前對業務的傷害,並再創事業高峰。
上一篇:鉅亨看世界─六塊肌之下
下一篇:鉅亨看世界─歐元圓缺