2016-08-12 16:10:45讀.冊.人

立秋閱讀:佩德羅.多明戈斯《大演算》


立秋閱讀:佩德羅.多明戈斯《大演算》
書名:
《大演算:機器學習的終極演算法將如何改變我們的未來,創造新紀元的文明?》

作者:佩德羅.多明戈斯(Pedro Domingos)
電腦工程博士,現任華盛頓大學電腦工程系教授,該系是全美前十大電腦工程名校。他初試啼聲聞名圈內是兩度在資料採礦大會上獲得最佳論文,並在此後成為該領域的意見領袖。他在專業領域內獲獎無數,還包含美國國家科學職業成就奬,他也是史丹佛大學及麻省理工學院客座教授。

他最有名的功績是破解了一個在機器學習領域中長久以來的瓶頸,成功把機器學習、哲學與人工智慧結合起來。這個突破性的研究還曾經登上著名的《新科學人》(New Scientist)雜誌的封面故事。
他在華盛頓大學開設的機器學習課程,一向都是該校最受歡迎的課程之一。
他最有名的功績是破解了一個在機器學習領域中長久以來的瓶頸,成功把機器學習、哲學與人工智慧結合起來。這個突破性的研究還曾經登上著名的《新科學人》(New Scientist)雜誌的封面故事。

他在華盛頓大學開設的機器學習課程,一向都是該校最受歡迎的課程之一。
電腦工程學術背景的他,卻不是個嚴肅學究,他擅長公開演說,傳達機器學習與大數據的相關知識,經常受邀公開演講。他對寫作非常有興趣,曾經鑽研過寫作課,師承《辛德勒的名單》作者湯瑪斯.肯納利。

除了電腦科技的學術論文,他也經常撰寫音樂技術相關的專欄文章。因為他年輕時代曾經是個搖滾樂團的鍵盤手。該樂團還曾經與EMI簽約,經常四處表演,當時他除了是鍵盤手,還是負責接受媒體採訪的人。他離開樂團,是因為要專心攻讀電腦科學博士,他很早就對機器學習興趣濃厚,因為他認為,這是最後會統治世界的一種關鍵技術。

審訂:成大資工系特聘教授兼系主任/謝孫源
 臺灣大學資訊工程系博士,現為成功大學資訊工程系特聘教授兼系主任。
主要研究領域為演算法設計與分析及其應用。他曾榮獲行政院國科會97年度傑出研究獎、科技部104年度傑出研究獎、中華民國資訊學會李國鼎穿石獎、中國電機工程師學會傑出電機工程教授獎、中國工程師學會傑出工程教授獎、第十三屆有庠科技論文獎(資通訊領域)、中華民國102年資訊月傑出資訊人才獎、並獲選為英國皇家資訊學會會士。

謝教授並貢獻其所學於資訊教育上,曾於2003及2016擔任國際資訊奧林匹亞競賽國家隊指導教授,指導國手參加國際資訊奧林匹亞競賽榮獲佳績。

譯者:
張正苓
淡江大學資訊管理所碩士畢業。
曾擔任美國CNET財經版即時新聞翻譯、美國宏碁大觀園矽谷時報新聞編譯、東森寬頻數位內容副理、美國華爾街財經系列書編譯。

胡玉城
政治大學傳播學院EMA碩士畢業。
曾擔任工商時報科技記者與召集人、科技島副總編輯、中時分類廣告副總經理、美國矽谷時報執行副總編輯、東森寬頻副總經理、太平洋寬頻副總經理、美國休士頓城市電通共同創辦人與美國阿肯色WoConn總經理。
 
現任美國矽谷天使交易所、美國馬里蘭紅點行動支付 ReeDot Inc.共同創辦人。
著有暢談類神經網路與華爾街股市總覽等相關書籍。

 內容介紹:
★亞馬遜AI與機器學習類暢銷榜 第1名
★亞馬遜數學與統計類暢銷榜 第1名
★亞馬遜資訊理論類暢銷榜 第1名
★CNN、《新科學人》、《經濟學人》、《柯克斯書評》等多家媒體推薦報導
★比爾.蓋茲年度選書!

揭開大數據、人工智慧、機器學習的祕密,
打造人類文明史上最強大的科技——終極演算法!
有一個終極演算法,可以解開宇宙所有的祕密,
現在大家都在競爭,誰能最先解開它!
.機器學習是什麼?大演算又是什麼?
.大演算如何運作與發展,機器可以預測什麼?
.我們可以信任機器學過的東西嗎?
.商業、政治為什麼要擁抱機器學習?
.不只商業與政治,醫學與科學界也亟需機器學習,包含DNA解碼、癌症藥品開發等。
.你擔心人類會被大演算所取代嗎?可以避免嗎?該如何做?
華盛頓大學電腦工程系教授佩德羅.多明戈斯(Pedro Domingos)破解了一個在機器學習領域中長久以來的瓶頸,成功把機器學習、哲學與人工智慧結合起來,這個突破性研究還登上了《新科學人》(New Scientist)雜誌的封面故事。

他指出,機器學習有五大思想學派,每個學派有主要的演算法,能幫我們解決特定的問題──
.符號理論學派:將學習視為是逆向演繹法,從哲學、心理學和邏輯思路方面取得概念
.類神經網路學派:導傳遞演算法可以模擬人腦思考行為,是受到神經科學和物理學的啟發
.演化論學派:遺傳程式規劃會在電腦上模擬演化,澈底運用遺傳基因和演化生物學理論
.貝氏定理學派:相信學習是機率推理的形式,是根據統計學的理論
.類比推理學派:支持向量機從相似度判斷進行推論學習,並受到心理學和數學的影響

多明戈斯認為,如果有人可以成功整合這些演算法的優點,
就能發展出「終極演算法」,便可以從大數據與人工智慧中,
獲得世界上過去、現在與未來的所有知識,將創造新紀元的文明。

站在大數據與文明終將合一的浪潮上,
終極演算法將帶領我們,望見未來。

【為什麼你必須知道大演算?】
◎如果你是一般市民或決策人士
讓你了解大演算的來龍去脈,從隱私到未來的工作與機器人戰爭的倫理,
你將會看到真正的問題在哪裡,並思考如何看待這些問題。

◎如果你要把機器學習運用在工作上
不管你在哪個行業、什麼職業別,機器學習能幫你省下人工編寫程式的費用,
避免資訊系統僵化,並預測未來你會面臨的科技發展,
甚至讓你成為精準的市場分析家、解讀大數據的科學家。

◎如果你是科學家或工程師
過去的數學和現有資訊學習與數據分析,不會讓你有任何改變。
機器學習將讓你具備非線性分析,帶給你嶄新的科學世界觀,有所突破。

◎如果你是機器學習專家
雖然你應該很熟悉機器學習,但本書仍會提供給你許多新的想法、
機器學習發展史上有價值的資訊、有用案例與類似的情境,
甚至提供給你機器學習的嶄新觀點,啟迪你全新的思考方向。

◎如果你是任何學齡階段的學生
目前世界各地極度缺乏機器學習專家,這是現在也是未來最受關注的領域。
未來,不只局限現有的資訊工程、電機工程等相關科系,
無論是醫學、醫工、生物科技、行銷、電商、社會、心理、哲學、教育、財經等各科系,
機器學習終將與這些領域整合,現在了解大演算,你就不會被趨勢潮流所淘汰。
 
The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World
http://www.books.com.tw/exep/assp.php/Johnsonkuo/products/0010722761?utm_source=Johnsonkuo&utm_medium=ap-books&utm_content=recommend&utm_campaign=ap-201607

 
目錄:
【推薦序】 大演算顛覆世界,也顛覆我的看法/林泰宏
【推薦序】 想跟上資訊革命時代的多變世界,本書是你的敲門磚/張宗堯
【推薦序】 從5萬呎的高空鳥瞰機器學習,望見未來/陳明義
【推薦序】 讓我們站在巨量資料的肩膀上,看得更高更遠/趙坤茂
【推薦序】 大演算,是飽覽大數據與機器學習的最佳指南/謝孫源
【推薦序】 大演算強化「工業3.5」,讓臺灣在物聯網時代中卡位/簡禎富
【前言】 機器學習早已融入你我的生活

第1章 機器學習的革命
進入機器學習的世界/企業為何擁抱機器學習?
增加科學方法的馬力/十億個比爾.柯林頓
一則透過傳統攻防,二則透過網路之戰
我們將走向何方?

第2章 大演算
從神經科學方面獲得的論證/從演化方面獲得的論證
從物理方面獲得的論證/從統計學方面獲得的論證
從電腦科學方面獲得的論證/機器學習專家與知識工程師
天鵝咬了機器人/大演算是隻狐狸還是刺猬?
什麼是危機所在?/一個不同的萬有理論
候選者還不夠格/機器學習的五大學派

第3章 人類的歸納問題
約會,還是不約會?/「沒有免費的午餐」定理
啟動知識學習機/如何讓世界規則化
在暗黑和幻覺之間/你可以相信的準確性
歸納法是逆向演繹法則/學習治療癌症
二十個問題的遊戲/符號理論學派

第4章 你的大腦是如何學習?
感知器的潮起潮落/物理學家用玻璃製造大腦
世界上最重要的曲線/在多維空間的爬山演算法
感知器的復仇/細胞的完整模型/更深入大腦

第5章 演化:自然學習演算法
達爾文的演算法/探索與利用的困境
適者生存的程式/性交配行為是為了什麼?
培育天性/學習最快的人勝出

第6章 貝葉斯牧師的教堂
運行世界的定理/所有模型都是錯的,但有些還是有用
從《尤金.奧涅金》到Siri手機語音行動祕書
一切都是相關聯的,但不是直接的/推理問題
學習貝氏的方法/馬爾可夫權衡事證
邏輯與機率:命運多舛的一對

第7章 你就是相似的你
如果你能與我相匹配/維度的詛咒
平面上的蛇形分割線/攀登階梯
旭日東升,光彩奪目

第8章 學習無師自通
物以類聚/發掘數據資料的形狀
享樂主義的機器人/孰能生巧
學習建立關聯

第9章 每一塊拼圖各得其所
跳脫許多模型,整合成一體/大演算
馬爾可夫邏輯網路/從休謨到你的家事機器人
行星尺度的機器學習/醫生如今會診斷你了

第10章 這是機器學習的世界
性、謊言和機器學習/數位鏡/一種模型的社會
分享或不分享,如何分享與在何處分享
類神經網路偷了我的工作/不是用人類來作戰
Google+大演算=天網(Skynet)?
演化,第二部分

【結語】 搭上機器學習的船,航向未來

誌謝
延伸閱讀
The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World
http://www.books.com.tw/exep/assp.php/Johnsonkuo/products/0010722761?utm_source=Johnsonkuo&utm_medium=ap-books&utm_content=recommend&utm_campaign=ap-201607

 
前言:機器學習早已融入你我的生活
你可能不自覺,但其實機器學習(machine learning)早已融入你我的生活中。當你在搜尋引擎輸入一項查詢時,機器學習幫你找出有意義的查詢結果,還有相關的廣告。當你下載電子郵件時,多虧有機器學習的篩選,讓你看不到大部分的垃圾郵件。當你到亞馬遜網路商店(Amazon.com)購買書,或在全球最大線上影音服務平臺Netflix(網飛)觀看一部影片時,機器學習系統會幫你推薦一些你可能會喜歡的建議。就連臉書(Facebook)也運用機器學習來決定,幫你篩選所關心的好友資訊;而推特(Twitter)對於推文(tweets)也是利用類似做法。看來,當你使用電腦時,機器學習早已處處發揮其智慧功能。

傳統上,要讓電腦執行特定事情的唯一辦法,無論從簡單的兩個數字相加,到繁複的自動駕駛飛機,都是編寫演算法,透過演算法詳盡解釋如何執行每個步驟。機器學習演算法也稱為「學習器」(learners),可以自己找出執行方法,藉由從數據資料中進行推論,它們擁有的數據資料越多,運算而得的推論就越精準。如今我們不必編寫程式,機器學習演算法已經可以自行學習編寫電腦程式了。

這現象不只發生在網路世界,也發生在你的一整天生活中,從你醒來的那一刻到睡著時,機器學習無所不在。你的智慧時鐘收音機在早上7點響起,正在播放一首你從不曾聽過卻真心會喜歡的歌曲。這是美國線上電臺潘朵拉(Pandora)所提供的服務,它一直在學習你對音樂的喜好,就像是你自己的個人電臺播放員,也許就連歌曲本身也是藉由機器學習的編寫所產生的。起床後,你吃著早餐並讀著早報,這份報紙在幾個小時前才從印表機印出來,透過學習演算法仔細調整印刷過程,以避免報紙上產生汙痕。由於你安裝了Nest恆溫空調學習控制器(Nest learning thermostat),所以屋內的溫度設定得剛剛好,並且大幅節省了電費。

當你開車去上班時,車子會不斷調整燃油噴射和廢氣再循環,以達成行車的最實惠油耗。你還可以使用交通預測系統Inrix,以縮短在尖峰時段的上下班時間,更可緩解塞車壓力。在工作中,機器學習可以幫助你減輕資訊的氾濫和過載。你可以使用資料方塊(data cube)理論,進行巨量資料的概述,隨意從每一個角度來觀察,都可深度串聯探討最重要的部分。假設你到底要選版型A還是B,才能為你的網站創造更多業績?那麼網路學習系統(web-learning system)便會試驗A、B兩者,並提供回饋報告;當你需要瀏覽一家潛在供應商的網站時,該網站卻剛好是一個外國語系的網站,那也沒問題,Google(谷歌)能幫你自動翻譯這個網頁;你的電子郵件系統也會自動進行信件分類到不同收件匣,收件匣裡會過濾掉垃圾郵件,只留下重要訊息;你的文書處理器會自動檢查你的語法和拼寫是否正確。甚至你規劃一段旅程正尋找航班,此時你會運用Bing旅遊(Bing Travel)快速比價機票價格,並判讀哪些航班很快就會調降票價,提醒你暫緩購買機票。在不知不覺中,與沒有機器學習的幫助相比,你會越來越依賴機器學習完成更多事情。

在休息時間,你查看自己的股票基金,這些基金大多數是機器學習協助你挑選的股票投資組合,完全透過機器學習系統執行運作。午餐時間,你走在大街上,智慧手機幫你找尋用餐地點,例如:美國知名美食評論社群網站Yelp的機器學習系統,可以幫助你找到餐廳。你的手機塞滿機器學習,它們會努力糾正你的拼寫錯誤、理解你的口語指令、減少傳輸錯誤、識別條碼,還有很多其他生活功能。你的手機甚至可以預先料想到,你下一步打算做什麼,並相對應地為你提供建議。例如:當你用完午餐時,它會主動提醒你,下午會議必須延遲開會,因為有一位參與會議的外地訪客的航班延誤了。

夜幕低垂,你下班時,機器學習會幫助你,讓你安全走到停車處,停車場的監控攝影機會提供監測的視訊影像,假如偵測到可疑的活動,就會發出警報提醒保全人員。在你的回家路上,你走進超市裡,所走過的通道都是店家透過機器學習演算法進行最佳化擺設,如哪些商品需要庫存、哪條通道的底端要陳列設置,或是否將莎莎醬放置在醬料區,還是放置在墨西哥脆餅旁邊;而結帳時,你使用信用卡來支付,機器學習演算法會依據信用卡別,為你傳送特定的特惠訊息,並且匹配你的信用額度進行消費。同時,另一個機器學習演算法會不斷防範可疑的交易,如果它認為你的信用卡號碼被盜,便會立即提醒你注意。第三個機器學習演算法則會試著評估你對這張信用卡的滿意度,如果你是一位信用良好的客戶,但系統評估你似乎並不是很滿意,那麼在你換用別張信用卡前,便會主動推薦你一個更適合你的優厚特惠方案。

等你回到家,步行到信箱,你收到一封好友的信件,這封信是透過可以讀取手寫地址的機器學習分發派送給你的。同時還有一堆廣告垃圾信件,也是透過其他機器學習分類打包寄送給你(哦,好吧)!你停下來享受夜晚涼爽的空氣,你所在的城市,犯罪事件已有顯著下降,因為警方開始使用統計學習演算法,預測最可能發生犯罪的地方,並且在這些地方集中部署巡邏員警。晚上,你與家人一起享用晚餐,市長出現在新聞中,你會投票給他,就是因為經過機器學習精確判斷出,你是一位尚未做出決定的關鍵選民,所以他在競選期間親自打電話給你;晚餐後,你觀看球賽,兩隊球員的選擇都是透過統計學習演算法的協助。假日你會和孩子一起玩Xbox家用視訊遊戲機裡的遊戲,還有體感控制(Kinect)的機器學習計算出你正在做什麼動作與動作頻率。睡覺前,你要服用藥物,這些也是透過機器學習幫助,才得以設計與調配出來的藥品。同樣地,醫生也可能使用機器學習來幫你診斷,從X光片的判讀,找出你一系列不尋常的症狀。

機器學習在你人生的每個階段都扮演著重要角色。如果你在線上學習的是美國SAT大學入學考試,機器學習便可以針對你所練習的英文短文寫作,給予等級評分。如果你想要申請商學院,並參加GMAT入學資格考試,你的短文寫作評分者之一也會是機器學習系統。當你申請工作時,機器學習會從一堆簡歷中遴選出你的履歷,並主動排序推薦給你的未來雇主:這位是最適合求職候選人,建議優先關注吧;而你最近薪水調升,可能是由另一套機器學習所提供的綜合評鑑。如果你尋求購買房子,那麼房地產網站Zillow.com將會推薦你考慮哪一間房屋是最適合的。當你決定買下房子,你可能會申請房屋貸款,機器學習會評估你的申請,並建議適當的貸款申請案(或否決申請案)。更重要的,假如你已經在使用線上交友服務,機器學習可以幫助你找到一生的摯愛。

社會不斷地改變,每一段時間會有一個機器學習演算法的出現。機器學習正在重塑科學、技術、商業、政治和戰爭的模式。衛星、DNA序列測定儀(DNA sequencers)和粒子加速器,能以更精細的方式探索自然,而機器學習演算法會將巨量的資料洪流,轉變成新的科學知識。許多公司知道,他們客戶的喜好已經不像從前。擁有最佳選民模式的候選人將會贏得選舉,就像當年歐巴馬(Obama)對抗羅姆尼(Romney)競選美國總統。如今無人駕駛的交通工具也能橫跨陸、海、空進行自動導航。就連亞馬遜的推薦系統,也不需要任何人為你的喜好編寫程式,機器學習會透過你過往的購買行為進行歸納,自行找出你的喜好。而Google的自動駕駛車,已能教導自己如何安穩地行駛在道路上;這臺無人駕駛汽車完全不需要工程師人為撰寫演算法,一步一步地下達指令,教導車子如何從A地開往B地,甚至沒有人知道如何編寫駕駛汽車的程式,而且也不需要任何人去編寫,因為這臺無人駕駛汽車配備了機器學習,可以透過觀察駕駛人的行為,自行學習如何駕駛汽車。

機器學習真是陽光底下罕見的新鮮事,是一種自己建構自己的技術。自從人們遠古的祖先開始把石頭磨製成工具,人類就一直在推陳出新設計新文物,無論它們是純手工打造,或是大批量生產。然而機器學習卻是可以自行設計其他產物的文物。畢卡索(Picasso)曾說:「電腦是沒用的,電腦只能給你答案。」電腦不被認為應該具有創造性的,電腦被認為應該只會做人們交代它們去做的事情。如果你希望要求電腦去做的是具有創意的事情,那麼你就必須投入機器學習新領域研發。一套機器學習演算法就像一位大師級的工匠一樣,它的每一項產出作品都不相同,而且可以為客戶的需求量身訂做。這不是要將石頭變成磚瓦,黃金變成珠寶,學習器是要將數據資料套入演算法,而且擁有越多的數據資料,便能歸納出越複雜的演算法。

當機器學習就像一項新技術一樣,逐漸普及並且改變市場遊戲規則,若仍然只將這項技術視為黑盒子,那就不是明智之舉,反而無法透明地打開潘朵拉的盒子,辨識問題本質真偽。如今亞馬遜的演算法,讓世界各地任何人都能便捷決定要閱讀什麼書籍;美國國家安全局的演算法,可以判斷你是否為潛在的恐怖攻擊分子;氣候模型(Climate models)決定什麼是二氧化碳在大氣中的安全水平;選股模型(Stock-picking models)所驅動的股市交易量,甚至遠超過大多數人所做的。基本上,因為你無法控制自己不理解的東西,所以做為公民、專業人士,以及從事幸福追尋的人們,這就是為什麼你需要了解機器學習的原因。

這本書的首要目標是讓你置身於機器學習的祕密中。只有工程師和機械師需要深入理解汽車的引擎到底是如何運作的原理,然而對每位駕駛人來說,他只需要熟悉控制方向盤,隨心所欲駕馭汽車行駛的方向,腳踩煞車板就可以讓汽車停止前進。現今很少人知道學習器的對應組成元件到底是什麼,更不用說如何使用它們了。心理學家唐.諾曼(Don Norman)創造「概念模型」(conceptual model)這個術語,意思是指為了有效使用一項技術,我們需要具備該項技術的基本知識。所以這本書真正為你解析機器學習的概念模型。

每年數以百計的創新機器學習演算法被發明出來,它們都是基於環境需求被推衍開發出來的。而這些都是這本書所要探究的,它們也正是你需要知道的,以便了解機器學習是如何改變這個世界。本書不會深奧難懂,撇開它們在電腦裡的程式細節,這些機器學習演算法處處關係到我們每個人心中期待理解的問題答案,例如:機器是如何學習的?有沒有更好的方法?機器可以預測什麼?我們可以信任機器學過的東西嗎?針對這些問題,每種競爭的思想學派,在機器學習的思維上都有著南轅北轍的答案。主要的思想學派共分成五個,我們將為每個學派開闢一個章節專門介紹。符號理論學派(Symbolists)將學習視為是一種逆向演繹法,是從哲學、心理學和邏輯思路方面取得概念。類神經網路學派(Connectionists)會進行大腦的反向工程(reverse engineer),主要是受到神經科學和物理學的啟發,模擬人腦思考行為。演化論學派(Evolutionaries)會在電腦上模擬演化演變,澈底運用遺傳學(genetics)和演化生物學(evolutionary biology)理論。貝氏定理學派(Bayesians)相信學習是機率推理的一種形式,是根據統計學做為理論的依據。而類比推理學派(Analogizers)則是透過從相似度判斷進行推論學習,並且受到心理學和數學的最佳化影響。在建構智慧機器的目標推動下,我們將綜觀回顧近百年來許多學派的思想史部分,並且看見其一線新曙光。

機器學習的五大思想學派,每一學派都有其主要的演算法,原則上,你可以使用通用的學習器,從任何領域的數據資料中獲得知識。符號理論學派的主要演算法是逆向演繹法,類神經網路學派的主要演算法是倒傳遞理論演算法(Back propagation),演化論學派的主要演算法是遺傳程式規劃(genetic programming),貝氏定理學派的主要演算法是貝氏的推論,而類比推理學派的主要演算法則是支持向量機(support vector machine)。在實際應用中,這些演算法,對於某些事情可以運作得很好,但對其他事情就不是如此了。然而我們真正想要的是一個單一的演算法,結合各學派的所有重要特點,也就是終極演算法(the ultimate master algorithm)。對於某些人來說,或許這是一個遙不可及的夢想,但對於在機器學習領域的大多數我們來說,這真是一個會讓我們的眼睛閃爍著光芒,使我們不捨晝夜工作的夢想。

如果這是真實存在,那麼大演算便可以從數據資料中獲得在這個世界上過去、現在和未來的所有知識,進而創造大演算無疑將是科學史上最偉大的進步。它會加速全面的機器學習進展,並且用我們幾乎無法想像的方式改變世界。基本上,大演算就是一種機器學習統一理論,正如同標準模型(Standard Model)之於粒子物理學(particle physics),或是中心法則(Central Dogma)在分子生物學(molecular biology)的核心重要性。探索大演算是找尋機器學習的統一理論,讓我們解讀目前為止所知的一切事物變得更有意義,並奠定未來幾十年,甚或幾個世紀發展的機器學習理論基礎。換言之,大演算是我們取得重大進展的途徑,可以協助我們解決一些當前所面臨的困難問題,可以全方位發展允文允武,從家事照護到治療癌症都能樣樣精通的機器人。

以治療癌症為例,想要治療癌症是很困難的,因為癌症並不是一種疾病,而是許多病症的轉移。腫瘤可以被一系列眼花撩亂的原因所引發產生,而且當你的腫瘤轉移時,它們會產生突變。所以要殺死腫瘤最可靠的方法,就是進行其基因組測序,找出哪些藥物可以有效對抗它,而不會傷害到你,從你的基因組和病史,或專門針對你的個案,設計出一種新的抗癌藥物。其實沒有醫生可以完全掌握這一切所需的知識,這聽起來像是機器學習更能勝任的完美工作:實際上,這也是亞馬遜和Netflix公司每天都在做的機器學習智慧搜索工作,只不過醫療領域更是複雜和具挑戰性的搜尋版本,它就是為你尋找正確的治療方法,而不只是適合的書籍或電影。不幸的是,儘管現今的機器學習演算法已能超過人類極限,準確診斷許多疾病,但對治療癌症來說,還是遠遠超出它們的知識範疇。如果我們能成功地尋找到大演算,那麼治療癌症將是指日可待的事情。

這本書的第二個目標,正是觸發你能投入大演算的發明。你會認為這需要繁重的數學知識和嚴謹的理論工作,其實不然,反倒這所需要的是從艱深的數學理論抽離,以便能看到學習現象的整體模式。對於外行人來說,在某些方面比起專家更有優勢,反倒專家很容易沉浸在見樹不見林的狹隘研究中。一旦我們擁有了概念性的解決方案,我們就可以用數學的細節來印證,但這並不是本書的唯一目的,而且也不是最重要的部分。

因此當我們在認識每一種思想學派時,我們的目標是蒐集完整的機器學習拼圖,並詳加解讀每一類型演算法適合應用的地方。要注意的是,沒有一位盲人可以正確摸熟整隻大象身軀。特別是我們將會看到每個學派所能為癌症治療做出的貢獻,也會看到每個學派各自的缺失。然後一步一步地,我們會將所有機器學習的拼圖組合成一個終極解決方案;更確切地說,一個還不算是大演算的解決方案,但與其他相比已經是最接近的了,並且期望該演算法可以成為你想像力的良好跳板。我們還會預覽如何利用這個演算法,做為對抗癌症的一項武器。當你在閱讀本書時,請先隨意瀏覽或跳過任何你覺得困難的部分;你更需要的是重要的整體概念,當機器學習拼圖組合完成後,相信你才能融會貫通重新審視它們,你必能從這些部分獲得更多的創意啟發。

我是一名機器學習的研究學者,投入該領域研究已超過20年。大學四年級時,我在一家書店看到一本標示著奇怪名字的書籍——「人工智慧」(Artificial Intelligence),從此引發了我對機器學習的興趣。雖然這本書只有短短的一個章節是真正探討機器學習,但在閱讀之後,我立即確信,機器學習是解決人工智慧的關鍵,而且當時最先進的發展其實依然才原始起步,所以也許我可以貢獻些心力。我擱置原本攻讀MBA商學院的計畫,進入加州大學歐文分校(University of California, Irvine,簡稱UCI)攻讀博士學位。當時,機器學習是一個小型、鮮為人知的領域,且加州大學歐文分校是擁有少數幾個大的研究團體之一。不過我有些同學退學了,因為他們沒有看到機器學習的璀璨未來,我則堅持繼續研究。

對我來說,沒有什麼能比探討如何讓電腦自行學習更有挑戰性與影響力,如果我們能夠做到這一點,那麼我們會在任何其他問題上獲得幫助。等到我畢業5年之後,爆炸性成長的資料探勘(Dataming,又稱數據挖掘)正如火如荼地進行著,這就是我撰寫這本書的心路歷程。我的博士論文統一了符號與類比推理的學習演算法,過去我更花費十多年的時間,統一了符號理論與貝氏定理,而且不久之前,我還把這兩種理論與類神經網路理論整合在一起。是時候了,我們可以認真進行最終步驟,完整整合這五大機器學習思維模型。

為什麼我們必須了解大演算?
當我撰寫這本書時,心中就設定這本書會有許多不同但部分重疊的讀者。
如果你很好奇,所有圍繞著大數據和機器學習而產生的紛擾都是關於什麼,你也懷疑有些進展比你在報紙上看到的還要更為深入,那麼建議你,這本書將是幫助你飽覽機器學習革命的最佳指南。
 
如果你主要的興趣是在機器學習商業用途,那麼這本書至少可以在六個方面幫助你:協助你成為一位分析學的精明消費市場分析家、巨量數據資料解讀的科學家;也會協助你避免掉進資料探勘計畫的陷阱,幫助你發掘哪些事情可以自動化,省下人工編寫程式軟體的費用;同時本書可協助你避免資訊系統發展的死板僵化,並且預測出未來你有可能會面臨的新技術發展。過去我已經見過太多的時間與金錢浪費在採用錯誤的機器學習演算法,試圖解決一個問題,或曲解演算法的真正涵義。事實上,你不用特別做太多,就能避免重蹈這些失敗,所有需要去做的,就是好好閱讀這本書。

如果你是一位市民或決策人士,十分關切由大數據和機器學習所引發的社會和政治問題,那麼這本書將是你學習這項技術的入門書。從這本書中,你可以了解什麼是機器學習,它會帶領我們朝什麼方向發展,釐清它可以做到與不能做到的事情,相信你一定不會對這些來龍去脈感到枯燥無聊。從隱私到未來的工作,以及機器人戰爭的倫理,我們將會看到真正的問題在哪裡,並且思考如何看待這些問題。

如果你是一位科學家或工程師,機器學習是你不會不想要擁有的強大軍械庫。然而在巨量(甚至是中等)資料的年代裡,這些傳統、可靠的統計工具,不會給你帶來什麼轉變。你需要機器學習的非線性分析,以便精確地模擬大部分的現象,而且它帶來了一種嶄新的科學世界觀。雖然目前表達典範轉移(expression paradigm shift)被使用得太過浮濫,不過我認為在這本書中所描述的絕非誇張無稽之談。

如果你是一位機器學習專家,你應該已經很熟悉這本書中大部分涵蓋的內容,但是你仍然會在這本書中找到許多新的想法、機器學習發展史上有價值的資訊,以及有用的案例與類似的情境。最重要的,我希望這本書可以提供機器學習的嶄新觀點,甚至可以啟迪你全新的思考方向。雖然我們的身邊到處都是唾手可得的果實,而且我們應當去撿拾這些果實,但我們也不應該忽視等待在後面的更大獎勵。關於這點,我希望各位可以原諒我的放肆,使用了「大演算」一詞來代表通用的學習器。

如果你是一位任何學齡階段的學生,一位不知道要主修什麼的高中生、一位正在決定是否投入研究領域的在校大學生,或是一位具有豐富經驗但考慮轉行的專業人士,我的希望是這本書可以激發你對這個迷人領域的興趣。目前世界各地極度短缺機器學習專家,如果你決定加入我們,你可以期待的不僅是激動人心的時刻,甚至是物質上的獎勵,還能夠擁有一個服務社會的獨特機會。如果你已經開始研究機器學習,我希望這本書可以幫助你了解這個領域的現況;如果在你的人生旅程上,只是偶然碰見大演算,光憑這樣,就是這本書值得一寫的地方了。

最後但同樣重要的,如果你有濃烈求知的渴望,那麼機器學習會是一場智慧的盛宴,希望你能受邀出席,敬請回覆!
The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World
http://www.books.com.tw/exep/assp.php/Johnsonkuo/products/0010722761?utm_source=Johnsonkuo&utm_medium=ap-books&utm_content=recommend&utm_campaign=ap-201607

 
推薦序:大演算顛覆世界,也顛覆我的看法
1997年,IBM的深藍電腦擊敗了世界西洋棋冠軍,震撼了整個業界。媒體大肆報導。伴隨而來的是另一股恐慌性的思維──電腦會不會有一天取代人腦,甚至統治了人類?20年過去了,我們都還在為生活而忙碌工作。別說電腦統治人類,它連讓我早一點下班都很勉強了。

2016年,Google Alphago擊敗了世界圍棋冠軍,用的不再是超級電腦的運算能力。取而代之的,是大數據的分析能力、雲端的運算能力和機器學習。機器學習是一個廣泛的名詞,意思是讓電腦透過樣本數據來回答問題或進行預測。也許大家從前幾年開始就不斷聽到大數據,而近期從微軟語音助理Cortana進行世界盃足球的賽事預測,到美國總統大選分析,或是透過相片猜測年齡/顏值,這些都是機器學習的產物。

提到演算法,我想對於資訊相關背景的人來說都不陌生。事實上,我們現在身處的世界,到處都可以看到演算法的身影。舉凡搜尋、電子地圖上的路線、推薦系統等,無一不是透過演算法來達成。如同本書作者所說,大演算終將顛覆我們的世界,在閱讀完本書之後,我覺得這本書則是顛覆我對演算法的看法。

過去在學習演算法的時候,它對我而言,是離散數學。而大演算卻能夠把它描繪得如此生動。例如井字遊戲(Tic-Tac-Toe)使用的極大極小搜尋(Minimax Algorithm),作者卻以另一種形式來描述:
如果你或你的對手,一排已經占有兩個格子,在接續的棋步中,只要下在剩餘的另一個空格上,便可贏得這盤井字遊戲。
 
否則如果有一個棋步,可以創造出兩行連成兩條連線的雙頭蛇優勢,那麼下在那裡。
否則如果井字中心還是空的,那麼就下在那裡。
否則如果你的對手已經下在一個角位,那麼就下在他相反的角位。
否則如果有一個空的角位,那麼就下在那裡。
否則就下在任何一個空格裡。
 
當然,本書也不只針對從未接觸過演算法及機器學習的讀者。所謂外行的看熱鬧,內行的看門道。針對相關行業背景的讀者。本書也提供了機器學習所用到的大部分演算法的詳細說明,例如:決策樹、最近鄰居演算法、簡單貝氏演算法等。相信不管是對這個領域充滿好奇,或是想要深入了解的,都能從中獲得幫助。
 
前臺灣微軟合作夥伴技術支援顧問 林泰宏
The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World
http://www.books.com.tw/exep/assp.php/Johnsonkuo/products/0010722761?utm_source=Johnsonkuo&utm_medium=ap-books&utm_content=recommend&utm_campaign=ap-201607

 
推薦序:想跟上資訊革命時代的多變世界,本書是你的敲門磚
自從Google的深度學習人工智慧系統AlphaGo四度打敗世界圍棋冠軍李世乭後,一夕間全球新創公司、科研機構、科技業巨頭都紛紛宣告,將在人工智慧領域投入更大量的人力與金錢,現在全世界都關切:「機器取代了勞力後,竟然也能思考、學習,那接下來還能做什麼?」顯然這股席捲全球的人工智慧熱潮正撲天蓋地而來。

事實上,人工智慧早就不是新課題,問世以來少說有60年歷史,只是這門學科近期火熱,除了受惠這場話題十足的圍城之戰,主要還是歸因行動網路、物聯網、大數據、雲端,以及GPU運算等核心關鍵技術的重大突破,人工智慧得以從in vitro (體外)階段,進入in vivo (體內)階段。人工智慧因而跨出研究中心,充分展現在生活中, 也讓令人切實感受人類正邁向下一個新時代。

如今導入人工智慧的機器,已經能夠精準地模仿出截然不同的繪畫風格、音樂曲調,這全有賴日益精進的演算法,機器可以從海量數據中,分析出各種迥異的風格,甚至還能進行預測。現階段,全世界所有硬體都面臨著「被智慧化」,而人類對於智慧化的終極追求無非為了更好的生活品質。

機器學習的演算法大致上可以分成五個理論學派,本書以深入淺出的文字分別細數之,這些學派各有優缺點,對於某些狀況處理得宜,但面對其他事情卻可能很糟,有沒有一種「終極的演算法」,可以集結各門各派的優點,從海量的數據資料中,整合出世界上所有關乎過去、現在和未來的知識,這種大演算法無疑是科學史上最偉大的進步之一,它不但會全面加速機器學習的進展,並且以我們幾乎無法想像的方式改變世界。

我從與企業接觸的經驗中觀察到一個現象:傳統企業營運思維下,要完成一份專案,通常是先設定目標與明確預期投資回報率(ROI),然後才一步步地往目標前進;然而在演算法的時代裡,專案執行前,須先經過統計思維,將所有資料進行演算、分析,在沒有得到分析結果前,這個專案是絕對無法準確估計的,這與企業現行評估計畫、資源分配的方式有顯著差異。

這種差異也正是我想推薦這本書的理由,許多企業不乏可以解決數據問題的優秀員工,然而他們的主管卻極少有數據思維,這種落差會導致企業營運出現斷層,在全球產業競爭激烈的環境下,著實是個危機。
機器替代藍領的工業革命時代過去了,在這資訊革命的時代,下一個會被取代的是白領階級,速度甚至會比想像中來得快,人類能掌握的聖杯,就是不斷適應新的時代,跟上世界的腳步,而我相信這本書會是幫助你快速適應這個多變世界的敲門磚。

美商凱博數據創辦人/總經理 張宗堯
The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World
http://www.books.com.tw/exep/assp.php/Johnsonkuo/products/0010722761?utm_source=Johnsonkuo&utm_medium=ap-books&utm_content=recommend&utm_campaign=ap-201607

 
推薦序:從5萬呎的高空鳥瞰機器學習,望見未來
探討機器學習領域,這是一本非常獨特的書,任何對機器學習有興趣的人,不論你是專家或門外漢都值得一讀。
 
佩德羅.多明戈斯以他豐富的學識,從5萬呎的高空鳥瞰機器學習領域的現況,展望機器學習的未來以及它對人類社會各個層面將帶來的衝擊。
 
他以簡單易懂的言語介紹了機器學習的五個學派,各學派演算法的精髓、理論基礎及發展的歷史,並點出其優缺點。他以專家的洞悉和豐富的想像力勾勒出機器學習終極演算法的概貌,以及這種具有自我學習的演算法對人類社會所將造成的巨變。

書中文采奕奕,作者的博學多聞以及他對機器學習的熱忱躍然紙上。不論你是否贊同他對未來世界的預言,他的論述和哲理都將引人深思。
 
資策會技術長/大數據所所長 陳明義
The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World
http://www.books.com.tw/exep/assp.php/Johnsonkuo/products/0010722761?utm_source=Johnsonkuo&utm_medium=ap-books&utm_content=recommend&utm_campaign=ap-201607

 
推薦序:大演算,是飽覽大數據與機器學習的最佳指南
你是否注意到當你在瀏覽網頁時,旁邊總是會出現一些你有興趣商品的廣告?你是否曾經好奇臉書(Facebook)為什麼總是會出現你才剛查詢過商品的廣告?因為這些都是根據你瀏覽網頁的搜尋習慣,分析而得到的結果,進而將你有興趣的商品推薦給你。其實,這些都是機器學習的成果。在這個資訊爆炸的時代,機器學習早已經悄悄進入到我們的日常生活,只是我們都沒有注意到這個變化。

你也聽說過大數據(big data),也曾經從新聞中聽聞政府、產業界、學術界討論大數據相關的政策,然而大數據究竟是什麼?對我們生活又有什麼影響呢?其實,大數據和我們的日常生活息息相關,例如:我們幾乎每天都會使用的電話和電子郵件,根據美國國家安全局的統計,世界各地每天都有超過十億通的電話,電子郵件的數量就更可觀了。然而,美國國家安全局要如何在這龐大的電話及電子郵件中,過濾出恐怖分子的通訊呢?而如何從大數據資料中,去獲取我們所需要的資訊,是科學家、工程師一直在努力的課題,這也是機器學習很重要的一環。

《大演算》這本書的核心假設是:「透過一個單一、通用的機器學習演算法,可以從數據資料中,推論得出過去、現在和未來的所有知識。」這個假設類似於牛頓的萬有引力概念,作者大膽稱之為「大演算」(The Master Algorithm)!作者介紹了現今機器學習的五大學派,各學派都有其主要的機器學習演算法,有各自的優點,當然也會有其盲點存在。因此,到目前為止,仍然沒有一個可以一統江湖的機器學習演算法。作者期望在未來的一天,會有「大演算」的出現!

作者介紹機器學習五大學派的主要演算法,沒有艱深的數學式子推導,而是透過最簡單、最熟悉的日常生活例子來介紹,讓讀者可以更容易了解各個演算法的意涵和精髓,也可以了解到機器學習這塊領域目前發展的現況。對於一個好奇大數據和機器學習的讀者,這本書可以幫助你了解大數據和機器學習所帶來的變化;對於想要進入機器學習領域的讀者,這本書可以提供一個基礎的概念,引領你進入機器學習領域;而對於已經在機器學習領域努力的讀者,更是不能錯過這本書,讓你可以深入了解不同學派之間的異同。不論你的專長領域是什麼,相信這本書將是幫助你飽覽大數據與機器學習的最佳指南。
 
成大資工系特聘教授兼系主任    謝孫源
The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World
http://www.books.com.tw/exep/assp.php/Johnsonkuo/products/0010722761?utm_source=Johnsonkuo&utm_medium=ap-books&utm_content=recommend&utm_campaign=ap-201607

 
推薦序:機器學習讓我們站在巨量資料的肩膀上,看得更高更遠
2016年6月的最後一堂計算機概論課,我問:「十年後,你是否會和某機器人成為知己?」大約三分之一的同學回答可能會,認為人工智慧進展神速,或許會出現很貼心的機器人,比誰都了解你,甚至比你自己更了解你。另外有大約三分之二的同學回答不會,畢竟機器人只是協助人類的工具,它所說的每一句話都是「算」出來的,在情感上無法真正交心。

無論如何,未來機器人允文允武已是公認事實,其背後推動力來自於機器學習的革新、運算資源的躍進及巨量資料的累積,使得機器人能夠深度學習,不僅可以無日無夜學習,還可本尊分身一起學習,讓人類望塵莫及。
 
現在,就讓本書為你揭開機器學習的神祕面紗。對於有志了解機器學習的讀者,這是一本極佳的入門書籍。作者佩德羅.多明戈斯以生動活潑的專業論述,深入淺出地介紹了機器學習的五大學派:符號理論學派(Symbolists)、類神經網路學派(Connectionists)、演化論學派(Evolutionaries)、貝氏定理學派(Bayesians)、類比推理學派(Analogizers),讓讀者能理解機器學習的關鍵原理,並對現況有所掌握。

多明戈斯也呼籲開發一個結合五大學派重要特點的單一演算法,稱之為終極演算法(the ultimate master algorithm),該方法可以從數據資料中,習得這個世界上過去、現在和未來的所有知識。
 
我們不禁要問:終極演算法是否存在呢?如果存在的話,它必須像金庸小說《笑傲江湖》中的吸星大法,可以將別人的內力化為自己的內力;但它又不能像2016年3月微軟推出的聊天機器人Tay那樣消化不良,在網友的調教下,居然頻頻說出種族歧視的跳針發言。我個人對終極演算法是否存在抱持著比較保守的看法,追尋聖杯的結局,很可能如同《功夫熊貓》電影一般,到最後才發現最高的武功秘笈竟是一部無字天書。
不管終極演算法是否存在,機器學習已讓我們站在巨量資料的肩膀上,看得更高更遠。各位朋友,請接受多明戈斯的邀約,參加這場機器學習的知性饗宴!

臺大資工系系主任 趙坤茂
The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World
http://www.books.com.tw/exep/assp.php/Johnsonkuo/products/0010722761?utm_source=Johnsonkuo&utm_medium=ap-books&utm_content=recommend&utm_campaign=ap-201607

 
推薦序:大演算強化「工業3.5」,讓臺灣在物聯網時代中卡位
隨著電子商務、物聯網、「工業 4.0」、機械人和聰明生產等典範移轉,全球經濟發展和產業價值鏈將革命性重構,也由於網路社群、人工智慧、大數據、機器學習和最佳化等技術創新和日益廣泛的應用,正在改變世界,人類生活和社會各個層面有翻天覆地的變化。

本書作者佩德羅.多明戈斯(Pedro Domingos)現任華盛頓大學電腦工程系教授,認為透過「大演算」(Master Algorithm)作為解析機器學習的概念模型,可以從數據資料中分析推論得出所有知識,並以清晰易懂和引人入勝的方式介紹機器學習(machine learning)及其五大學派,並有系統地介紹每一學派主要的演算法和相關的應用。

其中,有不少與我在美國威斯康辛大學麥迪遜分校(UW-Madison)攻讀決策科學與作業研究博士時,參與「綜合醫療促進支援系統」(CHESS)計畫的資料挖礦研究,乃至於領導清華大學「決策分析研究室」(DALab)研究夥伴們投入決策分析、大數據和最佳化的產學合作研究經驗相關,發現本書能夠讓讀者很容易地明白機器學習的運作原理和應用,值得推薦。

隨著軟硬體計算能力和雲網端的發展,還有處理結構化和非結構化的大數據分析能力,這些進步讓大數據和機器學習應用的趨勢已經由量化到質化的分析。各國產業結構和社會文化迥異下,所需發展的大數據產業和應用也不盡相同。臺灣長期以大量生產、規模經濟的製造模式,在「工業4.0」、物聯網和客製化時代需要轉型,而世界各國都普遍面臨因為自動化和機械人而加劇的貧富差距和年輕人就業供需不等問題。

相對於工業先進國家的製造戰略,臺灣應善用目前在「工業3.0」的供應鏈管理、整合能力和彈性應變的優勢,發展「工業3.0―工業3.5―工業4.0」的策略藍圖,利用本書介紹的「大演算」等相關技術,將既有的核心管理能力系統化、數位化,發展以大數據分析、智慧製造系統和聰明生產為核心的「工業3.5」作為現有「工業3.0」和未來「工業4.0」之間的混合策略,利用臺灣製造相對競爭優勢、供應鏈系統彈性和客製化能力,透過產品生命週期管理和大量客製化彈性以更快更聰明地滿足消費者需求,使臺灣能在被先進國家和紅色供應鏈上下夾擊之前,用「工業3.5」的破壞性創新先在物聯網時代的全球供應鏈中卡位,避免未來先進國家挾著「工業4.0」的先進系統鯨吞整個製造價值鏈。

清華講座教授暨清華-台積電卓越製造中心主持人 簡禎富
The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World
http://www.books.com.tw/exep/assp.php/Johnsonkuo/products/0010722761?utm_source=Johnsonkuo&utm_medium=ap-books&utm_content=recommend&utm_campaign=ap-201607

 
書摘:機器學習的革命
我們生活在演算法的時代。只有一、兩代人之前,提到演算法(algorithm )這個詞,對大多數人來說,腦袋會是一片空白。時至今日,演算法已儼然普及在文明的各個角落。它們被融入日常生活中,不只存在於智慧手機、筆記型電腦裡,而且普及在汽車、房屋、電器,以及玩具中,就連你的銀行也是一個龐大複雜的演算法,讓人們可以到處輕易的使用銀行服務。演算法可以安排航班,然後駕駛飛機;演算法還可以運營工廠、貿易與貨物路線配送、現金收入,以及保存紀錄。如果每個演算法戛然停止運作,那絕對就像我們所知的世界末日一樣。

進入機器學習的世界
每一個演算法都有一個輸入和一個輸出,亦即數據資料進入電腦後,演算法會利用這些資料去做它該做的,然後輸出結果。機器學習則是扭轉這種模式,亦即數據資料與預期結果輸入後,機器學習會將一個演算法轉變成另一個後,結果輸出一個演算法。機器學習演算法也被稱為學習器(learners),是一種演算法,可以推演產生另一個演算法。有了機器學習,電腦可以自己編寫程式,所以我們不必再對電腦逐步下達指令了。

哇!
電腦會編寫自己的程式。如今這是一個強大的觀念,甚至有點嚇人。如果電腦開始自己編寫程式,那我們將如何控制它們呢?原來我們可以把它們控制得很好,如同我們將會看到的。但針對這一點,有一個更直接的反對意見:也許這聽起來太好了,以至於無法成真。當然編寫演算法需要智慧、創造力和問題解決的能力,這些事情不是電腦沒有具備的嗎?機器學習如何區別得出是否為不可思議的魔法想像呢?實際上,截至今天,人們可以編寫許多軟體程式是電腦無法學會的。但是更令人驚訝的,電腦可以學會許多程式是人們所不能編寫的。我們知道如何駕駛汽車和辨讀筆跡,這些技能是潛意識的,但我們無法向電腦解釋,如何去做到這些事情。然而,如果我們給予每一個學習器足夠多的範例,它將愉快地找出如何做自己,屆時我們就可以放手讓電腦自動學習運作。這就是郵局如何利用學習器讀取郵政編碼(zip)和為何路上已經出現自動駕駛車了。

或許機器學習的強大魅力,透過低科技(low-tech)的農業(farming)比喻,是最恰當的詮釋。在一個工業社會中,產品在工廠製造,意味著工程師必須確切地弄清楚究竟是如何從它們的零組件組裝產品、如何製造生產這些零組件等,從頭到尾都與原物料有關,而且整個過程有許多工作必須進行。電腦則是有史以來發明過最複雜的產品,從設計它們,到工廠大量製造它們,以及運行在電腦上的軟體程式是相當繁重的工作。但還有另一種更古老的方式,這種方式可以讓我們取得一些需要的東西,藉由大自然製造生產它們。在農業時代,我們播下種子,並確保有足夠的水分和養分,最後收割這些種植的作物。技術為什麼不能更像這樣呢?它是可以的,而且這是機器學習的承諾。機器學習演算法就像種子一樣,數據資料是土壤,而學會的軟體程式就是種植的作物。機器學習專家就像農夫,播下種子,辛勤的灌溉土壤並加以施肥,同時密切關注作物的健康,但在其他方面就不必特別介入了。

每當我們看到「機器學習」這個字眼,兩件事情立即浮現出來。第一,我們需要越多的數據學習資料,機器才能學習到越多。如果沒有數據資料就沒有什麼可以學習。一定要有大數據(Big data)嗎?因為透過大數據可以讓機器獲得更多的學習。這就是為什麼機器學習已經出現在每一個地方,透過指數倍增、堆積如山的數據資料,推動了機器學習的迅速發展。如果機器學習是某件你在超市購買的商品,那麼商品的紙箱上一定會特別標示「運作時只需要添加數據學習資料」。

第二,機器學習可說是一把能砍殺複雜怪物的利劍。只要給予足夠的數據資料,一套只有幾百行程式碼的學習程式就可以很容易產生一套數百萬條程式碼的軟體程式,而且可以針對不同的問題,一次又一次地做到這一點。這對軟體程式設計師來說,複雜性的降低是相當驚人的。當然就像九頭魔蛇海德拉一樣,就算我們砍斷舊的頭,複雜怪物依然會立即長出新的頭,但新生成的頭剛開始比較小,而且需要一段時間成長,所以我們仍然取得了大優勢。
 
機器學習擁有許多不同的形式,而且也有許多不同的名稱,例如:模式識別(pattern recognition)、統計模擬(statistical modeling)、資料探勘(data mining)、知識發現(knowledge discovery)、預測分析(predictive analytics)、資料科學(data science)、自我調適系統(adaptive systems)、自我組織系統(self-organizing systems)等。每一種機器學習都被不同的團體所使用,而且擁有不同的協會。有些機器學習擁有一個很長的半衰期(long half-life),有些則是少有如此現象。在這本書中,我統一使用機器學習(machine learning)這個術語,來泛指所有的機器學習。

機器學習有時會與人工智慧(Artificial Intelligence,簡稱AI)混淆。從技術面來說,機器學習是人工智慧的一個分支領域,但由於機器學習擴展得如此廣大與成功,以至於如今已讓它引以為榮的父母──人工智慧,黯然失色。發展人工智慧的目標,就是教導電腦做到比現在人類所做的更好境界,而機器學習可以說是這些事情中最重要的。如果沒有它,就沒有電腦可以長期跟得上人類的腳步;有了它,其餘的則會遵循它的發展。

企業為何擁抱機器學習?
為什麼Google公司的市值比雅虎(Yahoo)高出許多?明明兩家公司都是從網路廣告帶來營收,而且兩者都是最熱門的入口網站,也都採用拍賣模式出售廣告,且都是透過機器學習來預測用戶有多少可能會去點擊廣告(點擊的機率越高,這個廣告位置就越有價值)。但Google的機器學習演算法比雅虎的還要好得多了。當然這不是他們在市值差異的唯一原因,但絕對是一個大的問題。對於廣告客戶來說,如果每一個預測的點擊並沒有發生,那等於是平白浪費了一個機會,而且對於網站而言,自然也會損失財源收入。隨著Google網路廣告年收入高達500億美元,只要潛在的有效點擊預測每提高1%,等於意謂著每年就可為公司增加5億美元的廣告收入存入銀行。難怪Google是一個機器學習的超級大粉絲,而雅虎與其他網站業者正試著努力的急起直追。

網路廣告正是主流商業型態的一種表現形式。在每一個市場中,生產者和消費者需要在交易之前進行聯繫,才能促成一場交易的發生。在網際網路出現之前的年代,買賣雙方交易的主要障礙在於實體面,例如:你只能在當地書店購買書籍,而且你的當地書店會局限於有限的貨架空間。但是當你可以在任何時間下載任何一本書到你的電子閱讀器時,就變成了選擇過多的問題。你如何在一家書店,瀏覽書架上數百萬冊的銷售圖書呢?對於其他資訊產品,例如:影音視訊、音樂、新聞、推文(tweets)、部落格(blogs)、一般的舊式網頁等,也有相同的選擇問題。除此之外,對於一切可透過遠程採購的商品與服務也是如此,如鞋子、鮮花、小工具、飯店客房、補教、投資等。它甚至會反映到人們尋找工作或交友的選擇問題上。你們到底如何能在茫茫大海中找到彼此?這是一個網路世代天天面臨的問題,而機器學習就是解決這類方案的最佳選擇。

隨著公司的成長,職場員工也經歷三個階段。早期,公司處處都是用人工完成一切,一位小型家庭自營式商店老闆,會親自了解客戶,而且他們會訂購、展示,並推薦相對應的商品。這種經營型態還算不錯,但沒有規模。在第二階段,也是最不快樂的階段,公司的發展擴大到需要開始使用電腦,因此開始招聘軟體程式設計師、顧問和資料庫管理人員,編寫出數百萬行程式碼,將公司所有能被自動化的功能完全自動化。還有更多的人被服務,但卻未必服務得一樣好,決策的制定可說是基於粗糙的人口類別,而電腦程式過於生硬死板,以至於無法匹配人類無限可能的多樣性。

第三階段,企業進入起飛轉折點,由於傳統缺乏足夠的軟體程式設計師和顧問,以滿足所有的客戶需求,所以公司無可避免地轉向機器學習。亞馬遜(Amazon)為了靈活將所有客戶採購喜好媒合,編寫在電腦機器學習程式中;臉書(Facebook)也強化編寫一套機器學習程式,對每位社群會員傳遞最佳、最期待的喜好資訊。全球最大零售公司沃爾瑪(Walmart)銷售數以百萬計產品,每天提供客戶數十億種商品購買選擇。沃爾瑪的軟體程式設計師更是試著編寫一套機器學習程式,滿足所有客戶需要的功能。這些公司所做的,就是採用機器學習演算法,把他們堆積如山的巨量數據資料進行資料探勘分析,並讓機器學習演算法推測出客戶想要的東西。

機器學習演算法可以稱得上是最佳媒合者,它們可以媒合生產者和消費者彼此接觸,克服資訊過載的問題。如果機器學習足夠聰明的話,你就可以從兩方面蒙受其益:在大規模方面,擁有大量的選擇與低成本;在小規模方面,可以具備個人化的風格。雖然學習器仍不盡完美,而且制定決策的最後一步,通常還是需要由人類來做判斷,但學習器可以睿智地簡化選擇,讓事情能控制在一個人可以管理的範圍之內。

我們將走向何方?
一直以來,技術趨勢總是起起落落、來來去去。唯有機器學習呈現出不尋常的魅力,它渡過了所有這些改變,也渡過了繁榮與蕭條,它只是不斷地增長。金融產業是機器學習的第一個應用領域,早在20世紀八○年代末期,就開始運用機器學習預測股價漲跌。下一波應用的領域是在企業資料庫的資料探勘上,這是到了20世紀九○年代中期,才開始變得規模很大,另外像是直銷、客戶關係管理、信用評等和欺詐偵測等領域均有廣泛地應用。然後是隨之而來的網路和電子商務,此時自動個人化服務迅速成為司空見慣的應用。當網路泡沫破滅暫時退潮時,運用機器學習的網路搜索和廣告位置效益快速起飛。

不論好壞,911恐怖攻擊事件,更將機器學習推向反恐戰爭的最前線。新一代網際網路的應用Web 2.0,則帶來了一系列全新的應用榮景,從社交網路的探勘,到找出哪些部落客(bloggers)正在談論你的產品。與此同時,各領域中越來越多的科學家,逐漸轉向大規模的模擬,其中又以分子生物學家和天文學家引領了這個改變。此外,當美國房市蕭條幾乎沒有登記買賣時,它的主要影響是歡迎人才從華爾街轉移到矽谷發展。到了2011年,「大數據」迅速爆紅,深受歡迎,無疑把機器學習推向未來全球經濟發展的中樞。如今人類似乎還在努力將機器學習應用到其他尚未觸及的領域,包括看似不太可能的音樂、體育和品酒等領域。

這種增長是顯著的,這只是一個什麼即將到來的預示。不管機器學習是否有用,事實上,目前這一代的機器學習演算法對產業的影響仍然十分有限。然而當現在正在實驗室裡的演算法,實際應用到業界最前線時,微軟創辦人比爾.蓋茲(Bill Gates)的評論,在機器學習領域的一個突破,將價值十倍的微軟,就會顯得太過保守。如果這些觀點「真正」能讓研究學者眼放微光,產生實際的成果,那麼機器學習帶來的不只是一個文明的新紀元,更是地球生命演化的嶄新階段。

是什麼讓這一切成為可能?機器學習演算法到底如何運作?什麼是機器學習演算法目前不能做到的,以及下一代的機器學習演算法將是什麼樣子?機器學習的革命將如何展開?你應該留意哪些機會和危險?這些都是這本書裡會探討的課題,請繼續往下讀吧!
 
機器學習的五大學派
當然在探求大演算的過程中,我們不必辛苦從無到有。我們已經有幾十年的機器學習研究,可以從中借鑑完整全貌。尤其在這地球上最頂尖聰明的人,全都把自己的生命奉獻於發明機器學習演算法,而且有的人甚至聲稱,他們已經握有一個通用的學習器。雖然我們將站在這些巨人的肩膀上(因為後人的學識是建築在前人的學識之上),但是對於這樣的聲稱,我們半信半疑。這樣一來,就產生了一個問題:我們如何知道,何時我們已經真正找到大演算?當相同的學習器只有參數的改變,而且除了數據資料以外,只需要輸入最小量的學習範本,就可以和人類一樣,理解影音與文件內容,這樣的學習器並能在生物學、社會學及其他科學領域,做出重大的新發現。顯然,在這種標準下,目前還沒有任何學習器已經被證明就是大演算,即使在不太可能的情況下,已有能解決某領域的演算法存在,仍不足以承擔機器學習統一理論的大局。

最重要的是,在每一個新問題上,大演算是不需要從頭開始的。或許上述我們所要求的這個門檻可能太高了,所以對於任何學習器來說,很難符合這些要求標準,而且學習器肯定和人們所做的很不一樣。舉例來說,語言並非在無塵的真空中進行學習,如果我們無法擁有這個世界涉及到它的相關知識,我們就不可能理解一個句子的句義。因此學習閱讀的時候,大演算可以依靠之前累積的學習基礎,去看、去聽,並去控制一個機器人。同樣地,一位科學家不只是一味地將數據資料套用到模型中,他還是可以利用自己在這個領域的所有知識,對這個問題產生影響。因此,在進行生物學的探索時,大演算可以先讀取它想要了解的所有生物知識,依靠以前已經學到的基礎進行判讀。大演算不只是一個數據資料的被動消費者,它還可以與所處環境進行互動,並積極尋求它想要的數據資料,就像英國實驗室的機器人科學家亞當一樣,或者像是任何一位孩童,學習探索他的世界。

由於在機器學習領域存有許多競爭的思想學派,所以我們在大演算的尋求過程,可以說是相當複雜,但也因此變得十分有趣。這些主要的學派包括符號理論學派(Symbolists)、類神經網路學派(Connectionists)、演化論學派(Evolutionaries)、貝氏定理學派(Bayesians)和類比推理學派(Analogizers)。每個學派都有一套核心理念,以及一個它最關心的特定問題。不過它已經針對這個特定問題,基於其相關領域的科學概念,找到一個適合的解決方案,並且擁有一個主要的演算法,可以適度體現它的機器學習行為。

對於符號理論學派來說,所有的智慧可以被簡化成操縱符號,就像數學家求解方程式的過程,是透過用其他表達式來替換表達式的方法。符號理論學派明白,你不能從頭學起,你需要一些初步的知識,與數據資料相配合。符號理論學派們已經找到了如何將先前存在的知識納入學習,以及如何快速地將不同的知識進行結合,以解決新的問題。他們的主要演算法是逆向的演繹法(Inverse Deduction),透過這種演算法可以找出哪些知識是欠缺的,以便能做出邏輯的演繹推論,然後使其盡可能地被通則應用。

對於類神經網路學派來說,學習就是人類大腦所做的事情,所以我們需要做的,就是對大腦進行反向工程。大腦的學習是透過調整神經元之間的連結強度,而關鍵的問題是找出哪些神經元的連接,必須對哪些錯誤負責,並依此相對應地改變它們。類神經網路學派的主要演算法是倒傳遞理論演算法(Backpropagation),它會比較系統的輸出與期望的輸出,然後依次改變一層又一層的神經元連結,以便使得輸出結果可以更接近於它應該呈現的。

演化論學派則認為,所有學習之母就是物競天擇。如果物競天擇可以造就我們,那麼它就可以造就任何事情,而我們所需要做的,就是在電腦上模擬它。演化論學派所解決的關鍵性問題就是學習的結構,不只是調整參數而已,就像倒傳遞理論演算法所做的,可以創建一種能夠讓這些調整進行微調的大腦。演化論學派的主要演算法是一種遺傳程式規劃(genetic programming),就像大自然會交配與演化生物一樣;同樣地,遺傳程式規劃也會以相同的方式,繁衍與演化電腦程式系統。

貝氏定理學派最關注的課題就是不確定性。這門學派主張所有學到的知識都是不確定的,而且學習本身就是一種不確定的推理形式。那麼這個問題就變成如何處理雜訊、不完整,以及相互矛盾的資訊,而不會造成分崩離析。解決的辦法就是機率推理,而主要的演算法是貝氏定理與其衍生物。貝氏定理告訴我們如何把新證據轉化為信念,而機率推理演算法則盡可能有效地做到這一點。

對於類比推理學派而言,學習的關鍵是認識各種情況之間的相似之處,從而推斷其他情境的相似地方。如果兩位患者都有相似的症狀,也許他們患有相同的疾病,問題的關鍵是要判斷兩件事情之間是如何相似。類比推理學派的主要演算法就是支持向量機(Support Vector Machine,簡稱SVM),它可以找出哪些經驗是需要記住的,以及如何結合這些經驗,做出新的預測。

針對各個學派的核心問題,每個學派都有提出相對應的解決方案,這些解決方案都是相當卓越,且得來不易的進展。然而真正的大演算,是必須同時解決這五類問題,而不只是一個。例如:為了治療癌症,我們需要理解在細胞中的代謝網路,哪些基因會控制其他基因,蛋白質控制因而會產生哪些化學反應,以及添加一個新分子的組合會如何影響網路。此時,機器學習若必須試圖從頭開始學習所有的知識,忽略生物學家已經煞費苦心,累積了幾十年得來的所有知識,那麼這種機器學習必定是愚蠢的。符號理論學派知道如何利用從DNA序列測定儀、基因表達微陣列(gene expression microarrays)等所取得的資料,結合這方面的知識以產生結果,這種結果是你不可能單獨取得的。但我們藉由逆向演繹所獲得的知識是純定性(purely qualitative)的,我們需要學習的不只是誰與誰進行互動,還要包括互動多少次,而這些都是倒傳遞理論演算法可以做到的事情。

然而無論是逆向演繹或倒傳遞理論演算法,若沒有一些相互作用與參數的基本結構,兩者將會迷失在機器學習的空間裡,不過遺傳程式規劃可以彌補這個問題。在這一點上,如果我們有完整的代謝知識,並且擁有給定病患的所有相關資料,我們就可以找出一種針對他的治療模式。但在現實生活中,我們所擁有的資訊總是非常不完整的,甚至在某些地方並不正確;儘管如此,我們仍舊需要取得進展,這就是機率推理為什麼存在的理由。在最困難的情況下,病人的癌症看起來跟以往的癌症有很大不同,所有我們以前學過的知識,都不足以理解判斷。此時,基於相似性的演算法(Similarity-based algorithms),可以在表面上看起來非常不同的情況之間,尋找類似之處,並且專注於他們基本的相似點,忽略其他剩餘的地方。

無論你讀這本書是出自於好奇或是專業的興趣,我希望你能將已經學到的東西,分享給你的朋友和同事。機器學習觸動我們每個人的生活,它取決於我們所有的人,自主決定我們想要用它來做什麼。憑藉著你對機器學習的新理解,你處於一個更好的位置,可以去思考類似隱私和數據資料分享、未來的工作、機器人作戰,以及人工智慧的希望和危險等問題;如果我們有越多人擁有這樣的理解,我們就越可能可以避免重蹈覆轍,並且找到正確的成功途徑。這是我撰寫這本書的另一個重要原因。統計學家知道要進行預測是很困難的,尤其是有關於未來,然而電腦科學家都知道,預測未來的最好方式就是去創造它,但渾渾噩噩的未來,就不值得去開創了。

謝謝你讓我成為你的嚮導,我想要送給你一份臨別的禮物。牛頓說過,他覺得自己像是一位在海邊玩耍的男孩,在這裡撿到一顆鵝卵石,在那裡發現一個漂亮貝殼,而躺在他面前的則是浩瀚且尚未被探索的真理大海。300年之後,我們已經擁有許多鵝卵石和貝殼的驚人收藏,但是這個未被發現的真理大海,仍然綿延到遠方,閃耀著希望的光芒。我要送的這件禮物就是一艘船──機器學習,而且現在正是揚帆啟航的時候了。
The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World
http://www.books.com.tw/exep/assp.php/Johnsonkuo/products/0010722761?utm_source=Johnsonkuo&utm_medium=ap-books&utm_content=recommend&utm_campaign=ap-201607