2019-05-18 11:31:32聖天使

百度大調整背後,是智能推薦撐起下一代互聯網




(文/潘越飛)

5月17日,向海龍辭去百度高級副總裁、搜索公司總裁職務。6天前,向海龍還出現在2019年百度聯盟生態合作伙伴大會上,暢想著百度生態聯盟的美好未來。


此次李彥宏的公開信裡正式宣布,百度搜索公司戰略轉型為移動生態事業群組。作為國內搜索引擎的龍頭老大,百度曾經靠搜索+信息流雙引擎的模式,獲得了大量的廣告訂單,但隨著智能推薦時代的崛起、外界對於百度搜索銷售導向的質疑,百度面臨著嚴峻的生存環境。這次向海龍的離職,或許意味著百度要下決心轉型和改革。


這是一篇鋅財經創始人潘越飛五年前撰寫的文章,正如文中的預測,現在互聯網智能推薦時代已經到來。通過這篇文章,我們能看到百度大調整背後的深層次產業原因,以及未來智能推薦時代的更多可能性。

智能推薦引擎的基本邏輯是什麼?熱門、興趣、地域、探索四大策略邏輯,預測群體的行為。

智能推薦爆紅於資訊產業是因為啥?海量信息帶動海量反饋數據推導出精准算法。

智能推薦會干掉媒體人麼?永遠不會,但鴻溝已定,玩法必改。

智能推薦的未來是什麼?除了以社交為衍生的信息入口外,以獲取資訊為目的的第二個信息入口。




我(潘越飛)和老蔡做了一番極度嚴肅與技術型的對話,被360度全面科普了一番。


老蔡是誰?蔡明軍,技術極客一枚。




工程師出身,搞過航天921項目、開發過大型網站、參與過搜狗搜索引擎的設計研發、做過在線教育,十多年的互聯網技術研發經驗,曾是搜狐內容推薦引擎的負責人,該引擎已經在搜狐新聞客戶端上落地,取得了不錯的效果。


作為半只腳踩在媒體裡的技術達人,他對媒體的判斷,少了點情懷和虛偽,多了點邏輯和算法——也許,未來一個這樣的技術人員抵得過二十個報業集團的影響力,或者說,現在已經有這樣的苗頭。


和老蔡的對話,是我近日最有收獲的一次。

我照樣寫得很長,我照樣建議你,先保存下來,看不懂沒事,再讀上三遍,絕對有價值!定有當頭棒喝的效果!媒體從業者可以看到技術的顛覆浪潮,技術人員可以看到資訊產業的潛在作用。


——以下為正文,第一人稱口述體——

一問老蔡:為什麼智能推薦的市場突然爆發,上有過億級用戶的追捧,中有巨頭的不斷佔位,下有巨量資本投入?這件事真的那麼重大,那麼靠近大勢麼?

智能推薦,很多人看的這個說法的第一反應是,這玩意靠譜麼?


要回答這個問題,回顧一下智能推薦的誕生和發展就知道為什麼會這樣了。

1、需求驅動產生了智能推薦

互聯網早期的資訊門戶是第一個成功的產品。它其實就是由編輯人工整理PUSH出來的一堆鏈接堆疊在網頁上。在資訊匱乏的時代,這已經可以滿足絕大部分用戶的心智需求。


時間往後推,十幾年的時間裡,互聯網信息不斷爆發,人們獲取資訊的深度、廣度和頻度都獲得極大提升。簡單堆砌的門戶資訊已經不能滿足需求。這時候出現了RSS訂閱,號稱資訊閱讀的革命,代表產品是google reader。由於每個人訂閱的信息源不一樣,最終看到資訊列表也全然不同,用戶在這裡體會到了個性化的資訊服務。





但是RSS訂閱最終還是死掉了,為什麼?因為你要會使用訂閱工具,還要能找到訂閱源,兩道門檻把小白人群擋在了門外,只適合精英人群玩耍。用戶量起不來,市場不認可,自然就廢掉了。

RSS死掉了,但卻讓用戶體驗到個性化資訊服務是多麼的美妙。讓用戶自主訂閱有門檻,那由機器主動推薦就順其自然誕生了。

亞馬遜網站出現的購物推薦,開啟了機器智能推薦的時代。由此衍生出了現在新聞、音樂、書籍、社交等各種類型的智能推薦引擎。


2、技術積累給智能推薦效果提供了保障

有需求在,但如果技術上達不到可用性要求,那也是白搭。

早期計算機計算能力有限,可獲取的用戶數據也有限,推薦算法大都是在實驗室環境下做學術研究,真正商用還有比較大的風險。隨著互聯網的高速發展,特別是搜索引擎相關技術的發展,計算能力已經不是問題,而且大規模的用戶數據收集也已經不是難事。


這樣基於大樣本數據的實時分析處理系統(大數據)可以快速分析出群體行為的概率分布,再將這些概率分析應用到個體用戶上,就產生了智能推薦的體驗。例如搜狗的雲輸入法,基本原理很簡單,就是通過概率計算你要輸入的下一個字可能是什麼。但這在後台需要一個龐大而復雜的實時分析處理系統。


另外對人類語言及語義的計算機識別處理,有一門專門的學科叫自然語言處理,也有的叫計算語言學。之前主要研究的領域是自然語言的機器翻譯,它的基本邏輯就是通過機器學習和訓練,通過統計分析大量人類已有的文章、句子、詞匯和詞匯之間的概率分布情況是什麼,根據語義來配對。中科院、微軟、谷歌等大機構都投入大量資源在做研究,發了大量的paper,取得了非常不錯的效果。

學術研究在前,商業應用在後,給智能推薦的效果提供了堅實的技術基礎。


3、移動互聯網成為智能推薦大爆發的導火索

自從亞馬遜推出商品推薦之後,各種類型的網站都在跟進和不斷完善各自的推薦引擎。典型的如Hulu和淘寶都大量應用了智能推薦。但不管怎麼用,他們的智能推薦仍然處於輔助路徑上。

但進入移動互聯網時代,智能推薦已經開始從輔助路徑轉變到主路徑上。比如手機淘寶,其首頁的商品推薦已經是個性化的,極大提升了首頁的分發能力。還有最近官司不斷的今日頭條,其主打特色也是將資訊的智能推薦放入產品的主路徑上。為什麼會有這樣的變化呢?因為它是在移動端。





PC由於屏幕足夠大,一屏可以顯示密密麻麻的內容和鏈接讓用戶去選擇,這種版式閱讀來自於報紙閱讀習慣的延伸,小白用戶們挺習慣的。信息量給少了,他們還不習慣,認為你虧待他們了。可到了移動端手機屏幕上,如果照搬版式閱讀的頁面布局,用戶一定會瘋掉的。


而且在TWITTER和FACEBOOK的教育下,不斷滑動的Feed流形式已經被絕大多數用戶接受和認可,流式閱讀已經成為標准的移動端閱讀習慣。在移動場景下,如果不能盡快給到用戶感興趣的內容,那這個產品離死也就不遠了。面對海量資訊和碎片化的流式閱讀,編輯人工排版已經力所不及,智能推薦自然就擔當起主路徑的角色。


另外,移動端設備被叫做「人的自然衍生」,一部手機默認就是一個自然用戶。它相比PC,系統可以獲得更多更大量的用戶行為信息,這樣讓智能推薦的效果更加有保障。

在移動端的產品中,如果沒有基於大數據分析的智能推薦邏輯,都不好意思說自己是移動產品。你說智能推薦靠不靠譜?現在做產品的早就不討論智能推薦靠不靠譜的事兒,而是琢磨怎麼讓它更靠譜。


二問老蔡:為什麼用戶會看到智能推薦出來的東西,往往熱門但是三俗內容一大堆?甚至有人總結了一首打油詩:「低俗段子傳播廣,中華酷聯爭議忙,小米鎚子對罵爽,蘋果水軍非常強,汽車評測話淒涼,奇葩趣聞擼管王,何為頭條新熱點,還得要看黨中央。」


三俗的東西最熱門,這個基本不用數據挖掘,就知道結果肯定會是這樣。

道理很簡單,按照馬斯洛的說法,人的需求有五個層次,三俗是低層次的需求,卻也最普世。就像收視率被稱作萬惡之源,點擊率絕對不能成為智能推薦引擎的唯一標准。比如你如果用娛樂新聞和科技新聞的點擊量和點擊率做直接對比,那根本就是不公平的。


(潘越飛:陽淼在采訪騰訊網副主編的《整合微博後,騰訊門戶怎麼走》中提到,騰訊門戶當年也做個性化,結果最後基於個性化匹配出來的內容都是新聞中的垃圾食品,獵奇新聞、黃賭毒,然後是美女圖片、八卦、奇聞、謠言等,「垃圾食品大家都知道不好,但很多人都愛吃」。)


當你能找到用戶區別於三俗內容的興趣點時,就不會唯點擊率論了。

回到用戶覺得推薦效果不夠好這件事上,我覺得主要有兩個原因:

1、每個人對推薦的理解不一樣,會產生以偏概全,武斷地認為推薦效果很差。 

2、由於技術的局限性,產品的過度宣傳導致用戶的過度期望。 


之前看有人寫過一篇看衰智能推薦的文章,很有代表性。正好我也總結一些大家對智能推薦普遍的疑問或誤解,簡單做下回答.

1、智能推薦會不會越推越窄,讓你成為井底之蛙?

答案當然是肯定不會。但經常會有朋友給我舉一些例子(行內稱之為「BadCase」),比如:我看了幾篇馬航MH17的文章後就一個勁的被推薦馬航MH17的資訊,而我其實更關心烏克蘭局勢對美俄歐三者關系的影響。這個BadCase試圖想說明智能推薦引擎的「弱智」。


其實,這個Case到底是不是BadCase還需要看推薦場景。如果是在某篇馬航事件的「相關推薦」中出現那屬於正常的。而如果是在推薦主路徑上過於頻繁,那就確實不應該了。


但這樣的推薦引擎應該不是合格的推薦引擎。因為如果僅僅簡單依靠直接反饋來做推薦,那根本不能稱之為智能引擎。推薦引擎的多樣性是很重要的指標,越推越窄是設計之初就要力圖避免的。





在此順便介紹我們推薦引擎的四種類別的推薦策略:熱門引擎,即尋找和你相關的近期的熱門資訊,它比較注重新聞性;興趣引擎,即尋找你興趣點范圍內的資訊內容,他比較注重內容和興趣的長尾特性,力圖捕捉到你特別個性的一面;地域引擎,即根據用戶經常停留的位置做本地化區域資訊的推薦,它比較偏重日常生活類資訊;探索引擎,即基於用戶行為的深度挖掘及人際關系,依據一些內在的隱形關聯關系做推薦,挖掘用戶未知的興趣點,適度擴散性的推薦資訊,並根據用戶的實時反饋不斷修正,正確的就遷移到其他推薦策略上去。


對每個人來說,這四種策略引擎都同時存在。只是根據算法模型做個性化的權重配比。如果你覺得很多內容不適合你,那應該就是配比的比例出現了問題。


2、人心難測,機器怎麼可能理解我?

這個質疑屬於偷換概念。推薦引擎不是心電圖也不是測謊儀,更不是貼身心理分析師或保姆,順著你的脾氣,看看你今天高興了,明天失戀了,分別都需要看點什麼。


推薦引擎的邏輯,還是通過挖掘群體用戶的行為規律和個體歷史行為的數據做行為分析和預測。這其實和我們人類觀察理解事物是一致的,就是我們常說的「聽其言觀其行」。如果你都不參與推薦引擎的交互,僅僅以個人的某一單一感受去判定智能推薦引擎的好壞,這是不公平的。


平常會有很多人跟我們團隊反饋問題,說這個推薦的不好,那個推薦的怪異。我們首先會積極把問題收集上來,作為我們的BadCase,然後逐條去做分析,找到問題的緣由,再回歸到數據模型上去做調整測試。

再說了,人心本就難測,千古難題,機器怎麼可能做到,絕對的捧殺。


3、智能推薦的內容質量無法保障,控制不了垃圾內容?




不管是編輯還是機器,高質量內容的辨識能力一直是個長期命題。

智能推薦引擎的底子是搜索引擎,所以搜索引擎擁有的反垃圾能力它也都具備。但推薦引擎是在和編輯人工列表做對比的,用戶對垃圾的敏感度遠高於搜索引擎。



但世界就是這麼奇妙,由於推薦引擎的強交互性,可以通過用戶的選擇進行動態篩選,把垃圾內容快速洗出去。所以,智能推薦有自己一整套自己的內容質量控制體系。


當然漏網之魚不是沒有,但更多的情況是推薦策略不合理導致的不匹配。同樣的內容,對你來說是垃圾,對別人來說是寶貝,彼之砒霜他之蜂蜜。推薦引擎的策略優化是個長期而且持續的過程。


4、智能推薦是人與機器的交互,沒有人與人的交互,冰冷可怕?

其實恰恰相反。在具體實踐中,推薦引擎在反復使用人與人之間的關系屬性。

但它是個隱形的功能,不容易體現出來。例如,當你看了兩篇文章,推薦引擎就找到同時看過這兩篇文章的用戶又看了哪些文章,並將閱讀幾率最高的文章推薦給你。有可能前面兩篇文章一篇講馬航MH17空難,一篇在講俄羅斯與歐盟的博弈,而推薦出來的是美國的亞太再平衡戰略。


還比如,你去九寨溝旅游,而推薦引擎會把在九寨溝的人普遍都看那篇文章推薦給你。

這種推薦充分利用了人與人之間的興趣屬性或地域屬性之間的關系,我們也叫做協同推薦。

從效果來看,基於人與人之間的關系推薦的內容,要比純粹通過語義分析進行推薦更好。你在推薦引擎上只看到了結果,但千萬不要武斷地說,推薦引擎就是靠機器在瞎猜,因為冪冪之中必有緣由。


5、人是一個變化的動物,歷史並不能代表將來?

「狗改不了吃屎」這句話說得俗了點,但是點破了推薦引擎的一個重要邏輯:人的確會變,但有一些長期規律性的東西很難改變。

推薦引擎在設計時,會按照長期和短期進行標識,有一定梯度,來適應人的變化。我們有秒級的算法模型更新,也有按天、按月的長期算法模型更新。


比如:你剛看了一眼馬航,引擎會再次推薦馬航相關的新聞。但引擎並不認為馬航代表你的長期興趣,而只是當下的熱門,所以才會適當的給一些,這是短期行為的捕捉。短期行為的興趣會隨著時間流逝而慢慢消退掉。推薦引擎不怕變,而怕不變。


三問老蔡:智能推薦引擎會干掉媒體人麼?會出現那些加工廠裡面的情況一樣,工人在流水線上的位置被一排排的機械臂代替,導致大批量失業麼?算法和工程師干掉了整個編輯部,這是科(JI)幻(SHU)故(REN)事(YUAN)和恐(MEI)怖(TI)小(REN)說(YUAN)中都說會出現的場景。


我很堅定地說,肯定不可能出現,至少在有生之年,哈哈。

由於近代科技的發達,人和機器的關系,一直存在某種微妙的關系。電影故事裡,經常出現人機大戰,但機器最後都打不過人,因為人會產生很多變量。機器再智能,也只是接近人,人的價值是無可替代的。


我們必須要學會去發現每個事物的特點。





機器對於規律性的行為挖掘興趣挖掘有優勢,但對於價值觀的辨識、社會發展局勢的判斷、大事件的捕捉則鞭長莫及;而人工對於長尾興趣人群的識別和內容匹配則是不可完成的任務。在智能推薦這件事上,本因是人力不可及,同時需求越來越強烈,才有機器去補位。


以上說的是背後的大邏輯,那麼,在智能推薦主路徑化的時代,傳統媒體人又應該怎麼辦呢?我有五個大概的建議。:

1、 媒體人必須正視這種變化。不要躲避,不要盲目悲觀,也不要仇恨(潘越飛:印刷機誕生之初,有傳教士寫了洋洋灑灑一本書,大談謄寫者才能感受到智慧與文字的靈性,機器破壞了神聖性,為了讓自己的觀點被更多人看到,這個傳教士選擇用印刷機來出版這本反對印刷機的書。這個黑色幽默,是很多保守派面對創新設備時典型的糾結狀態。)。 


2、 媒體人必須強化原創的能力,生產和發現獨特內容。從無到有的過程,人能做,機器做不了。到目前為止,的確有通訊社在嘗試機器寫作,那些內容都是快訊類,有深度的、原創的、獨家的內容,一百年之內都生產不了。 


3、媒體要學會使用新的內容運營工具。在使用智能推薦引擎來做分發的環境下,新的內容運營工具肯定不是現在CMS後台這樣了,但具體是什麼樣,我們也在試驗和嘗試(我准備寫一個,以後傳統意義上的編輯沒有存在價值了,系統內的運營人員才是核心,這是我一年多來的實踐心得。)從產品角度來說,這一套全新的內容運營工具的出現則標志著變革,其重要性不亞於用戶端產品的變化。 


4、 媒體本身是需要品牌的,機器很難有獨立的品牌內涵。品牌認可度上,用戶對媒體的判斷與定位,影響到他接受到資訊後的接受度。 


5、 媒體與用戶之間的互動交流,建立粉絲群體,這也是機器做不到的。 

總之,是媒體要回歸到人的屬性上去,放大人和機器的區別。

另外,在具體實踐過程中,我也經常對研發人員講:千萬別軸,別想當然。對於自認為精妙的算法別認為天然就是完美的,必須需要通過原型驗證、小樣本集測試、大樣本集試用這樣的嚴謹流程才能廣泛推廣。而對於編輯人工排布的資訊,你可能認為他們在自我YY,但實際上有你不了解的特殊考量。


對於用戶來說,他根本不在意是編輯推薦還是機器智能推薦,體驗爽就夠了。目前在搜狐新聞客戶端的實踐過程中,已經主動開始越來越弱化「推薦」的標簽,盡量讓用戶感知不到誰做的推薦。




讓編輯做好精華的頭部資訊,即大熱門、大事件;讓機器做好長尾資訊、大流量的內容分發。人工和機器互相取長補短,共同為用戶維護一個完整的資訊流,既有價值觀的屬性,也有長尾的分發能力。不要過於偏激的去迷信什麼,不要認為這是被迫妥協了,實際上,這樣的混合模式才更符合社會現實和用戶需求。


往後,人在發行上耗費的精力更少,精力集中在發現、原創、品牌、互動等更偏向於人的屬性。如果,你非要去搶發行的事,那就是以肉身去抵抗鋼鐵洪流,必敗。

凱撒的終歸凱撒,上帝的終歸上帝。


四問老蔡:媒體的未來,會在智能推薦引擎的影響下,變成什麼樣?

1、智能推薦引擎卡位在門戶和搜索中間

智能推薦引擎是搜索引擎的同胞兄弟,他們的底層邏輯基本一致。區別在於,搜索引擎需要用戶主動輸入關鍵字,推薦引擎不需要輸入關鍵詞,輸入的是用戶的行為。

當年互聯網剛起來的時候,新聞資訊是剛需,門戶迅速崛起,百度那時候是給門戶打工的,他們都是用戶獲取資訊的工具,搜索靠用戶輸入關鍵字,門戶靠用戶眼睛掃,一個用戶拉一個編輯推,這是兩個邏輯干了一件事——資訊的獲取。推薦引擎也是在做同一個事。

我個人會把推薦引擎放在門戶和搜索引擎中間的位置。智能推薦引擎比搜索引擎更媒體化,比門戶更技術化。


2、智能推薦引擎利好於用戶、廣告主和自媒體

媒體一般會有兩個大的環節,內容生產和內容發行。

而推薦引擎是內容發行的一次變革,極大的提高了發行效率,原本的門戶模式時,一天生產十萬條消息,真正能被看到的沒幾條,推薦引擎把熱門和長尾內容都送到了用戶面前。用戶因為推薦引擎主動為自己做個性化適配而更有效率地獲得資訊,因此而得利。




另外一個獲利的對象是廣告主。推薦引擎用海量細分的內容幫廣告主細分了用戶,讓廣告投放更精准;而且在信息流裡的原生態廣告投放效果更好。

在內容生產層面,由於智能推薦引擎能夠比編輯有更強的內容細分的發行能力,這樣讓內容生產者的內容更容易呈現在合適的用戶面前,特別是自主原創者。這對自媒體是個好事。人人都是自媒體不是一句口號而已。


3、未來的資訊內容會有兩個入口

一個是以社交關系衍生的資訊入口,一個是以獲取資訊為目的的資訊入口。

資訊內容的含義很廣泛,做好資訊入口會有很大的想象空間。


另外,對於火爆一時的微博,我非常不看好。它是基於關注的淺層次訂閱邏輯,做的不倫不類,有些四不像,既不是基於社交關系的內容聚合,也不是基於內容關系的聚合,垃圾內容泛濫,Feed流越來越雜,越看越難看了。


4、智能推薦引擎的終極目標,不是幫助用戶kill time消磨時間,而是save time節省時間

推薦引擎的篩選做的越精准,用戶的閱讀時間更有效。當用戶覺得推薦引擎的確能夠幫他節省時間,入口的效應也就出來了。


5、推薦引擎在移動互聯網時代漸漸進入主流,但也還算新生事物,需要不斷演變成長

目前其核心還是佔住主路徑,適配規模化用戶群,創造規模化收入,形成特有的產品生態和商業生態。推薦引擎一定會成為新一輪的互聯網標配。-----(©本文版權歸「鋅財經」所有)


我要回應(本篇僅限會員/好友回應,請先登入)