互聯網時代最主要的三種獲取信息方式

分類:營銷 時間:2016-10-10

搜索、推薦和廣告是互聯網時代最主要的三種獲取信息方式。但搜索、推薦和廣告架構能統一嗎?就此,本文作者將具體來分析。

搜索、推薦和廣告是互聯網時代最主要的三種獲取信息方式。如果你了解三個系統的具體實現,甚至自己還分別親手做過,那么你應該有一種模模糊糊的印象:似乎有些底層的技術和數據是可以共享的啊,但是為什么我們公司是分屬三個不同的團隊在搞呢?有時候似乎還要打個架什么的。

如果你有這個模模糊糊的印象,那么我告訴你:你不是一個人!Hector Molina在Recsys’14上就提出了將搜索、推薦、廣告三合一的觀點[1]。同時,在國內的微博上,也因此掀起了一些討論[2]。微博上的討論先按下不表,我們先來看看為什么三合一是一種可能的趨勢?如果要合,又有哪些困難呢?

不同與相似

搜索,推薦和廣告本質上都在解決信息過載的問題,各自解決的手段、目標不相同,各自誕生在產品生命周期不同階段,以至于系統實現不盡相同。

從幾個維度對比一下,看看他們不同和相同在哪?

搜索要解決的是精確快速找到想要的結果。最重要的目標是降低延遲和提高相關性。搜索更關注內容消費者,用雙手讓他們爽。搜索引擎不會像社交網站或資訊網站那樣變成time killer,人們依賴搜索而不沉迷搜索就與搜索引擎的目標有關。在搜索解決用戶的信息獲取需求時,很少給予用戶一些驚喜,這也不是搜索的目的,也不會隨隨便便地利用集體智慧去擴充一些不那么直接相關的結果。

推薦系統則不同,首先很少有靠推薦系統撐起一款產品,大都是起一個“錦上添花”的作用,好的推薦系統都會變成一個time killer,讓用戶走進去就不想出來那是墜吼的。推薦系統通常不必須要明確表達需求的“query”,因此在給出的結果中就有很多發揮的余地,可以給用戶制造一些驚喜,這一點和搜索很不一樣。

根據策略不同,推薦系統有不同的實現方式。比如基于內容的推薦,很接近一個搜索引擎,實際上很多推薦引擎底層的技術實現,尤其是數據存儲上大量借鑒了搜索相關技術,比如按照興趣標簽對推薦候選池做倒排索引。另外,搜索是針對個人用戶的,一個用戶發起一個請求,而推薦系統既可能真對單個用戶進行推薦,也可能針對用戶群進行推薦。

廣告則是一個很特殊的存在,它在產品形式上很像推薦,總是“不請自來”,而在技術實現上又兼有推薦和搜索兩者特點,而且它又是一個商業驅動的系統,所以更多關注商業利益最大化。

有一個很有意思的現象,搜索和推薦的信息對象理論上可以共用的,也就是說可以允許用戶設置條件檢索一堆候選對象,也可以把這些候選對象主動推薦給可能感興趣的用戶面前。但是廣告的信息對象卻是另一個隔離的存在,為什么不能讓用戶直接設置條件檢索我們的廣告庫存呢,就像是一個通常的搜索引擎一樣?也許是可能的。

抽象看三者

這三個系統有這些特點,對于大多數成熟公司,他們已經被把持在三個不同的團隊部門手中,各自團隊每天在同時填著大同小異的技術坑。

我們抽象一下三者的需求共性:本質上都是在匹配,匹配用戶的興趣和需求(看成context),但匹配的目標,條件和策略不盡相同。

進一步抽象下去,又可以分為三步:過濾候選(filter) 排序候選(ranking) 個性化輸出(personalization)。

過濾候選這一步在搜索里面天經地義,query解析得到查詢意圖,或者更多結構化的搜索條件,用結構化的查詢條件去倒排索引中獲取搜索候選。

與之相似的是廣告系統,搜索廣告也是拿著query去獲取候選廣告,而聯盟廣告則是拿著用戶標簽去需求方獲取廣告候選。

filter在基于內容的推薦策略中也有類似的過程,而其它推薦策略,比如協同過濾或者隱因子模型,一般是提前計算好的,并沒有明顯的類似搜索一樣的filter,不過我們仍然可以抽象地把各種不同召回策略視為filter這一步,只不過filter并不是同步進行的,而是異步進行的。

ranking這一步主要區別在于排序的目標和約束。搜索的排序目標是高相關性,無論BM25為代表的傳統排序模型還是以Learn to rank為代表的機器學習排序,皆如此,用戶每次在搜索上花費的時間是不是更少(而不是更多)來衡量搜索的效果。

推薦系統的ranking比較復雜,相關性只是很小的部分,根據推薦系統的產品形式不同,ranking時排序不同。通常推薦系統用CTR預估來融合各種召回策略得到的候選集,如果做得深入,還需要考慮Exploit-Explore問題。附加的約束則千變萬化:電商中,當天買過的當天就不能再推了,新聞推薦里,重復的新聞不能再推了,某些場景需要推薦搭配,某些場景需要推薦相似,topN 推薦還需要考慮多樣性,序列推薦要考慮前序和后續,etc。

廣告系統的排序更多是從經濟學角度去看,通常CPC廣告的排序方式是結合預估CTR、出價、廣告質量三者一起考慮。同時還要考慮很多別的因素,尤其是商業因素,平臺方的要求,廣告主的要求等等,是一個純動態博弈,正如微軟亞洲研究院的劉鐵巖所介紹那樣[4]。

personalization最被推薦系統看重,而且在某些場合,個性化一度成為推薦系統的代名詞,然而個性化只是推薦系統的衡量指標之一而已,個性化的前提也一定是信息夠豐富夠垂直才行;搜索的personalization相對來說就粗淺一些,常見的是利用地域等人口統計學來做personalization,而且對于歧義較少的query,搜索如果太個性化既沒意義又有風險。

三者的協同

雖然事實上三個系統目前是軍閥割據,但其業務和技術上已經有很多重疊,也能夠產生很多協同作用。

有一部分搜索需求是無法用搜索相關性滿足的,比如“一個人的夜晚聽什么歌”這樣的query,需要推薦系統去滿足,交互形式可能是眼下大熱的bot,也可能是傳統的流推薦等等。如果能夠識別出這樣的搜索請求,其實更應該交給推薦系統來響應。

推薦系統總體上滯后于用戶的即時需求,所以強大如Amazon這樣的推薦系統,也是有搜索引擎來與之配合的。一方面,搜索因為能夠滿足用戶的主動尋找需求,所以能夠化解一些推薦不力不及時的尷尬;另一方面,搜索可以積累用戶興趣數據;當二者結合起來考慮時,可以避免“搜什么推什么”的窘境,整個系統能夠綜合考慮哪些是即時快速需求,哪些是長期興趣。

廣告系統,在技術上和搜索跟推薦并無本質差異,差異在意圖不同,功能不同。對用戶的信息需求滿足,搜索和推薦離真正得到滿足之間總是有一定的鴻溝,要么是信息不足,要么是信息過載,這些鴻溝可以利用經濟手段進行調配,也就是廣告系統。

業界觀點

以上分析只是基于純粹技術和業務角度的簡單分析,結束軍閥割據,一統天下似乎是人民的殷殷期盼,然而,這個“人民”似乎只有你我這種站在“上帝視角”的人們。前面提到,之前在微博上,一眾從業者集體討論過這個問題[2][3],討論總結為:

  • 幾乎所有人都覺得這個提法是意料之中,也承認三者有統一的概念基礎,對此亦有共識;
  • 僅有少數公司(豆瓣)有成功的統一案例,并沒有人提出業界還有類似案例;
  • 少數前輩(@清風運文,@張棟_機器學習) 三個系統都經歷過,認為實際上困難重重,困難不在框架上,在細節上,各自優化需求差別很大;
  • 還有一些人調侃說來自人的困難大于技術上的困難,這個自己體會不一樣,沒法寫論文。

總之,從這篇微博看到的討論來說,幾乎都持悲觀態度。

我的看法

基于以上的討論觀點及事實,雖然業界很悲觀,但并不是毫無希望,總結幾點:

1. 三者有統一的可能性,而且不低;

2. 在已經被割據的公司里,再重新一統天下非常困難,投入產出比會很低;

如果要統一,從0就開始,所以更適合創業公司或中小公司,可能這也是為什么豆瓣有成功案例的原因;

3. 由于人的因素很重,所以從一開始就應該把三者劃歸一個團隊來統一規劃,人員配置上:技術上統一,業務上分開。

4. 必須用數據證明統一之后比統一之前好,而不是工程師自己“感覺不錯”,這個“好”可以體現在實際上的業務指標提升,也可以體現在開發效率提升。

參考文獻

[1] Information Seeking: Convergence of Search, Recommendations and Advertising

[2] http://ml.memect.com/remix/3783095167238447.html

[3] 看了Hector Molina在Recsys’14上提的Search……來自Arber

[4] 劉鐵巖:在微軟大學的三次華麗轉型

作者:陳開江@刑無刀(微信:kaijiang_chen),資深推薦系統從業者,歡迎交流。

本文由 @刑無刀 授權發布于人人都是產品經理,未經作者許可,禁止轉載。


Tags: 互聯網

文章來源:http://www.woshipm.com/it/425022.html


ads
ads

相關文章
ads

相關文章

ad