1. 程式人生 > >新浪微博黃波:千人千面,機器學習賦能使用者資訊流消費

新浪微博黃波:千人千面,機器學習賦能使用者資訊流消費

10月11-14日,為期四天的2017杭州雲棲大會(門票火熱搶購中!)將再度在杭州雲棲小鎮起航,作為全球最具影響力的科技展會之一,本屆大會將有不少阿里集團專家以及各企業行業領袖的精彩演講,CSDN授權轉載了雲棲大會嘉賓的專訪內容。本期我們採訪的是新浪微博機器學習平臺負責人、資深架構師黃波,他將在10月的雲棲大會上分享微博資訊流產品中機器學習和深度學習的實戰解讀、最新進展,以及搭建微博機器學習平臺和深度學習平臺的經驗總結。

黃波,微博機器學習平臺技術負責人、資深架構師,負責微博機器學習平臺和Feed算法系統。他畢業於中科院計算所,參與研究了高效能運算和演算法優化;並曾供職於百度,參與開發了分散式檔案系統。2010年加入新浪微博,目前專注於機器學習、深度學習、高效能運算、大資料處理等領域,致力於打造機器學習平臺和深度學習平臺,將機器學習技術和分散式計算應用於微博 Feed資訊流、推薦、反垃圾等業務場景。

跬步千里,微博深入應用新興技術

新浪對於大資料和人工智慧技術的應用,最早可以追溯到2008年,並且隨著技術的深度應用在不斷髮展完善。

2008年左右,新浪開始搭建Hadoop叢集,建立資訊系統收集公司級的基本資料,奠定了大資料系統的基礎。2009年起,隨著微博的興起和壯大,越來越多的使用者、內容和行為等業務資料沉澱下來,奠定了大資料的業務資料和業務場景基礎。2011至2012年,微博開放平臺讓微博資料和第三方資料能夠互通。2013至2014年,成功構建了大資料Darwin平臺,用於梳理和挖掘使用者資料及行為資料,刻畫了微博使用者的使用者畫像,並對微博短文字進行分析理解,形成了內容標籤等內容理解體系;同時在技術上,以分散式離線處理為基礎,成功引入了實時流計算,讓資料能更快發揮價值,從而更好地服務於業務。2015年起,微博大資料和Feed、熱門微博等業務充分結合;2016年,開始強調機器學習和人工智慧挖掘資料價值的能力在業務中的作用,並開發搭建微博的機器學習平臺和深度學習平臺。

毋庸置疑,大資料、機器學習、人工智慧已經逐漸滲透到了微博的各大業務中。然而,這一過程中不可避免地遇到了一些技術挑戰。黃波表示,分散式離線計算技術的挑戰就是其一,因此微博緊跟業界Hadoop生態的發展,由Hadoop 1.0升級到Hadoop 2.0,引入Hive、Pig、Sqoop、HBase、Yarn、Spark等元件,解決了大資料離線處理的問題。其次是實時流計算技術的挑戰,基於此微博選擇了依靠開源社群的發展,包括Storm、Spark Streaming等技術的發展和成熟。“目前遇到的最大問題是大規模機器學習和深度學習技術”,為了從容應對這一難題,微博一方面持續深入和阿里雲的合作,引入數加、EMR、HPC、PAI等成熟系統來加快技術發展速度,另外一方面還依靠了開源社群的Glint、Angel、Spark、Tensorflow等機器學習技術,自研和完善引數伺服器WeiPS、機器學習程式設計框架WeiFlow來滿足微博機器學習和深度學習平臺的業務需要。

千人千面,人工智慧助力億級規模的使用者畫像

資料是人工智慧的基礎。微博充分發揮了作為社交媒體的先天優勢,以其平臺所擁有的億萬級圖片、視訊和文字資料,刻畫出了微博龐大的業務體系和使用者畫像。

黃波介紹,微博資料有內容資料和使用者資料這兩類。內容資料包括圖片、視訊和文字等。對於這類資料的處理方法,一是將內容資料對映到微博內容標籤體系(微博內容標籤體系分為三級內容標籤,例如:一級的體育;二級的籃球;三級的金州勇士等),可解釋性強,但存在一定歧義,準確性有待提高。另一種處理方式是對內容做embedding,通過embedding向量做匹配或推薦,能夠對內容更深入地理解,但是解釋性較差。內容資料還有一個獨特的點是內容釋出人,即發博者。在長期的實踐中可以發現,社交網路和社交媒體中的發博者有著相對穩定的特徵,在業務場景下簡單有效。使用者資料包括使用者靜態資料和使用者行為資料,通過挖掘使用者性別、年齡、地域、註冊時間、賬號型別、是否橙V等靜態特徵構建使用者靜態畫像,通過分析使用者在業務產品中的特定行為來構建使用者行為畫像,例如使用者一級興趣標籤、使用者實時興趣標籤等。

以上所述的內容資料和使用者資料就是業界常說的特徵,通過與模型的結合,能為微博Feed資訊流、熱門微博等場景帶來顯著的效果提升。在這其中,人工智慧技術的部署應用,也為微博的整體技術架構帶來了深刻的變化。

人工智慧技術的引入,讓微博的離線系統、實時系統、線上系統融合得更加緊密。線上系統的業務資料化為機器學習提供了最基礎的業務樣本資料;離線系統的模型訓練充分利用了分散式計算能力,加強了對大資料的處理和理解;離線訓練出的模型載入到線上系統並應用於業務系統中,能夠為業務發揮作用;同時,實時系統不僅可以提供實時特徵,而且還能提供機器學習線上訓練服務,有效保障了特徵和模型的時效性,從而良好保障了業務效果。以微博Feed資訊流為例,基於對內容資料的充分理解和對使用者畫像的精確刻畫,利用大規模機器學習模型排序能夠有效控制大量低質內容,深入挖掘出使用者感興趣的個性化內容,從而改善微博Feed資訊流的使用者體驗。

此外,微博特別設立的機器學習實驗室也在深入研究人工智慧技術潛在的應用價值。“追蹤前沿技術,保持技術領先;落地微博業務,體現技術價值”,這是微博機器學習實驗室的初衷和使命,其主要的研究方案包括機器學習演算法、推薦演算法、自然語言理解、計算機視覺、語音識別、機器學習系統、分散式計算系統、高效能運算系統、大資料技術等。黃波提到,目前在大規模機器學習排序演算法、深度學習排序、深度學習推薦、文字處理、圖片識別、機器學習平臺、深度學習平臺等方面都已經取得了不錯的進展,特別是微博大規模機器學習排序演算法在微博Feed資訊流、熱門微博中的應用和全量上線,取得了顯著的效果。

返璞歸真,技術落地創造實踐價值

時下的社交媒體大趨勢,都在致力於通過大資料、人工智慧來更全面地瞭解使用者畫像、更深刻地理解內容、更細緻地結合業務場景,從而提高資訊分發效率,為使用者提供更好的內容消費體驗。

微博實踐表明,人工智慧技術能夠更好地促進產品和業務的發展。在微博,大資料、人工智慧等新興技術廣泛地應用到微博Feed資訊流、熱門微博、Push訊息推送、圖片推薦、反垃圾等業務中,並取得了不俗的效果。產品和業務目標的理解是基礎,在目標理解的基礎上再將產品場景、業務目標、使用者行為、內容資料等資料化。資料化之後,技術人員利用大資料策略、機器學習模型等方法擬合或逼近業務資料目標,這個過程通常需要藉助大規模分散式計算和高效能運算來迭代逼近。同時也要求儘可能早地將這些策略或模型灰度上線到線上系統中,便於收集灰度測試資料,對比評估業務線上效果。資料化是指產品全流程的資料化,包括機器學習模型上線灰度對比的資料,用資料來說明效果。

在本次雲棲大會上,黃波將分享微博機器學習平臺、深度學習平臺的架構和實踐,介紹其在微博資訊流產品中的實戰解讀,同時介紹平臺搭建中的經驗教訓,向業界分享微博在機器學習和深度學習方面的最新進展。同時,黃波也希望可以藉助這次機會和業界深入交流,獲得更多業界經驗來完善內部系統及平臺,更好地為微博業務服務。(購票請戳這裡!