1. 程式人生 > >三十三期百度技術沙龍筆記整理

三十三期百度技術沙龍筆記整理

net structure 更新 缺失 dag 存在 文本分析 infoq 科學

此次技術沙龍是由百度的高級架構師陳天健和豆瓣首席科學家王守崑為主講,大主題是推薦系統。

陳天健的主要話題是百度推薦引擎計算平臺架構中的流式計算架構。中間有一種因為幾個短信有點錯過,等視頻出來再聽一遍,這個筆記基本沒啥整理,主要是個備檔,感興趣的同學可以直接去InfoQ看視頻。下面把記的筆記抄上來:

NLP---當前分析熱點;

傳統架構以Hadoop為主,流式計算加速數據處理;

QueueWorker;

流式計算系統,拓撲S4、DAG;

多樣索引

及時計算獲得用戶訪問成倍增長。

整個工程引擎化----這部分需要重聽

推薦系統的很多東西需要驗證改進

百度的推薦引擎計算平臺可能會公開服務

下面是豆瓣首席科學家王守崑的部分,他的主要是圍繞算法本身的選擇。

算法復雜度選擇

增量更新

算法根據用戶群、產品、計算框架改變

早期用戶群和大眾用戶群有所區別

豆瓣的推薦存在一個item飽和期-----這個只是我現場想到的,非演講內容。

缺失值數據也有其作用

矩陣分解和生成模型

文本分析:生成模型、隱馬模型、高斯混合模型、貝葉斯模型那個、LDA、RBM。

條目增長趨於穩定

長期指標的改進靠人

從傳統媒體信息經濟走向現代App體驗經濟

信息逐漸私有和封閉,要麽是平臺,要麽是平臺的一部分。

三十三期百度技術沙龍筆記整理