1. 程式人生 > >互聯網廣告的個性化推薦平臺設計--相關知識

互聯網廣告的個性化推薦平臺設計--相關知識

傳播 收益 pla cluster 大數據集 公開信 ads 合法性 ril

人群分類模型

依據用戶人群數據記錄。建立人群屬性分類模型。根絕用戶特點。將用戶標記為特定類別。據此進行精準定向服務。並進行效果評估。主要分類方法:

1.採用模糊數學綜合判定理論,構建關系矩陣。判定類別屬性的映射關系。採樣真實數據,模擬真實數據分布。統計屬性取值的概率分布,作為概率的預計值,另外,將廣告類別的點擊次數作為權重矩陣R。構建映射關系公式:

R是關系矩陣。W是出現次數矩陣,C是計算結果的類別判定矩陣。

2. 採用分類器算法構建分類模型。依據數據特點。利用數據挖掘和機器學習

相關的分類器算法,如na?ve bayes,決策樹,uncertain data learning,clustering algorithm,SVM。CART,adaBoost等。結合數據的分布,建立綜合分類器,權衡各種分類器性能。建立綜合行的人群分類模型。

用戶標記人群類別後。測試合理性。進一步我們將人群分類模型不斷精細化。復雜化。結合雲平臺和大數據。使模型達到最佳的分類效果。從而,挖掘用戶興趣,以及行為習慣。據此。我們將為用戶提供個性化的定制服務。

未來。我們將嘗試和高校合作,進行機器學習,模式識別等方向上的探索和研究。爭取進一步深入挖掘大數據價值。



個性化推薦平臺

我們的目標是建立個性化推薦平臺,基於長尾理論(longtail),通過構建用戶的興趣模型,將有效信息從海量數據中提取出來。提供給用戶。滿足用戶的信息需求,推薦相關信息(包含活動信息,可能購買的物品推薦,廣告)。

眼下業界的推薦技術有非常多,主要有:

(1)contextad:google AdSense,依據用戶正在瀏覽的網頁內容,推薦與網頁內容相關ad

(2)searchad:Google AdWords和百度,分析用戶當前搜索記錄,推斷目的,推薦與目的相關ad

(3)personalizingdisplay ad:雅虎,依據用戶歷史行為,找出興趣。在用戶瀏覽某個站點時。展示興趣相關廣告。

(4)協同過濾:依據用戶的歷史行為。建立興趣模型。推薦相關性高的物品信息,分為基於物品,基於項集等等。如亞馬遜,hulu。neflix等公司使用

(5)社會化網絡模型推薦(如facebook,微博,人人發現興趣共性。建立興趣模型推薦信息)。

未來我們將嘗試在平臺上實現協同過濾的推薦方式。通過用戶行為數據構建興趣模型,並將推薦信息有效分類,實現推薦。

眼下,我們正在通過多種方式獲得大量網絡數據,將數據有效組織在一起。識別同一用戶,針對每個用戶建立唯一信息集。構建具有處理復雜大數據能力的DMP平臺,合理的存儲和使用大數據,為推薦系統提供後臺支持。

未來,我們將實現多種復合的推薦算法。採用綜合性的推薦方案。將平臺設計成為多渠道。多功能的復合型數據應用平臺。

推薦系統評估工作

推薦系統評估是一項專業度高。難度大的工作。經常使用的評分指標有RMSE(均方根誤差),MAE(平均絕對誤差)。但僅僅通過評分標準非常難估量系統優劣。眼下經常用法:

(1)評測指標:重要指標(沒有之中的一個)是預測精確度。

比方,推斷用戶買java書,推薦後發生購買行為。有直接結果反饋信息。方便通過離線計算出結果。但其衡量也不全面,比方樣例中,用戶可能早打算買java書。不管是否推薦,都將購買。而這個推薦行為沒有讓用戶買很多其它的書,僅是讓原來必將發生的行為在此刻發生,推薦結果對用戶不新穎,沒能添加潛在購買人數。所以這屬於失敗的推薦。

除了上述共同指標。不同領域有各自不同的評測指標。如廣告推薦系統通常使用ROI,CTR。CR等。現實,谷歌的免費轉換跟蹤工具能夠讓你看到哪些keyword和廣告的效果最好,時間和資源獲得了最高價值。

將廣告預算聚焦在高效的關鍵詞上。而我們應該將廣告預算聚焦在廣告內容上。

(2)用戶愜意度調查:上線測試,抽樣用戶保持用戶真實分布,在線收集用戶愜意度反饋。保持雙盲實驗,不讓運行人員和用戶知道測試目標。

這樣做的長處是反饋信息真實有效,直接反應用戶主觀感受。缺點是成本太高。無法組織大規模測試用戶,並且造成用戶負擔,減少用戶體驗,假設雇傭用戶完畢測試,代價會很大。

(3)劃分AB組,完畢對比實驗。推薦系統上線,切分流量。對老系統和新系統進行對比測試,直接比較性能。這樣做效果直接,但設計和實現過程復雜,造成人力成本投入太高,並且實驗多方面因素都要考慮到,試驗環境和條件比較復雜,比方用戶要選擇獨立具有可參照性的。但相互影響的因素是不可避免的。

(4)離線實驗:這是高校等研究機構的科研方法。採樣數據集模擬數據真實分布,作為訓練數據集。訓練模型後,利用十重交叉驗證模型性能。(缺點:缺少商業指標。CTR,TR計算不出,僅僅從理論上驗證,不能衡量真實的商業價值)。

總之。系統評估,要全面的衡量三方利益,比方推薦系統中。三個參與者各自是用戶、物品供應商、推薦系統的全部者)。要設法收集高質量反饋。添加用戶交互。從不用角度,不同指標如精確度,覆蓋度。信任度,支持率。透明度等等。

此外模型評估的標準方案為(KDD cup 2012評估方案)

–效果評估:提升CTR。轉化率TR。ROI –AUC評估:繪制ROC曲線,分析準確率 –MAE(Maximum Average Error)/MSE(Mean squared error)誤差預計

大數據工作

大數據發揮協同效應須要產業鏈各個環節的企業達成競爭與合作的平衡。

項目平臺的目的是讓大數據更好的發揮價值,將提供服務變為可能。

機遇與挑戰:

1.數據收集和提取的合法性。

數據採集要多渠道,多來源。但要具有合法性,不能暴露用戶隱私。

2.大數據要存儲成合理的組織結構,方便使用,才幹有效的發發揮大數據價值,實現服務功能。

這就是平臺中DMP的設計目標。

3.領域專家建模。針對大數據的挖掘,單純的數學和計算機背景是不夠的,還須要深入的領域背景知識,才幹構建合理模型。眼下,國內公司重數據,輕建模,非常多工作事實上不合理。更加毫無章法可循。而非常多研究機構缺少領域的業務知識,不能面向實際應用,建模缺乏目的性,應用性。

我們的工作:

1.數據收集。我們將利用自身的優勢,合法的收集各種信息。眼下。我們能夠利用各種產品收集的互聯網用戶行為信息。監測日誌的數據達到PB量級。而我們同一時候,將採用合作,主動爬取等方式。獲得其他站點的公開信息,如新浪微博,淘寶。騰訊,百度等。將數據整合成為統一形式。識別同一用戶信息,終於能夠建立全網的用戶行為信息,形成網絡綜合行為記錄信息。

2.DMP平臺的數據服務。針對獲取的大數據集,利用合理的組織結構存儲。利用雲平臺工具,如,hive,hbase,storm,spark。drill。impala等。以及相關數據處理工具,完畢ETL,OLAP等工作,管理數據完畢相關計算,使平臺能提供多樣化的數據服務。

3.大數據挖掘。數據分析的前提是數據分布,比方自然界廣泛存在的兩種數學分布:冪次法則分布和高斯分布。

非常多數據挖掘理論必需要求數據滿足一定的分布條件(如高斯或拉普拉斯分布),否則不能使用。而大數據復雜度高,難以預計出分布。所以我們將結合大數據的特點。進行數據挖掘的研究。

大數據特點有海量性(Volume)、多樣性(Variety)、高速性(Velocity)、價值化(Value)這4V特征。眼下挖掘工作方向分兩個:

(1)面向宏觀,從大量數據中通過數據分析方法找到整體規律與趨勢,一般用統計學知識構建相關計算模型,計算相關結果,得出綜合性的結論.

(2)面向微觀。從數據中分析出個別數據的特征規律,預測個別數據可能的行為規律。並指定決策。

大數據研究不僅須要良好的理論知識,還須要豐富的領域背景知識。我們將結合自身優勢研究和探索大數據的挖掘工作。

研究過程:

第一步、領域專家討論、預建模。
第二步、小範圍採集、分析
第三步、領域專家討論、修正模型
第四步、大範圍採集、分析
第五步、得出結果
第六步、驗證
第七步、應用

終於目標是讓大數據成為條件,而不再是負擔。挖掘大數據價值,進行全網信息資源整合,為互聯網客戶提供服務而不是廣告。

建立健康,有效的互聯網數據生態環境。

興趣模型和社會網絡分析

基於大數據收集和數據挖掘技術,我們將開展興趣模型的構建以及社會網絡分析相關工作。

通過收集的用戶大數據,採用理論和背景知識相結合,挖掘出用戶在互聯網上的行為信息。找到用戶的興趣特征,構建合理的用戶興趣模型。主要方法有TF/IDF,PCA。svm,傳統數據挖掘中分類器算法,如決策樹,貝葉斯,以及聚類算法,如k-means等。

終於,計算各項衡量指標。驗證興趣模型的可用性。從而。根據用戶的興趣,提供相關信息服務,方便用戶的生活。當然。也能夠實現定向廣告投放,根據用戶興趣模型,找出相關性最高的廣告,提高廣告CTR,實現價值最大化,經常用法有logistic回歸模型。泊松分布等等。

同一時候,基於眼下行業內已存在的社會網絡分析技術,我們將結合微博現有的社會網絡分析模型。同我們自身DMP內的大數據特點相結合,進行社會網絡分析,如輿情分析,競爭情報分析,人際傳播問題。小世界理論,六度空間切割理論,流動關系,相似關系,距離關系。等等。

通過社會網絡分析,更好的發現用戶之間的關聯性,用戶的網絡行為和興趣分布。甚至,發現信息在互聯網的傳播方式,通過何種途徑,達到何種規模。

從而能夠建立一個信息傳媒渠道。幫助商品做推廣。

RTB廣告系統設計

實時競價模型RTB(RealTime Bidding):依據展示位(SSP)的價格預計,實時發出展示請求。買方(DSP)實時競拍出價,兩方通過adexchange平臺交互完畢,終於由出價第二個高的用戶拍得,並展示廣告。售賣的不不過傳統意義上的廣告位,而是訪問這個廣告位的詳細用戶。依據依據訪問用戶的興趣愛好,甚至包含年齡大小,地域以及網上的瀏覽習慣,對什麽樣的產品感興趣,系統推薦相關度高的廣告,投其所好就能產生最大的收益。RTB強調精準投放,放大了網絡廣告的指向性和精準度。使需求方的效益最大化。

RTB最大突破莫過於讓廣告主購買“受眾”,廣告通過“競價”購買。比方某一個用戶可能是兩個廣告投放的目標人群,則二者必須出價競買,多人同一時候出價。則出價第二高的獲得展示機會。

以後廣告主將能夠作出下面的投放要求“25-34歲的婦女、生活在亞洲、對奢侈品時尚服裝抱有濃厚興趣、在過去2個月以前進行在線購買、現正關註2012的春/夏季商品”。

通過RTB投放廣告﹐廣告主不再須要考慮廣告渠道與位置,由於通過RTB你的廣告會精確的展示在你的目標客戶眼前。

眼下Google的AdWords已經接入RTB,還有百度,騰訊。阿裏等等。



互聯網廣告的個性化推薦平臺設計--相關知識