從零搭建推薦體系:用戶體系、項目體系和推薦體系(中)

分類:設計 時間:2016-10-08

本文闡述整個推薦體系從0搭建的全流程,也是最近以來一直深入研究的成果展現,因原文太長,故此切分成3部分發送,每天發送1篇,全文結構為:上篇:第零章概述,第一章標簽體系搭建;中篇:第三章用戶體系,第四章項目體系,下篇:第五章推薦體系,第六章評估體系,第七章全文總結,第八章參考資料。

內容相對全而深入,希望有推薦體系搭建意愿的平臺或者產品經理,能夠給予一定的幫助就好。另,求工作。

2.用戶體系

2.1 搭建流程

首先應該先確定用戶動機,因為從用戶的根本動機,我們才好做相應的推薦處理。

那么我們應該如何獲取用戶動機?只有一種方法,就是通過用戶行為。所以我們應該優先建立用戶行為體系,依據用戶行為,分析用戶動機;不管是主動動機還是被動動機,之后提取這些動機特征,結合用戶物理屬性,再進行后處理。再有要將特征值加以過濾,分配權重,結合衰減因子進行最終輸出。最終輸出的結果應該分為基本屬性、用戶興趣、用戶關系及用戶行為,結合所有綜合分析用戶動機,在適時的時候推薦合適的內容從而形成推薦最佳化的最終目的,讓用戶最小成本的獲取信息。

所以在分析的時候,依據用戶動機分析,推斷我們應該注意的哪些環節點的哪些事情。

2.2 動機經典理論

在建立行為體系之前,一定要介紹動機和行為的關系。而又不得不介紹行為科學界一直以來的一個經典理論:“使用與滿足”理論,該理論是1974年Emiddot;卡茨在其著作《個人對大眾傳播的使用》中被首先提出。

使用與滿足理論是站在受眾的立場上,通過分析受眾對媒介的使用動機和獲得需求滿足來考察大眾傳播給人類帶來的心理和行為上的效用。但同傳統的訊息如何作用受眾的思路不同:它強調受眾的作用,突出受眾的地位。該理論認為受眾通過對媒介的積極使用,從而制約著媒介傳播的過程,并指出使用媒介完全基于個人的需求和愿望。

Emiddot;卡茨將媒介接觸行為概括為一個“社會因素 心理因素→媒介期待→媒介接觸→需求滿足”的因果連鎖過程,提出了“使用與滿足”過程的基本模式。經后人的補充和發展,綜合提出“使用與滿足”的過程:

  1. 人們接觸使用傳媒的目的都是為了滿足自己的需要這種需求和社會因素、個人的心理因素有關。
  2. 人們接觸和使用傳媒的兩個條件:接觸媒介的可能性;媒介印象即受眾對媒介滿足需求的評價,這種媒介印象或成為評價是在過去媒介接觸使用經驗基礎上形成的。
  3. 受眾選擇特定的媒介和內容并開始使用。
  4. 接觸使用后的結果有兩種:一種是滿足需求,一種是未滿足。
  5. 無論滿足與否,都將影響到以后的媒介選擇使用行為,人們根據滿足結果來修正既有的媒介印象,不同程度上改變著對媒介的期待。

總結了使用與滿足理論的要素,包括:

  1. 受眾是主動的,對于大眾媒介的使用是有目標的。
  2. 受眾需要的滿足和對媒介的選擇間的聯系中,受眾擁有主動權。
  3. 媒介相互競爭以滿足受眾需要。

所以最終映射到網絡,不難分析出用戶使用網絡一般是是為了:(1)人際交往;(2)打發時間;(3)搜尋信息;(4)方便快速;(5)信息分享;(6)自我表達;(7)娛樂放松。

社會心理學的理性行為理論和建立在該理論基礎上的技術接受模型(Technology Acceptance Model,簡稱TAM)最早探究了哪些因素對人們有意識的行為產生影響。1989年,Davis在理性行為理論的基礎上,針對技術接受和使用行為提出了技術接受模型:

TAM認為系統使用行為是由行為意向決定的,而行為意向由想用的態度和感知的有用性共同決定,想用的態度由感知的有用性和感知易用性共同決定,感知的有用性是由感知的易用性和外部變量共同決定,感知的易用性由外部變量決定的。

外部變量包括系統設計特征、用戶特征(包括感知形式和其他個性特征)等,為技術接受模型中存在的內部信念、態度、意向和不同的個人之間的差異、環境約束、可控制的干擾因素之間建立起一種聯系。

2.3 今日頭條動機分析

理論介紹完畢,也應該從理論切入分析當前最厲害的內容推薦平臺,也就是不得不提的今日頭條了。那么從有限的研究論述當中,可以從已經成功的產品中獲取到用戶使用頭條產品的相關動機大致是什么,以指導我們日后的產品方向。

頭條相關的研究論文里的方法,也注明與附錄3中,以供查看,下面將直接節選結論部分,以供參考。

今日頭條流行的主要原因是抓住了受眾對個性化需求的心理。對用戶需求的研究結果表明,“個性化推薦”(60.79%)、“更新速度快”(60%)、“推送內容多(45.26%)是用戶最為強烈的三種動機。

個性化主要體現在三個方面:

  1. 頻道定制: 用戶可以訂閱自己感興趣的頻道(“今日頭條”提供了社會、娛樂、政治、熱點等48個頻道),同時提供位置信息享受本地化新聞服務(還包含同城活動信息),而且“今日頭條”也和微信一樣開辟了自媒體平臺,用戶可關注自己感興趣自媒體賬號。
  2. 個性化推薦: “今日頭條”若在新聞標題最左方標注一個藍色的“薦”字,則表示為是根據用戶興趣專門推薦的內容。“今日頭條”的信息分發完全基于智能推薦,用戶瀏覽、收藏、轉發、評論每一條新聞的行為都會被記錄,用戶的閱讀習慣、閱讀時間、閱讀位置也會被分析,兩者結合形成“用戶模型”。通過綁定社交媒體賬號和大數據挖掘,后續還會根據用戶使用產品的信息反饋(用戶在“今日頭條”上的“頂”、“踩”、“轉發”、“收藏”等行為),不斷進行算法的演進,用戶分析越精準,推薦內容越來越精確。
  3. 個性化體驗: 服務性功能如“離線閱讀”“同步收藏”“我的話題”“摘要模式”“閱讀模式”“字體設置”都可以根據自己需求定制,體現了良好的用戶體驗。

更新方法主要分為以下三種:

  1. 自動更新 :手動更新以及推送更新。自動更新一般幾分鐘到幾十分鐘不等;
  2. 手動更新 的設置是為了滿足用戶實時對信息的需求,每一次刷新都會有8-12 條不等的信息;
  3. 推送更新 是將信息發送到用戶手機通知上,一天大約 6-10條不等,主要為社會要聞。

并且頭條為了滿足碎片化閱讀的需求,在新聞類型方面,新聞主要以消息和圖片為主,鮮少特寫、通訊和深度報道等傳統意義上報紙的新聞體材,字數控制在1000字左右。

根據《今日頭條年度數據報告》,衡量讀者閱讀習慣的有兩個指標:第一個是平均停留時長,第二個是跳出率。1000字的文章跳出率是22.1%,平均停留時長是48.3秒。4000字的文章則剛好相反,跳出率高達65.8%,超過一半以上的人打開一篇文章發現太長后會選擇跳出。可見1000字以內的文章的傳播率會更高。

同時,頭條還加入視頻新聞;但并未像搜狐或是新浪客戶端那樣做成一個單獨的功能,而是將其嵌入頻道中。視頻內容長度在1分鐘以內,以減少流量的消耗,主要以輕松、搞笑的內容為主。

所以結合研究結論不難看出,頭條用戶的最大使用動機仍是精準的個性化推薦,也就是仍需要以精準的推薦為吸引用戶打開的核心來源。

2.4 分析模型

由上圖可知,我們應該依據已經成熟的用戶行為,推斷用戶的動機因子,再推斷至心里因素。實際來說是用戶其實已經是帶動機才打開APP,先依據有限的數據進行分析推薦,等有相關的行為之后,反推回去用戶的動機,根據用戶動機調整推薦內容,達到核心目的。

這么做的好處是什么呢?頭條類產品全都是依托于用戶行為,進行調整,但是用戶行為實際是不準確的。心情好與不好看的內容,操作的流程細節,很可能都不一樣;如果一味的只記錄行為,只會不準確偏離。 所以當我們記錄了用戶在任何情況之下的行為之后,反推回用戶動機,進一步推回用戶心里因素,依據心里結合喜好和行為,完成完美推薦。

前文理論中同樣表明,是社會因素與心里因素決定動機,所以 當行為習慣模型建立,社會因素已經量化的時候,只有心理因素是變量 ,那么我們也能分析出不同的心理因素,依據不同心理因素改變本次的推薦內容,我想應該會大大提升轉化率,并且可能是目前頭條產品所不具備的一個點。

結合常規的用戶畫像的相關屬性,我們可以看到如下圖(增加了購買):

所以兩者,也就可以合并成為兩條大的脈絡,一條是實際,一條是內心,而我們是要依據實際行為猜測內心。兩張圖結合,將會無比清晰的闡述用戶脈絡和之間的關系:

用戶的瀏覽行為反映了用戶的興趣,兩者之間的關系具有如下特點:

  1. 不同年齡、性別、職業的用戶偏好反映在用戶對商品的瀏覽行為上;
  2. 用戶偏好具有動態轉移性,將其反映在用戶興趣度上,即若用戶偏好發生轉移,則原來的興趣度值減少;
  3. 用戶對感興趣的商品會高頻度地點擊和瀏覽,假設用戶對某種/某類商品的瀏覽時間越長、頻率越高,顧客對該種/類商品越感興趣,反映用戶偏好的興趣度值也會隨之增加。

所以最終,我們會確定需要收集的量化數字,以代表行為的部分,反推分析,達到最終目標。

2.5 行為收集

一般情況下,動機拆分為媒介、社交和體驗需求,分別代表的可能原因有:

  1. 媒介需求一般有:更新速度快、推送內容多;
  2. 社交需求一般有:社交性強、互動性強;
  3. 體驗需求一般有:個性化推薦精準、智能搜索快速全面、操作方便、離線下載。

依據兩種形式,主動行為和被動行為進行分類,主動行為就是用戶主動自然操作,被動行為也就是APP人為增加攔截、問題、問卷等收集,所以整理一下我們通過不同動作需要收集的相關動作應該是,主動行為:

  1. 媒介:PUSH消息、打開時間;
  2. 社交:PUSH通知、分享、攢、回復、收藏、舉報、等級;
  3. 體驗:打開內容類型、內容載體、內容長度、歷史搜索行為、歷史打開偏好、間隔點擊時間、滑動內容位置、閱讀設置、下載緩存;
  4. 人口屬性:年齡、性別、地區、收入、簽名等;
  5. 周邊場景:地理位置、網絡環境、端、信號強度、耳機揚聲器、高度等;
  6. 被動行為:增加攔截、詢問興趣區域、反饋、小問題、問卷、times;、卸載等。

通過已經非常成熟的廣告領域,可以參考到某些重要的信息,仍是我們的獲取重要參考。例如用戶來源追蹤,以及跨域追蹤,所謂跨域追蹤是利用指的是比如你在百度上跳轉到新浪,同樣可以追蹤到。利用的手段一般是cookie和緩存,前者一般是自帶key,與用戶關系不大。

2.6 后處理

后處理一般有三個環節,過濾、權重、衰減因素。過濾一般指過濾提取的無效特征或干擾數據,權重一般根據不同的行為偏好等因素綜合考量后進行調整,衰減一般要考慮到用戶某個興趣會隨時間延長而降低,相關變量是用戶點擊頻率和瀏覽時長,依據相關變量進行調整遺忘因子系數。還有一點是利用自然范數梯度下降算法,來進行準確度的修正。從技術方面來說都已經相對成熟,也有成熟算法,不多做闡述。

2.7 模型輸出

所謂輸出,實際是可依據上方分析后建模完成的相關體現。其作用是輔助我們發現問題,定位并解決。我們要考慮到時效性、便捷性、準確性等問題。

從效果來看是數據,從特征來看是標簽。所以 數據的展現要求的是可視化,以及靈活性,并且要準確,最小時間間隔維度不能過大。 所以選定如:折線圖、漏斗圖、餅圖、柱形圖等常見格式,結合不同的區域位置和目的,實現最優展示方式選擇。最小時間間隔可以有實時報表或半點報表,每日會匯總報表進行輸出,設置相應閥值,波動過閥值后進行相應報警等機制處理。

那么 用戶標簽,其實就是行為標簽,依據行為進行計算貼合。 是根據標簽體系中的標簽建設,在標簽體系中所有標簽二維化平鋪,但是在用戶體系中貼合的具體標簽將有層級劃分。其實兩者不難發現是包含與被包含的關系,既整個標簽體系給用戶標簽體系提供“素材”,而用戶體系是直接拿來用,所以既然是使用者,就要有詳細的層級以及權重計算,這個是非常重要,這與我們的終極目標有關。

我們希望知道用戶被打上這個標簽的背后動機是什么,不同內容之間一定存在某種弱關聯,弱關聯的發現是通過內容標簽背后的二維化體系支撐;但是關聯側重和確定選擇,是通過用戶層級標簽來做到的,最終借此我們就可以相應的給一部分猜測,并給予驚喜推薦,完成超越用戶所想的目的。通過弱關聯,我們還可以完成用戶之間的相互推薦,或者用戶聚類等工作,建立用戶之間的關系網絡,為搭建社交氛圍做好鋪墊。

上面是通過用戶行為獲取的標簽,還有一部分是用戶物理屬性,也就是如性別、地區、客戶端、網絡環境等屬性,盡量收集全,并且每日收集,記錄維度以登陸時間為維度。最終行為標簽與物理標簽相結合,綜合展示于內容標簽及用戶標簽系統中。之后,需要根據用戶的標簽體系,通過算法分析用戶性格,性格會幫我們在之后的個性化產品中不去招惹用戶,讓每個用戶獲有滿足感。

至此, 應輸出的用戶標簽實際為四類,屬性、興趣、關系、行為 ,屬性包含物理屬性和性格屬性,以上四個維度,有助于我們全方位分析用戶,最終輸出的應是用戶動機的最大可能性猜測,猜測用戶這次想看什么類型的內容,結合內容體系,進行推薦。

2.8 小結總結

本節闡述的是整個用戶體系的搭建思路,包括之前的經典理論引用和搭建分析模型,最終到用戶分析和輸出展示形式,下面將闡述項目體系的搭建思路。

3.項目體系

項目體系分為許多種,有商品、用戶、內容、廣告等,本文僅以內容作為搭建思路敘述。

3.1 內容特征

內容向量通常存在維數大的問題,即使去掉低頻詞和高報詞等停用詞后,仍然會有數萬維的特征留下。為了提高機器學習的效率和精度,有必要降低文本向量的維數。特征選擇是內容降維的有效方法。

具體做法是構造一個評估函數對特征向量中的所有特征逐一評分,選取分值高于設定闌值的特征。常用的評估函數有:文檔頻數、詞頻函數、TIFDF、期望交叉摘、CHI、信息增益、互信息等。雖然實驗表明IG和CHI等基于信息熵的方法的可以取得較好的特征選擇效果,但是計算費用高,系統開銷大,使用起來浪費時間和資源。因此實際應用中,計算量較小、評估效果較好的TIFDF方法是非常可取的。

并且內容不僅是文字,仍會有圖片、視頻、語音等,對于這三者,因為維度完全不同,所以使用手段與方法也完全不同。

3.2 圖片特征

將二維平面降維手段仍是標簽,一般稱為圖片標注;標注方法可以簡單分為基于模型學習的方法和基于實例檢索的方法。

基于模型學習的方法具有較高的標注性能,但是模型訓練的計算復雜性較高,不具備實戰意義。基于實例檢索的方法將圖像標注問題看作圖像檢索問題,是基于數據驅動的模型方法。所以一般選擇后者,其中算法也是層出不窮;提升準確性和過濾垃圾標簽是共同目標,需要擇優選擇,方法和技術已經同樣有許多種,不多做贅述。

3.3 視頻特征

視頻為三維載體,又增加了時間性質;常規手段有:將視頻逐一降維成二維平面,也就是等分切割,轉化為圖片標注,即可。但是該方法成本巨大,在大量數據當中應用不現實。更加較為新興手段有視頻彈幕,彈幕是直接在視頻上用戶編輯的文字內容,類似字幕,將每時刻彈幕內容提取,直接把視頻變為標簽,按權重劃分刪除垃圾標簽即可,較為簡單高效。

3.4 音頻特征

常見音頻一般以脫口秀、音樂為主,其中標題提供的信息標簽權重會非常大,但仍是有限的。所以對于脫口秀,衍生出了語音識別技術:將語音轉化為文字信息進行標記。對于音樂,我們只能從其它手段進行補充。比如波形識別,一般音樂含有曲風、風格等屬性,利用音頻的波形識別技術可順利獲取相關標簽。

3.5 評論特征

評論雖然是文字類型,但是由于評論都不可能過長,所以問題就會出現語義不完全,嚴重的數據稀疏問題。這里非常像微博,微博只有140個字,相對較少。所以針對微博的這種情況,也有許多新技術來進行改進。例如:通過拓展微博文本的特征,通過分析微博數據中的某些現象或特性等手段來改善數據稀疏問題;所以充分借鑒在微博領域中的研究成果利用,結合實際使用。

3.6 垃圾標簽抵御

對于以上載體,不可避免的都會有垃圾標簽的出現,不管是主動還是被動,所謂主動是由于識別率或技術局限性等問題,導致的垃圾標簽的產生,對于被動更多的場景比如說是圖片的水印,視頻的廣告或是由于惡意攻擊、惡意添加等行為的產生,那么對于垃圾標簽同樣有許多手段進行相關抵御:

  1. 基于檢測的垃圾標簽抵御,通常分為兩個階段:首先,系統管理員可以手動標注垃圾標簽或其對應的惡意用戶,也可以由系統根據統計分析和機器學習的相關理論來自動識別出垃圾標簽或其對應的惡意用戶;然后,由系統做出響應,這種響應可以是在垃圾標簽上做出標識,也可以是直接刪除垃圾標簽并調整搜索結果或者限制惡意用戶的權限。
  2. 基于降級的抵御,是通過降低受垃圾標簽污染的資源在用戶搜索結果列表中排列的位置來實現對垃圾標簽的抵御.利用特定的算法將那些受垃圾標簽污染的資源排在結果列表中盡可能靠后的位置,這樣用戶就不會看到這些受污染資源。相關會有Coincidence—based模型、SpamClean模型、DSpam模型等對這種形式進行處理。
  3. 基于預防的垃圾標簽抵御,統計表明,很大一部分的垃圾標簽來自于僵尸網絡中被控制的主機或者可以標注標簽的自動化程序,這些主機或者程序可以根據攻擊者的需要來產生大量垃圾標簽,從而對社交網站中正常用戶的標簽服務構成威脅。所以該手段主要是通過對產生標簽的用戶的權限進行隱藏或者限制從而抑制垃圾標簽的出現,即確保每個標簽的產生都來自于自然人而不是僵尸網絡等.需要指出,目前基于預防的垃圾標簽抵御方法的效果尚無法通過量化指標來衡量,這主要是因為無法統計因采用了此類方法而預防成功的垃圾標簽的數量。

最終,標簽的抵御效果可以由如下兩個屬性進行評價:服務執行效率與服務可用性。

3.7 模型輸出

對于內容標簽,綜上有許多種方法,但是還有一條標簽線是載體標簽。所謂載體,純文字、純視頻、純圖片相冊、圖文、視頻文字、視頻圖片文字,主流常見的只有這三種。需要詳細的進行展示,例如文字以千字為一檔進行劃分,比如1000字以下、1001-2000字等,圖片以十張圖為一檔,視頻以一分鐘為一檔,可以輔助我們進行內容效果評估。并且進一步結合用戶實際場景,實際情況來進行推薦提供了又一維度。

所以最終輸出應為內容類型、內容載體、內容分類以及內容適配場景,最終計算內容的核心亮點,以供于貼合用戶群,結合用戶動機,實現用戶這次想看什么內容的需求供給,達到轉化率最大化的目的。

3.8 小結總結

本節闡述了對于內容標簽的搭建體系,針對不同的元素有不同的獲取方式,其中對于垃圾標簽的抵御也闡述相關手段和方法,最終的展現上仍要求可視化,對于了解某種內容的詳細受眾用戶群,是有極大好處的,下一節將會闡述推薦流程中的核心流程,推薦環節。

詳見明天的結尾。下篇,上篇回顧《深度丨從零搭建推薦體系(上)》。

附錄3 今日頭條心理動機研究

研究模型

“今日頭條”用戶的年齡,性別等人口統計特征和用戶媒介偏好,自變量為“今日頭條”用戶的使用動機,中介變量為“今日頭條”用戶的使用態度,因變量為“今日頭條”用戶的使用行為。本研究的主要研究方向是利用使用態度這個中介變量研究使用動機(需求)對使用行為的影響。

控制變量

控制變量主要包括性別、年齡、教育程度、職業等人口統計學特征。

自變量——動機(需求)

根據“使用與滿足”理論,用戶是被看作有特定“需求”的個人,而他們接觸媒介的活動被看作是基于某種特定的需求動機來“使用媒介”,最終使這些需求得到滿足的過程。而這種特定的需求的產生,主要有兩個方面:一個是社會因素,另一個是個人心理因素。本研究從個人因素和社會因素出發,兼顧“今日頭條”的用戶體驗(易用性、有用性)等方面,總結了用戶使用“今日頭條”的若干動機。本調查將用戶使用今日頭條的需求分為三個維度:媒介需求,社交需求,體驗需求。

中介變量

本研究以用戶對“今日頭條”的使用態度(滿意度)為中介變量。在理性行為理論和技術接受模型(TAM)中,中介變量包括兩個方面:使用態度和行為意向。使用態度包含個人對某種使用行為所持的正面或負面的看法;行為意向反映個人從事某項行為的意愿。但在社會心理學中,“態度”界定為個體對事物的反應方式,已經涵蓋了行為意向的層面,通常體現在個體的信念,感覺或者行為傾向中。可見,“態度”已經涵蓋了行為意向層面。所以本研究只以使用態度為中介變量,這里的“使用態度”是用戶根據對“今日頭條”的認知和使用經歷對“今日頭條”持有的正面或負面的看法。

因變量

因變量是“今日頭條”用戶的“使用行為”。這里的行為包括使用時長、使用頻率、使用時間等問題。

統計分析

通過以下統計方法進行描述和分析:

  1. 統計描述分析(Descriptive Statistics):統計各變量的頻數、比例、標準差和頻率,來描述被測用戶對“今日頭條”的使用情況、使用動機、態度和行為等。
  2. 信度分析(Reliability Analysis):驗證研究模型中的變量的信度分析,以衡量問卷的可靠性、一致性和穩定性。
  3. 相關分析(Correlation Analysis):用于分析兩個或兩組隨機變量的關系,可以檢測變量之間密切程度的一種統計方法。
  4. 交叉列表分析(Crosstabs):將兩個或兩個以上有一定聯系的變量及其變量值按照一定的順序交叉排列在一張統計表內,使各變量值成為不同變量的結點,從中分析變量之間的相關關系。
  5. 結論

整體來說用戶使用今日頭條動機為新聞推送的實時性,時效性,把握了當下的“短平快”的碎片化閱讀趨勢,信息類型以短消息、圖片、視頻為主。

從個人心理因素的角度來看,今日頭條流行的主要原因是抓住了受眾對個性化需求的心理。對用戶需求的研究結果表明,“個性化推薦”(60.79%)、“更新速度快”(60%)、“推送內容多(45.26%)是用戶最為強烈的三種動機。而“互動性強,評論轉發收藏活躍”“操作方便閱讀舒適”“離線下載,節省流量”占比較少,說明大部分用戶不傾向于同意這是他們使用“今日頭條”的動機。

這個結論也與“今日頭條”的“個性化新聞推薦”的宣傳理念和定位相符合。“今日頭條”與其他新聞客戶端相比,最大的優勢就是它能夠精確分析用戶的閱讀興趣,并針對用戶興趣和需求對內容做更精細的傳播,進行個性化推薦新聞。本研究結果也正說明,用戶是基于個性化、實時性等方面的需求而選擇“今日頭條”。

本研究對“今日頭條”用戶的使用態度進行了均值比較。用戶對“今日頭條”積極態度的認同度均值為 3.77。從數據中看,“今日頭條”的“更新速度快”“推送內容豐富”和“操作方便,閱讀舒適”三項特性是最被用戶所認可的。其中,“更新速度快”為全表最高均值項3.87 分,證明“今日頭條”注重新聞時效性,滿足了用戶第一時間看到新聞事件的需求。作為用戶使用動機最強烈“個性化推薦精準”的均值僅為 3.69,低于3.77 的水平分,可見用戶對“個性化推薦精準”的認同度不高。而此項也與動機的考察結果并不一致。

因為個性化推薦存在冷啟動的弊端,即新用戶剛開始沒有可以利用的行為信息,無法了解用戶的特點和需求,很難給出精確的推薦。所以不排除是用戶在使用初期個性化推薦并不精準,但隨著使用時間增加,系統有了用戶的行為數據,個性化推薦會越來越精準的假設。

為了驗證這個假設,本研究設計了使用態度與使用時間的交叉分析,探究是否隨著使用時間的增加,對個性化推薦的滿意度會有所提高。根據實驗數據,使用今日頭條一周以內的用戶,對“個性化推薦精確”的滿意度均值為3.64,使用三到六個月的用戶滿意度均值為3.73,而使用一年以上的用戶滿意度均值為 3.87,滿意度均值隨著使用時間的增長而整體呈上升趨勢。可見,使用時間越長,用戶對“個性化推薦精準”的滿意度越高。而且不只是“個性化推薦精準”這一項,“智能搜索快速全面”“操作方便,閱讀舒適”兩項都存在隨著使用時間的增長,用戶滿意度增長的現象, 用戶對“今日頭條”消極態度的認同度為3.21。其中,“推廣、廣告太多”“標題黨現象嚴重”“推送內容同質化嚴重,信息渠道變窄”三項是最被用戶所認同的。用戶最不認同的三項分別是“圖片過于血腥”“吐槽言辭過于激烈”“欄目劃分缺乏個性”都低于 3.21的平均水平。可見,“今日頭條”在監管黃色、暴力、血腥新聞方面卓有成效。

其中“推廣、廣告太多”為全表最高均值3.47,可見用戶對“今日頭條”的“推廣、廣告太多”感受頗為明顯。根據筆者親身試驗,在“今日頭條”的信息流中每六七條新聞中會參雜一條廣告,感受還是比較強烈的。

同樣,本研究也將消極態度與使用時間做了交叉分析。分析得出對“推廣、廣告太多”的認同度均值均隨著使用時間的增長而整體呈下降趨勢。可見,使用時間越長,越不覺得推廣、廣告太多。不排除是個性化推薦了解用戶所需,調整了廣告數量。不只是“推廣、廣告太多”這一項,其余“標題黨現象嚴重”

“推送內容同質化嚴重,信息渠道變窄”“欄目劃分缺乏個性”“吐槽言辭過于激烈”“訂閱內容更新不及時”“圖片過于血腥”都存在隨著使用時間的增長,用戶的認同度整體下降的趨勢。

附錄4推薦系統中的常用方法

  1. 基于內容推薦

基于內容的推薦是信息過濾技術的延續與發展,它是建立在項目的內容信息上作出推薦的,而不需要依據用戶對項目的評價意見,更多地需要用機 器學習的方法從關于內容的特征描述的事例中得到用戶的興趣資料。在基于內容的推薦系統中,項目或對象是通過相關的特征的屬性來定義,系統基于用戶評價對象 的特征,學習用戶的興趣,考察用戶資料與待預測項目的相匹配程度。用戶的資料模型取決于所用學習方法,常用的有決策樹、神經網絡和基于向量的表示方法等。 基于內容的用戶資料是需要有用戶的歷史數據,用戶資料模型可能隨著用戶的偏好改變而發生變化。

基于內容推薦方法的優點是:

  • 不需要其它用戶的數據,沒有冷開始問題和稀疏問題。
  • 能為具有特殊興趣愛好的用戶進行推薦。
  • 能推薦新的或不是很流行的項目,沒有新項目問題。
  • 通過列出推薦項目的內容特征,可以解釋為什么推薦那些項目。
  • 已有比較好的技術,如關于分類學習方面的技術已相當成熟。

缺點是要求內容能容易抽取成有意義的特征,要求特征內容有良好的結構性,并且用戶的口味必須能夠用內容特征形式來表達,不能顯式地得到其它用戶的判斷情況。

  1. 協同過濾推薦

協同過濾推薦技術是推薦系統中應用最早和最為成功的技術之一。它一般采用最近鄰技術,利用用戶的歷史喜好信息計算用戶之間的距離,然后 利用目標用戶的最近鄰居用戶對商品評價的加權評價值來預測目標用戶對特定商品的喜好程度,系統從而根據這一喜好程度來對目標用戶進行推薦。協同過濾最大優 點是對推薦對象沒有特殊的要求,能處理非結構化的復雜對象,如音樂、電影。

協同過濾是基于這樣的假設:為一用戶找到他真正感興趣的內容的好方法是首先找到與此用戶有相似興趣的其他用戶,然后將他們感興趣的內容推薦給此用戶。其基本 思想非常易于理解,在日常生活中,我們往往會利用好朋友的推薦來進行一些選擇。協同過濾正是把這一思想運用到電子商務推薦系統中來,基于其他用戶對某一內 容的評價來向目標用戶進行推薦。

基于協同過濾的推薦系統可以說是從用戶的角度來進行相應推薦的,而且是自動的,即用戶獲得的推薦是系統從購買模式或瀏覽行為等隱式獲得的,不需要用戶努力地找到適合自己興趣的推薦信息,如填寫一些調查表格等。

和基于內容的過濾方法相比,協同過濾具有如下的優點:

  • 能夠過濾難以進行機器自動內容分析的信息,如藝術品,音樂等。
  • 共享其他人的經驗,避免了內容分析的不完全和不精確,并且能夠基于一些復雜的,難以表述的概念(如信息質量、個人品味)進行過濾。
  • 有推薦新信息的能力。可以發現內容上完全不相似的信息,用戶對推薦信息的內容事先是預料不到的。這也是協同過濾和基于內容的過濾一個較大的差別,基于內容的過濾推薦很多都是用戶本來就熟悉的內容,而協同過濾可以發現用戶潛在的但自己尚未發現的興趣偏好。
  • 能夠有效的使用其他相似用戶的反饋信息,較少用戶的反饋量,加快個性化學習的速度。

雖然協同過濾作為一種典型的推薦技術有其相當的應用,但協同過濾仍有許多的問題需要解決。最典型的問題有稀疏問題和可擴展問題。

  1. 基于關聯規則推薦

基于關聯規則的推薦是以關聯規則為基礎,把已購商品作為規則頭,規則體為推薦對象。關聯規則挖掘可以發現不同商品在銷售過程中的相關性,在零 售業中已經得到了成功的應用。管理規則就是在一個交易數據庫中統計購買了商品集X的交易中有多大比例的交易同時購買了商品集Y,其直觀的意義就是用戶在購 買某些商品的時候有多大傾向去購買另外一些商品。比如購買牛奶的同時很多人會同時購買面包。

算法的第一步關聯規則的發現最為關鍵且最耗時,是算法的瓶頸,但可以離線進行。其次,商品名稱的同義性問題也是關聯規則的一個難點。

  1. 基于效用推薦

基于效用的推薦是建立在對用戶使用項目的效用情況上計算的,其核心問題是怎么樣為每一個用戶去創建一個效用函數,因此,用戶資料模型很大 程度上是由系統所采用的效用函數決定的。基于效用推薦的好處是它能把非產品的屬性,如提供商的可靠性和產品的可得性等考慮到效用計算中。

  1. 基于知識推薦

基于知識的推薦在某種程度是可以看成是一種推理技術,它不是建立在用戶需要和偏好基礎上推薦的。基于知識的方法因 它們所用的功能知識不同而有明顯區別。效用知識是一種關于一個項目如何滿足某一特定用戶的知識,因此能解釋需要和推薦的關系,所以用戶資料可以是任何能支持推理的知識結構,它可以 是用戶已經規范化的查詢,也可以是一個更詳細的用戶需要的表示。

  1. 組合推薦

由于各種推薦方法都有優缺點,所以在實際中,組合推薦經常被采用。研究和應用最多的是內容推薦和協同過濾推薦的組合。最簡單的做法就是分別用基于內容的方法和協同過濾推薦方法 去產生一個推薦預測結果,然后用某方法組合其結果。盡管從理論上有很多種推薦組合方法,但在某一具體問題中并不見得都有效,組合推薦一個最重要原則就是通 過組合后要能避免或彌補各自推薦技術的弱點。

在組合方式上,有研究人員提出了七種組合思路:

  • 加權:加權多種推薦技術結果。
  • 變換:根據問題背景和實際情況或要求決定變換采用不同的推薦技術。
  • 混合:同時采用多種推薦技術給出多種推薦結果為用戶提供參考。
  • 特征組合:組合來自不同推薦數據源的特征被另一種推薦算法所采用。
  • 層疊:先用一種推薦技術產生一種粗糙的推薦結果,第二種推薦技術在此推薦結果的基礎上進一步作出更精確的推薦。
  • 特征擴充:一種技術產生附加的特征信息嵌入到另一種推薦技術的特征輸入中。
  • 元級別:用一種推薦方法產生的模型作為另一種推薦方法的輸入。

中篇,完。

作者:MysTic(微信號mystic326531548),3年產品經理工作經驗,需求、用研、數據有深入研究。尋坑,坐標北京。還在尋坑當中,都覺得我報價有點貴,可是我是真能干事兒啊,仁者見仁智者見智吧,坑找不到就繼續寫干貨和搞研究就好了,也無妨,有老板看到,希望多多聯系。

本文由 @MysTic 授權發布。版權歸作者所有,轉載此文請與作者聯系。

注:數據分析網遵循行業規范,任何轉載的稿件都會明確標注作者和來源,若標注有誤或遺漏,請聯系主編郵箱:[email protected]


Tags: 推薦系統

文章來源:http://www.afenxi.com/post/33427


ads
ads

相關文章
ads

相關文章

ad