1. 程式人生 > >人工智慧時代,如何做好內容稽核和流量反作弊?

人工智慧時代,如何做好內容稽核和流量反作弊?

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

【資料猿導讀】4月21日,由DataFun、資料猿聯合微軟加速器主辦的主題為“人工智慧時代:內容稽核與流量反作弊”活動在微軟亞太研發集團總部舉行。本期活動邀請了曾參與、負責360等多家公司內容開放平臺建設的資深演算法研發工程師劉路、愛奇藝流量反作弊專案負責人張曉明和數美科技聯合創始人&CTO樑堃從內容、流量等方面分享了人工智慧時代,平臺的內容稽核與流量反作弊是如何完成的。

記者 | 郭敏

官網 | www.datayuan.cn

微信公眾號ID | datayuancn

近日,短視訊APP成為眾矢之的。因相關短視訊內容涉未成年人低俗不良資訊,國家網信辦相繼約談了快手和今日頭條旗下火山小視訊相關負責人,提出嚴肅批評並責令全面整改。之後,微信、QQ也將在網際網路短視訊整治期間暫停短視訊APP外鏈直接播放功能,涉及的APP包括微視、快手、抖音、西瓜視訊等。

新媒體時代,使用者每天生產的內容都在爆發式增長,在這些新生產的內容裡通常存在著大量的不良內容,會使得使用者產生反感,甚至觸犯法律,這時就需要對這些新生產的內容進行稽核,而傳統的人工稽核方式已經跟不上爆發式增長的內容量,人工智慧時代,如何做好內容開放平臺建設成為業內人士關注的熱點。

4月21日,由DataFun、資料猿聯合微軟加速器主辦的主題為“人工智慧時代:內容稽核與流量反作弊”活動在微軟亞太研發集團總部舉行。本期活動邀請了曾參與、負責360等多家公司內容開放平臺建設的資深演算法研發工程師劉路、愛奇藝流量反作弊專案負責人張曉明和數美科技聯合創始人&CTO樑堃從內容、流量等方面分享了人工智慧時代,平臺的內容稽核與流量反作弊是如何完成的。

當下,內容開放平臺有三種類型:使用者生產內容、專業生產內容和職業生產內容。大眾點評、地圖屬於典型的使用者生產內容;豆瓣、知乎屬於典型的專業生產內容;微信公眾號、抖音屬於職業生產內容。內容開放平臺的強社交性、強隨機性和強運營性帶來的主要問題和矛盾為廣告主和消費者之間的矛盾,內容質量和內容之間的矛盾以及流量和質量之間的矛盾。

640?wx_fmt=jpeg

劉路 資深演算法研發工程師

劉路認為建設一個行之有效的信用體系是內容開放平臺解決這些矛盾的關鍵。一個常規的信用體系建設架構涉及到內容生產者和使用者。內容生產者提交了內容之後去做個人信用和內容稽核,稽核需要利用大資料風控和信用評級功能,如果稽核不通過內容生產者需要進行申訴,兩方面稽核均通過則可釋出內容,之後可進行AB測試和分級釋出,而內容釋出之後需要進行風險評估,從而判斷該內容是否需要召回,並設定相應的召回策略。

劉路特別指出,在內容方面需要設定層層關卡,低信用內容需要被內容信任監控,高信用內容則需設定內容被舉報監控,從而最大程度地清除內容開放平臺的不合規內容。

當下,視訊網站已經形成一條灰色產業鏈,一些視訊平臺預設刷量行為,廣告展現量中超過20%是虛假的。同時,刷量的流程已經高度程式化,業界缺乏合理的監管。而對於廣告主,流量造假與欺詐行為無異。如今,各大視訊網站發展十分迅速,如何在使用者量較大的情況下,做好流量反作弊?愛奇藝流量反作弊專案負責人張曉明分享了愛奇藝流量反作弊的“術”與“道”。

640?wx_fmt=jpeg

張曉明 愛奇藝流量反作弊專案負責人 研究員

在業界,對於流量反作弊並沒有統一的定義,在張曉明看來流量反作弊是製造非使用者產生或帶有一定目的性的資料,並且有機器作弊和人工作弊兩種形式。其中機器作弊包括模仿投遞日誌、呼叫介面,這種形式設定模式相對固定,短期效果明顯;人工作弊則包括微信群、QQ群以及由專人指導的專業APP,指導操作並與使用者分成,這種模式不固定,效果與組織規模有關。

利用這兩模式進行直播刷人氣、網站刷廣告、電視劇和商品刷流量,會使得正常使用者對產品的判定標準失衡、企業信譽受損、資料分析不準確和成本上升等多種傷害。

在張曉明看來,流量反作弊具有被動防守、事後分析,業務場景複雜、沒有通用模型,持續舊規則不斷更新新規則等特點,如何進行有效地流量反作弊?基於以往的業務經驗,張曉明表示,進行行之有效的流量反作弊需要做好前期的準備工作:掌握投遞日誌或者資料庫中的元資料含義,掌握主體業務的工作模式和場景,避免資訊孤島,瞭解作弊的目的是什麼以及與業務部門進行良好的溝通確認作弊的口徑並做好保密工作。準備工作完成之後,在技術方面進行IP信譽、安全畫像、加密資訊檢測和裝置硬體資訊檢測;在業務方面進行規則統計和機器學習。

隨著移動網際網路的發展,人們的衣、食、住、行各個方面都結合在了一起,這給黑色產業帶來了很大的盈利空間。在金融領域有借貸欺詐、盜卡交易、洗錢套現等模式;在電商行業有刷榜、促銷活動欺詐等形式;在遊戲方面有黑卡、掛機等現象;在社交方面有淫穢色情發帖、欺詐廣告等現象。

640?wx_fmt=jpeg

樑 堃  數美科技 聯合創始人&CTO

樑堃表示,面對這些欺詐行為企業採取了相應的措施,但多數企業缺乏全域性的風險資料支撐和專業的反欺詐人才團隊,隨著UGC內容的內在複雜性越來越高,黑產技術水平與專業程度的不斷提高,企業面臨的挑戰越來越多。

當天,基於以往的經驗樑堃分享了在內容反欺詐方面的一些經驗。他表示,UGC場景包括頭像、暱稱、發帖、彈幕、評論、個人描述、私信、群聊等,UGC帶來的問題:詐騙、廣告、色情、暴恐等文字、圖片、語音UGC內容。同一個內容在不同的場景下含義不同,單一的關鍵字黑名單或單一模型極易造成大量誤殺,影響使用者體驗,使用深度學習(RNN)、SVC善NLP技術針對語意理解的不同方面分別建立不同的模型,從多個緯度檢測語意環境。採用Char & Word Embedding自動識別數萬種敏感詞變體、微信/QQ/手機號等聯絡方式變體,採用基於CRF的序列標註自動識別並排除干擾。

如今,騙子們分工明確,形成了龐大的黑色產業鏈。隨著人工智慧時代的到來,通過大資料、機器學習等技術勢必將打擊黑產進行到底。(文/郭敏)

640?wx_fmt=jpeg

4月26日-4月27日,AI in China 之智慧製造-資料驅動產業變革-高峰論壇即將開始,期待我們的見面