【資料應用案例】基於影象搜尋引擎的圖文無關識別方法
阿新 • • 發佈:2019-01-02
案例來源:@位元組跳動技術團隊
0. 背景:知乎、悟空問答中,使用者的回答配上美女、風景圖,能大大提高點選率和點贊率,這樣對正常回答的內容不公平,影響排序質量。需要找到一種方法,識別圖文不符的內容,降低其排序權重。
1. 傳統方法:
1)色情圖片識別
2)OCR技術:從圖片中識別文字,並與內容正文計算相似度
3)影象分類:通過影象分類技術,得到影象的分類,然後與文章所在類別進行比較。缺點是現有影象分類的體系和網際網路內容的分類體系不一致(典型的影象分類標籤包括:猴子、貓、人物等;而文字內容的分類標籤的例子包括:歷史、財經、股票、網際網路等),導致效果很差
2. 基於影象搜尋引擎的圖文無關識別方法-思路:
1)給定圖片G和文字W,將G上傳到影象搜尋引擎進行檢索
2)提取前K個來源的title
3)將title分詞,合併得到圖片的描述M
4)計算M和W的相關性,得到一個打分S
5)如果打分S低於一個閾值,則認為圖文無關
3. 基於影象搜尋引擎的圖文無關識別方法-相似度計算:
1)標註一批圖文內容(圖文相符/圖文不符):具有高分享量的回答,以及高評級作者寫的回答,配圖都比較相關;選擇這一部分回答並去掉首尾兩張圖作為正樣本;這些圖隨機匹配一個回答作為負樣本
2)以GBDT作為分類器,訓練分類模型。根據模型的輸出值作為相似度打分
3)特徵工程如下:
a. 命中關鍵詞個數
b. 關鍵詞中名詞個數
c. IDF
e. 同義詞命中個數
f. 其它