1. 程式人生 > >【資料應用案例】基於影象搜尋引擎的圖文無關識別方法

【資料應用案例】基於影象搜尋引擎的圖文無關識別方法

案例來源:@位元組跳動技術團隊

0. 背景:知乎、悟空問答中,使用者的回答配上美女、風景圖,能大大提高點選率和點贊率,這樣對正常回答的內容不公平,影響排序質量。需要找到一種方法,識別圖文不符的內容,降低其排序權重。

1. 傳統方法:

  1)色情圖片識別

  2)OCR技術:從圖片中識別文字,並與內容正文計算相似度

  3)影象分類:通過影象分類技術,得到影象的分類,然後與文章所在類別進行比較。缺點是現有影象分類的體系和網際網路內容的分類體系不一致(典型的影象分類標籤包括:猴子、貓、人物等;而文字內容的分類標籤的例子包括:歷史、財經、股票、網際網路等),導致效果很差

2. 基於影象搜尋引擎的圖文無關識別方法-思路:

  1)給定圖片G和文字W,將G上傳到影象搜尋引擎進行檢索

  2)提取前K個來源的title

  3)將title分詞,合併得到圖片的描述M

  4)計算M和W的相關性,得到一個打分S

  5)如果打分S低於一個閾值,則認為圖文無關

3. 基於影象搜尋引擎的圖文無關識別方法-相似度計算:

  1)標註一批圖文內容(圖文相符/圖文不符):具有高分享量的回答,以及高評級作者寫的回答,配圖都比較相關;選擇這一部分回答並去掉首尾兩張圖作為正樣本;這些圖隨機匹配一個回答作為負樣本

  2)以GBDT作為分類器,訓練分類模型。根據模型的輸出值作為相似度打分

  3)特徵工程如下:

    a. 命中關鍵詞個數

    b. 關鍵詞中名詞個數

    c. IDF

    e. 同義詞命中個數

    f. 其它