Facebook機器學習系統能實時審查海量圖片中的多國文字
後文本時代,網路使用者越來越多地使用影象和視訊交流,這為大型網際網路平臺的內容檢索內容推薦和內容稽核帶來巨大麻煩。對於像Facebook這樣每月活躍使用者超過20億的平臺,每天使用者都會發布海量圖片。為了提高照片檢索的正確率,同時確保以確保圖片中不包含仇恨言論和違反網站 ofollow,noindex" target="_blank">內容的政策 的內容,Facebook已經 建立 和部署了一個名為“ Rosetta ”的大型機器學習影象識別系統。
Facebook需要一個可以定期處理大量內容的光學字元識別系統(OCR),這也是Facebook“Rosetta”專案的初衷。如今Rosetta每天可以實時從多種語言中提取超過十億個影象和視訊幀的文字。
在一篇新的部落格文章中,Facebook介紹了Rosetta的工作原理(上圖):Rosetta首先檢測可能包含文字的影象中的矩形區域。然後使用卷積神經網路來識別和轉錄在該區域中寫的內容,甚至是非英語單詞或非拉丁字母的語言,例如阿拉伯語和印地語。為了訓練這個系統,Facebook使用了人機和機器註釋的公共影象。
Facebook和Instagram的各路團隊已經在使用Rosetta來展示推薦和監管海量內容。Facebook還計劃繼續增加Rosetta可以識別的語言種類,並加強從視訊幀中提取文字的功能。
最近,Facebook 增加 了24種新語言的自動翻譯服務,包括塞爾維亞,白俄羅斯,馬拉地語,僧伽羅語,泰盧固語,尼泊爾語,卡納達語,烏爾都語,旁遮普語,柬埔寨語,普什圖語,蒙,祖魯,科薩和索馬利亞。Facebook坦承這些語言的翻譯尚處於早期階段,因此仍然會有較多錯漏。