AI 是短視訊平臺的核心能力,快手其實是一家人工智慧公司
AI 如何賦能短視訊平臺?
這是快手科技 AI 技術副總裁鄭文在極客公園「創新之火」活動上的演講主題。從純粹用於製作、分享 GIF 圖的工具性應用,到如今成為日活躍使用者量過億,使用者日均使用時長超一小時的新型短視訊社群,這是快手七年走過的創業路。
七年,快手使用者累計釋出短視訊超過 70 億條,從搞笑、幽默,遊戲、娛樂,到各地風土、民情,內容各異。對於快手,不少人認為它只是一家短視訊公司,短視訊平臺跟 AI 技術的關係並不大。
但是,如何將每位使用者的注意力高效分配給海量豐富的短視訊,而非集中在少數爆款之上,光靠人工運營的方法是不可行的,這必須通過人工智慧技術來實現。
AI 技術讓記錄生活更有趣

面對每日數以千萬的新增視訊,該如何將其精準匹配到使用者眼前?快手 CEO 宿華曾形容,這是快手員工需要面對的前所未有的難題。為此,快手提出了一整套基於 AI 技術的解決方案,貫穿視訊生產、內容理解,使用者理解,系統分發等使用快手的每個環節。在極客僱主交流會現場,快手科技 AI 技術副總裁鄭文說,AI 是快手連線內容生產與消費兩個埠的核心能力。
快手上線了一批爆款特效,像是叫做快手時光機的「變老」表情,可以在十幾秒鐘中,讓視訊中人物的容顏變成 60 年之後、還有可以實時進行肢體識別的舞蹈遊戲、AR 換臉等等。這些玩法背後是快手對前沿 AI 技術的開發,涉及人體姿態估計、手勢識別、背景分割等多個技術模組。這是在內容生產領域,快手努力將記錄形式變得更加有趣的新嘗試。
使用者通過快手 app 拍攝、上傳了一段短視訊後,後臺機器會提取其內含的基本資訊,諸如視訊中人臉的性別、表情、顏值等,嘗試理解視訊內容。機器還會依照場景識別、物體跟蹤、影象質量評估等維度,對影象進行分類。語音識別,也是機器理解視訊的重要方面。機器會把語音轉化成文字,通過文字理解視訊表達的含義。快手多媒體內容理解(Multi-Media Understanding)部門利用 AI 技術通過感知和推理兩個階段來解讀一個視訊,首先感知獲取視訊的客觀內容資訊,進而推理獲取視訊的高層語義資訊。
像人把學到的知識存到大腦一樣,我們把快手的內容整理並存儲到快手知識圖譜中,這樣融合感知內容和知識圖譜,就可以完成對視訊高層語義及情感的識別。
促使機器理解使用者本身同樣不可或缺。使用者年齡、性別、是否使用 WiFi 等註冊的基本資訊,使用者在使用快手時產生的大量行為資料,都將傳輸到一個深度學習的模型中用於機器訓練,從而得到一組綜合性的使用者資訊,以預測使用者的喜好,個體使用者之間的關聯。
快手如何破除「資訊繭房」?
讓記錄形式更有趣,讓機器理解視訊內容、深度洞悉使用者,這是快手利用 AI 技術賦能短視訊平臺的試探。
快手科技 AI 技術副總裁鄭文說,作為前沿技術,人工智慧在研發、執行過程中還沒有一個非常成行的流程。根據自身發展情況,快手以問題為導向開展 AI 專案,首先明確需求,接著針對需求進行預研、收集資料、訓練模型,之後才是相應的功能開發與產品化。
人工智慧與演算法推薦曾引發一些爭議,大眾普遍認為,智慧演算法根據使用者興趣推薦內容,久而久之,使用者便會被自己關心的事物圍繞,失去對外部世界的整體認知,形成「資訊繭房」。對此,鄭文舉例快手的推薦機制作答:快手的推薦給使用者的內容,絕非僅僅使用者最感興趣的部分,而是會考慮到內容的多樣性,在更廣闊的領域發現感興趣的內容。
鄭文舉例說,比如在社群中,會有一些跟你比較相似但不完全一樣的使用者,那麼他們喜歡的內容,你也有可能會感興趣,這樣就不是使用者自己一個人去探索,而是成千上萬相似但不同的人在一起探索。基於這個邏輯的分發系統,也可以真正顧及到長尾視訊,讓更多的人被看見。
作為記錄載體,短視訊形態本身具備普惠性。它極大降低了資訊交流門檻,通過技術賦能,讓人們可以公平、有趣地記錄與分享生活。在極客僱主的交流會現場,鄭文說,記錄生活能夠提高人們的幸福感,在快手,人們可以看到更豐富的世界,而他們自己也能夠被世界看見。
今年四月,快手還與清華聯合成立了未來媒體資料研究院。該院以清華軟體學院與快手的技術難題攻關為基礎,聯合新聞學院、社會學系等開展社會人文領域研究,涉及計算機圖形學、影象處理、大資料和人工智慧等領域,以合作開放的姿態,探索技術賦能短視訊的更多可能。