「AI 合成主播」再度升級,新華社聯合搜狗進行AI時代的媒體轉型
北京時間 2 月 19 日,在新華通訊社,搜狗公司與新華社新媒體中心聯合釋出了全球首個「站立式 AI 合成主播」,並進行了戰略合作簽約。
這距離在第五次網際網路大會上首次釋出「AI 合成主播」不過三月有餘。短短的時間裡完成技術升級並將合作上升至戰略層面,可以看出作為 AI 技術強者的搜狗與作為國內最重要媒體的新華社在「人工智慧時代對媒體轉型」的理念上具有高度共識。
升 級
所謂「AI 合成主播」,從受眾的角度來看與新聞主播無異,但其背後卻是由 AI 技術驅動,一旦有了新聞素材則完全不需要人類參與即可完成整個新聞播報任務。從技術角度來看,「AI 合成主播」是一種對文字、語音、影象的多模態融合的框架(搜狗將之稱為「搜狗分身」技術),通過提取真人主播新聞播報視訊中的聲音、脣形、表情、動作等特徵,運用語音、脣形、表情、動作的合成以及深度學習等技術聯合建模訓練而成。這項技術能夠將所輸入的中、英文文字自動生成相應內容的視訊,並確保視訊中音訊和表情、脣動保持自然一致,展現與真人主播無異的資訊傳達效果。
這一技術的出現,一方面大大減輕了新聞主播的工作量,降低了新聞播報的成本;另一方面也使得新聞播報更加快速,更加具有時效性。
據搜狗 CEO 王小川介紹,自第五屆網際網路大會上首個 AI 合成主播發布以來,首批入職新華社的一中一英兩位 AI 合成主播(以新華社邱浩和張濤兩位主播為原型)在三個月內已生產了 3400 餘條新聞報道,累計時長達 10000 多分鐘,參與了包括第五屆世界網際網路大會、首屆進博會、2019 春運、春節等若干重要事件的報道。邱浩和張濤兩位主播的工作重心發生了顯著的變化。
升級前AI合成主播
但不得不承認,即使搜狗在語音處理和脣語識別等領域具有較為先進的技術優勢,AI 合成主播(或者「搜狗分身」)的技術仍有待改進。這主要表現在兩個方面,一是高逼真度,二是低成本個性化定製。前者是針對使用者體驗來講的,從新華客戶端的播報內容來看,AI 合成主播在報道中的語音仍然較為僵板,面部表情及口型會經常出現對不上語音內容的情況。後者則是針對作為技術生產方的搜狗來講,如何快速且僅需使用者少量真實資料來生成一個穩定、高精度的 AI 模型,對搜狗在未來的商業拓展至關重要。
針對以上兩點,本次升級的內容主要體現在三個方面:
第一,語音合成方面,新版的 AI 合成主播採用了最新的 waveRNN 波形建模技術,讓語音合成效果更加逼真,更具有真實情感和表現力。
升級後AI合成主播「新小浩」
第二,視訊影象上,新版的 AI 合成主播形象有較大變化。一方面技術提升,實現了更加逼真的表情生成和嘴脣動作預測能力,另一方面加入肢體動作合成技術,讓主播從過去的「坐著播新聞」升級成結合肢體動作的「站立式播報」。
第三,成本方面,大大降低了 AI 合成主播的定製週期,並提升了合成效果和穩定性,僅靠少量使用者真實音視訊資料,即可快速定製出高逼真度的分身模型。這意味著媒體可以更快速、方便地藉助 AI 技術在融媒體轉型、新聞時效性、跨語種傳播能力等領域進行升級。例如本次除升級原有的 AI 合成主播(以新華社主播邱浩為原型,取名「新小浩」)外,同時還發布了全球首個 AI 合成女主播(以新華社主播曲萌為原型,取名為「新小萌」)。
首個AI合成女主播「新小萌」
據王小川介紹,升級後的 AI 合成主播將投入到 2019 年新華社全國兩會的報道籌備中,並將在搜狗搜尋、輸入法等資訊平臺上與使用者見面。
戰略合作
「搜狗分身」技術在具體場景中的不斷改進對搜狗來講具有重要的意義。
據「智東西」對搜狗語音互動技術中心總經理王硯峰的採訪,新華社的 AI 合成主播是「搜狗分身」技術的第一個落地場景。我們完全可以想象,這項技術除了在新聞播報領域的應用外還有更廣泛的應用空間可以探索。例如線上教育場景中,「搜狗分身」技術可以快速生成「AI 合成教師」,以提升教育行業的效率,同時增強與使用者的互動性。此外,線上醫療、虛擬助手、線上法律服務等等都是很好的落地場景,而在這些場景中「分身合成」的市場還幾乎一片空白。搜狗作為這一多模態融合技術的領先者,快速提升「分身」逼真度並降低合成成本,將決定其能否開拓並佔領這一處女市場。
搜狗與新華社將「AI 合成主播」這一產品合作提升到戰略合作層次,將場景合作機制固定化,顯然將有助於搜狗在實踐中提升自身技術的發展。
而另一方面,在人工智慧時代進行智慧化轉型的新華社一直以來也在積極擁抱技術變革。
三年前,也是在 2 月 19 日,習近平總書記視察了新華社,並對媒體在新時代的發展做出了重要的部署。他指出,要利用資訊革命成果,推動媒體融合向縱深發展,做大自強主流輿論;要探索如何將人工智慧運用到新聞採集、生產、分發、接收、反饋中,全面提升輿論引導力。自此以後,新華社先後與多家 AI 企業合作推出新聞撰稿機器人「快筆小新」、「現場雲與媒體大腦」智慧生產平臺等,大大改變了媒體內容生產、報道和傳播的方式。
據中國新華新聞電視網(CNC)董事長、總裁姜巖介紹,「自首個 AI 合成主播問世以來,CNC 每天用其製作幾十條中、英文視訊稿件,在多個埠播放,受到使用者和受眾的廣泛的關注。在這方面我們超過了 BBC 和 CNN,走到了前面。我們認為人工智慧是我們彎道超車、換道超車的重要法寶。……對於我們而言,既然未來已來,我們就絕不能走『先汙染後治理』的老路,因此把握當下、規劃未來,使人工智慧媒體應用趨利避害至關重要。特別是現在就要考慮如何認識和加強在人工智慧媒體應用領域的領導作用,從一開始就牢牢把握主動權。」
「未來已來」,這個詞有著深刻的含義,它意味著對技術變革的深刻把握以及主動擁抱技術的理念。新華社與搜狗公司簽署戰略合作,雙方將各自的報道優勢、技術優勢和產品優勢融合,當屬智慧時代傳統行業與技術企業「強強聯合以求共贏」的典型案例。
參考: