“AI主播”跨越擬真技術“恐怖谷”,或將帶來電視新聞事業的革命性變化
文|航通社
11月8日,新華社和搜狗在烏鎮峰會現場釋出的“AI主播”可以說是確確實實地在全世界範圍內引起了反響。
有些國內產品會找一些“不入流”的外文網站出稿,假裝獲得了“全球媒體”關注,但這次的“AI主播”不在此列。CNN、BBC、The Verge、CNET、南華早報等都在主要的版面給了這兩位“主播”一席之地。
這倒並不是因為新華社版“AI主播”在技術上有多先進,而是說,更多是因為一個國家級主流媒體運用虛擬主播技術,這項舉動本身具有強烈的象徵性意義。
就像之前曾經被沙特授予“公民權”的那位女性機器人“索菲亞”一樣,“她”也不一定是當今世界上技術最先進的機器人,只不過是說這件事情可以成為時代進步的一個強烈的隱喻。
沒準,未來再回顧21世紀第二個十年的時候,這個鏡頭可以作為無數關鍵時刻其中的驚鴻一瞥。
低階失誤
兩位“AI主播”的外觀和聲音是分別取材自新華網路電視(CNC)中文臺和英文臺的兩個主持人,其中被廣泛傳播到全世界的演示視訊,是以新華英文臺的主持人形象示人的英語“AI主播”所播報的一則關於進口博覽會的新聞。
在這則兩三分鐘的新聞當中,還是不可避免地出現了比較低階的失誤:將阿里巴巴創始人馬雲的名字“Jack Ma”誤讀成了“Jack Massachusetts”,這是因為語音合成系統讀到這部分文字稿的時候,判斷“MA”兩個字母是美國馬薩諸塞州的縮寫。
在很多情況下,需要讀到美國某個小地方地名的時候,就需要把“MA”理解為“馬薩諸塞州”,但預防此類問題,既可以通過將“Jack Ma”一詞特殊化處理,也可以通過將美國地方地名特殊化處理的方法來化解。在對外演示的視訊中出現這樣的錯誤,恰恰證明了新華社和搜狗並未針對主播們的“處女秀”而對演示“弄虛作假”,完全是以真面目示人。
開始跨越“恐怖谷”
世界各國媒體在觀察這對“AI主播”的時候,都說“他們”暫時還沒有實現新華社本身所宣傳的那樣,能夠百分之百的替代真人的效果,同時還是被卡在了所謂“恐怖谷”當中。也就是說,當類人形象的擬真度達到90%左右,尚未能夠100%以假亂真的情況之下,會產生一種不自然的機械感,甚至會令人毛骨悚然。
早幾年,人們都是在達到“恐怖谷”級別後,稍微往後退縮一點,即進一步的增強機器與人之間的差異,用一個本來就知道是機器人,或是卡通形象的臉,就可以規避讓人害怕的麻煩,也創造出初音未來,或是“會說話的湯姆貓”這樣的角色。
(圖 / DailyMotion)
因此,早在大概2013-14年,使用機械聲音味道很濃重的合成語音,加上明顯不像是真人的卡通形象,替代人類去做一些資訊播報的做法,已經在普通的電腦和手機使用者中普及氾濫。
在YouTube上,世界各國的上傳者為了爭取(騙取)點選和貼片廣告費,會在一些突發新聞出來的時候,搶著發一些“混淆視聽”的視訊內容。最開始,網上可能只有圖文訊息出來,暫時還缺乏電視臺或廣播電臺的真人播報錄影,或者這些錄影會因為版權問題被清理掉。那麼,這一段時間之內如果有人去YouTube試圖尋找新聞報道,就會遇到一個“空窗期”。
做假視訊內容的人會將圖文報道貼入“谷歌翻譯”等文字轉語音(TTS)軟體,生成配音,再把隨便什麼地方找的配圖一搭配,輔以花花綠綠的字型,最重要的是配上“突發新聞、最新報道、現場直播”這樣的有利於搜尋引擎抓取(SEO)的標題,本來想看電視臺報道的觀眾就會遇到這些招搖撞騙的垃圾資訊,從而上當受騙。
某個專門上傳這種“騙點選”(Clickbait)視訊的號長這樣:
航通社在《都8102年了,機器人還是“靜若癱瘓,動如癲癇”》一文中曾提到過:
“研發更像人的互動介面始終存在風險,所以更多的服務型機器人從‘肉體’到‘靈魂’——即內建的AI作業系統——都在恐怖谷前停下了腳步。
大家寧可表現得像‘面癱’版喜羊羊,也不願意冒產品滯銷的風險,向著真正像人一樣的終極目標邁出那一步。”
新華社和搜狗共同努力做的“機器人播報員”,卻並沒有選擇一個卡通賣萌形象充數,而是鼓起勇氣,用真人建模,再一次對“恐怖谷”發起了勇敢的衝擊。
日趨成熟的技術
這並非巧合——2018年,多家企業的同時起跑和開源解決方案的湧現,標誌著用技術模擬真人的簡單化、普及化程序已經拉開序幕。
在影象技術方面,主機遊戲的機能和圖形引擎一同進化,可以在光照、面板、毛髮、布料等方面達到媲美真人的效果,而動作捕捉和實時渲染技術可以加速數字影像生成的進度。
而最為著名的開源方案Deepfakes更是以“換臉術”為人所知,Deepfakes在Reddit和PornHub等地引發了一場“狂歡”,直到被平臺禁止之前,人們瘋狂地把女明星的臉“P”到色情影片女主角的身上。
此後,Deepfakes進化為在任何PC機都能執行的FaceApp,藉助它作為後期處理,有人做出了奧巴馬罵特朗普是“笨蛋”的一段視訊,這段錄影現實中並未發生過,完全是“AI對口型”的產物。
在聲音技術方面,進步更快。谷歌的“谷歌助手”、微軟的“小冰”都可以實時生成流暢的語音,跟真人“打電話”聊天,或者充當AI客服。高德地圖的各種明星語音包已經投入商用三四年了。
而今年1月央視紀錄頻道播放的紀錄片《創新中國》,邀請科大訊飛對2013年去世的著名播音員李易聲音建模,完全使用合成的“李易原聲”為紀錄片做了配音。訊飛在圓滿完成任務的同時,還藉此擁有了李易老師的聲音庫。
可以發現,影象和聲音擬真技術的齊頭並進,都是沿著這樣一條確定的路線行進——先做出來,再一邊效果調優,一邊降低成本,提高效率。
本次搜狗在“AI主播”案例中演示的實時合成技術,以及前幾天獵豹移動旗下“獵戶星空”展示的超快速“真人語音包”建模技術,都同時說明了, 在效果上暫時無法取得決定性突破的同時,AI擬真技術在成本和效率方面進化神速,基本可以做到“實時生成”和“任何人都可以生成”。
雖然現在的主播仍然呈現動作僵硬,語音語調不協調等問題,但任何一個報道這件事情的國內外媒體其實都心知肚明,這是AI向真人進攻路上的一個里程碑或標誌性事件,但絕對不是一場努力的終點,而在未來還將會以更快的速度進化。現在這些小問題將會逐漸被攻克,直到螢幕上主播的表現和真人沒有什麼區別。
“AI主播”上崗的意義
全球媒體報道新華社率先上崗“AI主播”的時候,也有各種各樣的擔憂,但首先都給予了肯定。最重要的一點是,官方媒體率先垂範採用這類模擬技術,有助於自上而下地對抗“假新聞”。
即使是上面所說的粗製濫造的假新聞視訊,對於一些資訊閉塞地方的人來說,可能已經是足夠“說服”他們的。不同人分辨資訊真偽的能力是有區別的,有些人可能會始終分不清什麼才是真正的電視臺播報,而因此影響他們的政治傾向,投票結果,或造成財物損失等等。
諸如為色情電影“換頭”這種對AI擬真的濫用也值得擔憂,這當然不是因為它們不符合對“真實”的追求,而是有可能會成為網路暴力的起源,或者是分手後報復性羞辱前任的手段,影響當事人的正常生活。
從這個角度上來說,像新華社這樣正規的官方媒體,先行一步採用機器人朗讀方式,就可以在突發事件傳播中佔得先機,搶在“謠言”的前面到達社會公眾。
至於國外媒體的擔憂,主要集中於這一行為對傳統媒體的嚴肅性、公信力形象的“無形消解”。
牛津大學電腦科學教授伍爾德里奇(Michael Wooldridge)在接受英國廣播公司(BBC)採訪時提到,在很多時候,新聞播音員都是社會高度信賴的公眾形象。“如果你看著一段動畫,你將完全失去和主播之間的這樣一種聯絡。”
在中國,《新聞聯播》的數位主播被譽為“國臉”,有說他們換髮型都需要組織批准。在發達國家,主播不僅僅是照本宣科念稿子的人,他們會作為整個媒體公信力的一部分,一個典型的象徵而存在。所以各大媒體的首席主播,往往是最賺錢的媒體人之一。
《南華早報》統計稱,在美國的主播薪酬排行榜上,CNN的安德森·庫珀(Anderson Cooper)以年薪1億美元排位第一,而美國廣播公司的戴安·索耶(Diane Sawyer)以及福克斯新聞的主播肖恩·漢尼迪(Sean Hannity)以年薪8000萬美元並列其後。
上面提到的王牌主播,都是從地方臺記者開始一路晉升的,而不是像中國這樣,擁有一個“播音主持”的專業學科,播音員、主持人和記者、編輯之間是區分的很開的,前者幾乎沒有經過任何採訪方面的訓練。
欲戴皇冠,必承其重。對國外主播們來說,他們不僅僅要對自己所宣讀的文字內容負責,而且還要在一些獨家的,原創性的採訪當中,展現自己作為一個記者的才華。主播們如果有內容後來被驗證為錯誤,或者有不適當的言行舉止,都會受到嚴重的懲罰,斷送職業生涯。
這從美國全國廣播公司(NBC)兩位新聞主播的隕落上就可見一斑。2015年,晚間黃金時間新聞節目長期培養的主持人布萊恩·威廉姆斯(Brian Williams)因為在一檔伊拉克戰爭隨軍採訪中誇大其詞,虛假描述了自己隨軍報道的角色,導致公信力喪失,被雪藏半年之後降格來到MSNBC頻道的政論節目。
2017年11月美國興起 #MeToo 運動期間,至少三位NBC女員工舉報早間節目《今日秀》主持人馬特·勞爾(Matt Lauer)性騷擾,勞爾“閃電”離開主播臺,現在處於銷聲匿跡的狀態。
有血有肉的、人格化的主持人對電視媒體的重要性,由此可見一斑。他們是媒體公信力的一個重要的組成部分——至少現在是這樣的。
部分國外媒體因此擔心,以假亂真的AI主播上崗後,可以“想讓他說什麼就說什麼”,而不用擔心有真人主播“鬧情緒”,不配合。不過,如果他們在中國呆一段時間,應該就知道他們其實想多了。中國的新聞播音員現在承擔的角色,跟隻字不差的AI還真差不了多少。
在中國,虛擬主播的存在,倒是的確可以幫助一些預算上不充裕的電視臺,讓他們把“好鋼用在刀刃上”,通過更精簡的預算,實現一些原來在全國性大臺才有條件實現的專案——例如開設24小時不間斷的新聞臺。
很長一段時間,全國範圍內只有中央電視臺擁有一個24小時的新聞頻道,加上少數沿海省份能收看到香港的鳳凰衛視。國內的幾家電視臺也曾或多或少有過“新聞立臺”的心思,但是很可惜都沒有堅持住。
上海是各地電視臺中做新聞最成功的其中一家。2016年7月,上海文廣推出“看看新聞”客戶端和配套的24小時新聞頻道KNews24,除央視之外,第二個建立起24小時不間斷的新聞頻道。但是該頻道只能通過機頂盒和網站等OTT形式播放,不能上星及進入有線電視網路。受到資金和人員的限制,該臺也只能在上下午新聞之間的空閒時段,採用實習播音員坐鎮口播新聞,其他時間段都是重播。
最近,KNews24頻道更是乾脆取消了在非東方衛視新聞時段以外的主播坐檯直播,改以重播節目《看東方》等當日已播出的新聞片段,以及短視訊剪輯等代替,不復當年24小時新聞臺的風采。
此外,奇虎360也曾在與北京廣播電視臺合辦的“北京時間”網站,開設一個專門在網路播出的新聞頻道,回放北京衛視和北京新聞頻道的一些節目,最近該頻道也下線了。
所以我們完全可以想象,一旦新華社和搜狗推出的這一虛擬主播技術,推廣到全國一些省市甚至是地方臺,他們就可以用非常低的成本,開一個伺服器,就實現24小時不間斷的播報本市及全國新聞的目的,為自己家的融媒體“中央廚房”再增添一道菜,也不費什麼事。
我們很容易想到真正的播音主持專業學生和老師們,聽到“AI主播”的訊息時,內心當然是拒絕的。但他們可能多少都已經有了心理準備。早在《創新中國》復原已逝的李易聲音時,播音圈裡已經有過討論。樂觀者如丁龍江先生,他是中國傳媒大學播音主持藝術學院口語傳播系主任。他說:
“《創新中國》模仿李易音色智慧解說,雖走出可喜第一步,但仍處於句法關係層面的邏輯重音處理,距離播音學掌握的重音表現手法尚且差距很遠,更別說落實話語本質的內在語。人在表達溝通上使用語音幽渺難知,估計得量子計算。我們等著那一天。”
但不到一年時間,新華社“AI主播”已經不需要人工修音,在自動實時生成的基礎上,效果也正變得越來越好,因此播音主持從業者也很難再保持平靜。有一位老師的朋友圈寫道:
“今晚因為這個新聞,朋友圈的氣氛有點低,大家都有點擔心AI會取代主持人的崗位,有學生說要沒飯吃了,心裡慌慌的,也有人說AI不能做現場報道,不能處理突發新聞。”
這位老師說:
“主持人行業近年來本身發展進入了瓶頸期,不可否認,AI播報員的出現會給這個行業帶來衝擊。畢竟,寫幾個程式碼就可以超越你大學四年苦練得來的好口條,誰不恐慌?這就給播音主持的教學和人才培養敲響了警鐘。傳統的人才培養目標和教學,很快就不適應市場的需求了,得做好變天的準備,這個時間或短或長,只要這個行業不那麼堅守陣地,也許明天,也許明年。”
確實,中國的播音主持培養體系,應該從此開始有一個根本性的變化,也向世界各國的實踐看齊,從前方記者中出人才。我們播報新聞的人,也應該具有自己的“自由之精神”和“獨立之思想”,才能區別於一個“念稿子的機器”。他們需要從現有的有快速反應能力的記者隊伍當中遴選出來,他們應該做一個現實生活當中的多面手,而不是隻會以端正的坐姿完成任務。
興許,在技術的倒逼之下,中國的電視新聞事業,將有可能會比全世界其他任何一個地方,都更多、更快的迎來革命性的變化。
更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App