論述送分系列｜一篇文章告訴你大資料新聞對傳媒行業的顛覆與重塑

阿新 • • 發佈：2018-11-05

整理編輯：覓遊李楠學姐

寫在前面：

2014年3月，在長達96頁的《創新報告》中，面對赫芬頓郵報、BuzzFeed此類網際網路媒體公司的激烈競爭，《紐約時報》憂心忡忡地發出了“我們真的落後了”這樣的感慨。

很多初學者，對大資料的概念都是模糊不清的，大資料是什麼，能做什麼，學的時候，該按照什麼線路去學習，學完往哪方面發展，想深入瞭解，想學習的同學歡迎加入大資料學習扣群：805127855，有大量乾貨（零基礎以及進階的經典實戰）分享給大家，並且有清華大學畢業的資深大資料講師給大家免費授課，給大家分享目前國內最完整的大資料高階實戰實用學習流程體系

美國皮尤研究中心在2014年的媒體研究報告中，直言不諱地指出“我們正在尋找那些能夠適應數字媒體採編流程的新聞採編多面手，比如資料庫記者、視覺化記者和計算機記者。”

在大資料時代，數字內容生產和資料探勘分析成為常態，新聞領域也不例外，從使用者服務模式到內容生產方式，再到媒體行業本身，無不在經歷著顛覆與重塑。

大資料新聞之所以重要，是因為它有可能從根本上改變新聞的形態、生產方式和新聞從業人員所需的素質。從另一方面來看，過度信任資料所帶來的危害已初露端倪。

無論是智媒還是演算法這些新聞傳播學的熱點都與大資料新聞有著密切的聯絡，非常適合用各種題型對這一知識點進行考察，如果你還沒掌握，我建議你好好讀讀今天的文章。

一、大資料新聞有哪些應用形式？

1、新聞內容採集

（1）選題價值的精準判斷

傳統的新聞選題主要是頭腦風暴和任務分派的結果，而將大資料引入選題決策環節則使其更為客觀、更有效率，真正讓使用者參與到新聞生產流程中。過去受眾反饋渠道有限，受眾分析也是以傳統的抽樣調查為主，樣本量有限，而且獲得資料的成本高、週期長，難以快速全面地反映受眾市場，這樣的資料調查也很難成為日常性的工作來支援新聞生產決策。

而在大資料技術的支援下，參與調查或分析的使用者量動輒以百萬計，通過網路到達目標使用者回收調查結果、或者直接從網路抓取熱門搜尋和輿情，較高的效率和較低的成本使編輯在日常工作中就可以做到迅速發掘熱點並完成選題。

以騰訊《事實說》為例，製作團隊基於騰訊新聞調查入口，同時自制多個H5社交產品，通過了解使用者近期的關注點，來針對性地選擇議題、策劃內容。再如，紐約時報每天要推送300篇文章，此前編輯需要花大量的時間閱讀來判斷和篩選出可能符合使用者需求的內容。而基於大資料和機器學習的工具Blossom則把人力從大量的工作中解放出來。大資料在發現選題、判斷輿論趨勢以及發現使用者感興趣的內容上，往往比有經驗的編輯更為有效和精準。

（2）資訊來源的多樣化

傳統媒體時代，新聞資訊主要靠記者採訪、調查獲得，而大資料時代，新聞資訊的採集者已經從專業記者向普通人轉變，甚至從人向機器轉變。

①眾包：專業記者向普通人的轉變

眾包服務使得新聞來源從專業記者向普通人發生了轉變，過去由記者調查收集分析資訊的任務被轉移到使用者身上，而記者完成的是內容的再聚合，在這一過程中，新聞生產中的傳播者和接收者的角色都被重構。

英國衛報的資料部落格中有許多報道都是通過眾包蒐集資訊的。比如在調查國會議員開銷時，由於檔案數量眾多，多達45萬個，但時間有限，於是衛報決定向讀者開放專案，讓讀者幫忙翻看資料，尋找資料中的異常，來發現有報道價值的故事。

當記者面臨大量的檔案、統計數字或者報告需要核查時，採用眾包的方式就成為了一個非常明智的選擇，它可以高效地幫助調查記者完成任務、降低成本、節約時間。但目前這種資料蒐集與資訊核實的眾包服務在新聞領域還沒有被頻繁地應用，同時眾包的公眾平臺與媒體之間還難以真正理解彼此的需要和責任邊界，因而合作並不像想象的來得那麼容易。

②感測器與無人機：人向機器的轉變

感測器和無人機應用於新聞生產領域，意味著資訊採集者開始由人向工具轉變。感測器在新聞生產中的作用主要在於生產或收集資料。它為資料新聞打開了新局面，提供了大量的資料來源。記者可以利用實時資料製作實時更新的動態圖表，或者基於資料做預測性分析。

此外，感測器還開闢了許多過去由於資料不易獲得而難以報道的領域。當然它也有一些弊端，比如資料的質量可能會受到很多方面的影響，裝置質量不過關、缺乏統一標準或者被人為篡改等。

無人機可以看作感測器的一種，是對人們視覺感官的延伸。無人機攜帶攝像機從高空傳回影像資料，記者將這些資料應用到新聞報道中。其他的感測器更多的是資料上的直接回傳，而無人機則提供更為直觀的影像。在視聽資訊生產領域，眾包、直播、VR等前沿應用可以相互結合，比如，無人機與眾包的結合。以Twitter為例，其使用者可以利用推文，對無人機的飛行方向、區域等進行遙控，同時快速獲取所拍攝內容，並上傳到社交網路上，並且還可以用無人機來進行遠端採訪。

（3）資訊可信度的驗證

大資料在驗證資訊可信度上可以為記者提供很多幫助，其主要方法在於將資訊與資料庫進行比對，從矛盾或者不合邏輯之處驗證資訊的真偽。在新聞領域，目前此類應用主要有兩種：一種是工具式的，比如谷歌搜尋；另一種則是專題和節目式的，定期推出專題確認近期內重要的或影響較大的資訊的真偽，以及指導記者進行識別謠言。

①核查工具

在這個“有圖有真相”的讀圖時代，圖片卻未必是真實的，由此，一系列幫助人們核查圖片真實性的工具應運而生。

比如，圖片反向搜尋引擎為記者們提供了一個搜尋圖片源頭的最簡單也最重要的路徑。人們可以通過Google的圖片反向搜尋功能和TinEye這樣的工具將圖片與資料庫進行比對，來核查其以前是否在網上出現過。

②核查專題(節目)

2011年，美國華盛頓郵報的一名編輯在參加一位政客的小型集會時，發現其和許多政客一樣一直在誤導聽眾，但是參與者似乎都沒有意識到自己被誤導了。為了解決這個問題，併為公眾及時提供他們需要的資訊，華盛頓郵報啟動了名為TruthTeller的實時新聞核查專案。

這個專案旨在儘可能實時地核查政客們發表的演講，主要採取以下步驟：首先從演講視訊中抽取出音訊，然後將音訊轉換為文字，再將文字放入資料庫中進行比對，並對事實進行核查。

類似TruthTeller的專案還有哥倫比亞大學數字新聞中心開發的數字信源核實平臺Emergement，該平臺將自己定義為實時的謠言粉碎機，除了關注政治領域外，還針對熱門的事件進行核查，找出所有能蒐集到的來源和最原始的出處，並列出在各來源中被分享的次數，最終打上True(真)、False(假)、Unverified(未核實)的標籤。

2、新聞內容製作

無論是寫作方式，還是呈現形式，抑或感覺體驗，大資料對新聞內容製作環節的改變也是全方位的。

（1）自動化寫作：機器人新聞

機器人新聞是指通過計算機程式將一些資料融入結構化的語言，從而生成新聞報道或者個性化的文章。目前其主要應用領域是財經和體育兩大類，因為機器人新聞寫作的方式主要是先創造好模板，然後通過計算機程式獲取資料後將其填入相關空格里。財經和體育等方面的資訊比較程式化，自然成為機器人新聞率先介入的領域。

AutomatedInsight與NarrativeScience是開發這類機器人的主要技術企業。據統計，AutomatedInsight有超過3億個模板可以供不同的新聞使用，它們在2013年就產生了3億條新聞，比其他所有媒體加起來的還要多。

但在目前條件下，機器人新聞寫作依然有極大的侷限性。比如，程式生成的新聞模板痕跡比較嚴重，且語法生硬；人類豐富的情感，程式化的機器人難以習得和模擬；最重要的一點，機器人新聞難以寫出深度內容，想要挖掘資料背後更深刻的關係，除了資料作為基礎，還需要人工深入的採訪調查。

（2）視覺化呈現：資料新聞

資料與新聞的結合起源於20世紀中期在美國出現的計算機輔助報道(CAR)，20世紀60年代興起了精確新聞學。大資料時代下，資料資源豐富，可供挖掘的方向和領域也更多，資料新聞再次成為關注的焦點。

計算機輔助報道和精確新聞中，資料主要是資訊源，多以支援觀點和判斷的論據出現，而大資料背景下的資料新聞中，資料成為新聞的本體，過去以文字為中心的新聞敘事方式被改變。不僅如此，為了順應“讀圖時代”的受眾需求，資料的視覺化已逐漸成為目前資料新聞報道中不可或缺的重要環節。

成立於2012年的Ouartz，這是一家關注全球最新經濟資訊的數字化新聞機構，主要為移動端的平板和手機而設計。除了重要的新聞事件報道之外，Quartz經常會做一些大資料的視覺化新聞。社交媒體是資料的富礦，因而相繼出現了很多專門針對各類社交媒體的資料進行分析的網站和工具。

有一些是幫助社交媒體使用者瞭解自己賬戶情況的，也有一些針對大範圍的資料分析與視覺化呈現。針對Twitter的分析工具尤其多，如TweepsMap就是一個非常適合使用者分析和視覺化自己Twitter網路的工具，Twitonomy則是一個更為詳細的分析使用者Twitter博文的工具。

視覺化為我們提供了直觀的資料分析結果，便於理解和想象複雜的資料結構，不同的資料結構適用於不同的視覺化表達方式，於是有公司開發了類似化學元素週期表的“視覺化法週期表”，為人們做視覺化提供了參考模板。這一週期表中列出了100種資訊表達的視覺化方法，滑鼠懸停在每一種方法上都可以看到具體示例。

（3）沉浸式體驗：虛擬現實和增強現實

目前新聞傳播領域對於VR(虛擬現實)技術的使用主要在深度報道、突發報道和媒介事件三個方面。如，美國紐約時報2015年推出了手機應用NYTVR，併為訂閱者郵寄發放了超過100萬個谷歌紙盒式VR眼鏡。

美聯社也屬於較早探索虛擬現實報道的媒體。2015年8月，美聯社與RYOT合作了《尋找家園》(SeekingHome)專案，描述法國加來難民營的生活。為了進一步發展沉浸式新聞，美聯社完全自主的VR360頻道已經上線，目前該頻道已經上傳了9部虛擬現實和360°全景視訊作品。

在深度報道中的應用比較成熟以後，突發報道和重大媒介事件直播成為目前VR重要的應用物件，國內目前關於VR的應用主要集中在這一領域。比如，深圳滑坡事故發生之後，新華社聯合全景視訊製作公司，樂視聯合財新傳媒的VR團隊在第一時間奔赴救援現場，錄製了救援工作的全景視訊。

3、新聞內容分發

新聞內容的分發本質在於“資訊與人”的匹配。使用者時間有限，除了自己感興趣的話題，要在海量資訊中甄別有用或潛在感興趣的內容很難，因而使用者主動獲取的資訊只能是非常小的一部分。而移動網際網路的發展使得推送越來越便利，大資料演算法使得推送的內容越來越精準。目前，基於大資料的新聞內容分發產品已經非常多，但仍存在一定的差異。這一市場仍然處於初期，究竟哪種模式更有優勢、更符合使用者的需求還有待時間的檢驗。總體而言，目前的新聞內容分發產品根據演算法的使用程度呈梯度分佈：一是仰賴於與內容生產方合作或者編輯選擇；二是人工與演算法相結合的推薦方式；三是幾乎完全依據演算法推薦。

二、大資料新聞的價值在何處？

1、喚醒：重構沉寂的歷史資料

（1）對公共資料、原始資料的整合

大資料新聞報道最重要的資料來源就是那些來自政府、專業機構、社交媒體網站的公開資料。這些資料猶如沉睡的寶藏，等待有心人的挖掘。因此，如果具備敏銳的資料嗅覺，能夠挖掘出公共資料、原始資料之間的關聯，或者只是簡單地進行歷時性的梳理，就可以讓這些塵封的資料煥發出新的生命力。

（2）對資料的二次加工和售賣

大資料新聞的價值來源於對混雜的、非結構化的資料的二次加工和關聯挖掘，從中找出資料背後隱藏的故事的價值。在此基礎上，這些經過精心處理的資料庫本身，也可以成為媒體的再生價值，成為其他媒體或機構的資料

2、關聯：連線當下的事實主體

大資料新聞的另一個功能在於透過紛繁複雜的資料，挖掘資料之間的關聯性，通過事實找到當下主體的內在聯絡。比如說路透社於2013年2月推出的“關係中國”（connectedChina）報道，就是基於中國政府官方網站和出版物、中國及世界媒體報道、外國政府分析報告、學術論文等多渠道彙集的海量資料分析而成。

3、預測：把握未來的資訊走向

正如前面提到的，未來的大資料新聞報道，將會更加側重於資料驅動型深度報道和區域預測性新聞，利用大資料來預測事物的未來發展動向，滿足受眾的新聞期待。

4、“悅讀”：展現資訊視覺化之美

除了上述三大功能，大資料新聞還能夠提供更精準的監測環境，最大程度上消除社會的不安定感以及更豐富更新鮮的社會知識，滿足受眾的求知慾望。最重要的是，以上這些內容都可以通過提供更有趣的形式來呈現，同時不失嚴肅，這就是資料視覺化圖表給新聞報道帶來愉悅的閱讀體驗。

三、大資料新聞存在哪些缺陷？

大資料已經開始在新聞生產中大規模應用，但其本身存在一些先天性的缺陷和後天不足，值得警惕與反思。

1.資料的合法性

在新聞生產中，大資料在各個環節都扮演了重要的角色，其與隱私相關的最重要環節是個性化推送部分。當企業使用使用者在各個平臺上的行為資料來為使用者提供更具個性化的推送時，使用者所有的隱私都可能暴露無遺。在隱私權和個性化之間永遠需要一個平衡。要想達到平衡需要多方的努力：技術上，發展加密技術；道德上，要求行業自律；法律法規上，在收集、儲存和分析資料的軟體中附上工程師們編寫隱私政策的要求，並且加強政府監管。

2.資料的代表性

除了冗餘資料太多、價值密度低外，大資料樣本的代表性也值得商榷。大樣本並不是全樣本，甚至在絕大部分領域，它都不可能是全樣本。來自於物理世界的科學資料和來自於人類社會活動的行為與關係資料，二者的產生和收集都存在很大的侷限性，特別是社會生活中存在的“沉默的大多數”會大大影響到相關資料的全面。在新聞生產過程中使用大資料時，需要對所使用的資料保持審慎的態度，不能因為是大資料就籠統地認為它比傳統的隨機抽樣調查更具代表性。

3.資料會說謊

人們通常認為資料真實客觀，是不會說謊的，但事實可能正相反。大資料從來源上說就未必是真實的，網際網路本身就充斥著大量的虛假資訊——虛假的個人資訊、購買的粉絲、僱人刷單的交易等等，我們不得不接受大資料裡的這種虛假，這是網路本身的特性決定的。另一種虛假則相對容易避免，它主要是源於對於資料的處理、解讀和呈現，對統計現象只看結果不重解釋，很可能導致錯誤結論。

4.資料的解釋性和預測性

大資料的解釋力並不強，它只能說明相關關係，而無法表明因果關係。這恰恰與新聞的內在邏輯相悖，新聞傾向於得出結論，即由什麼原因才引發這樣的結果。新聞生產在應用大資料時需要規避這一矛盾，通過人工調查、採訪、分析等手段完成自身的邏輯鏈條，從相關推進到因果。不僅如此，輕信大資料的預測也有一定的風險。這是個不確定的世界，有許多決定性的影響因素都無法納入模型之內，過分依賴大資料及其預測模型是危險的。大資料依託的是已經存在的資料，是基於存量(過去)的；但新聞是向前走的，是基於變數(未來)的。兩者存在邏輯上的差異。　　

四、大資料時代傳媒業有哪些轉型之路？

1、資料團隊與部門融合：新聞編輯部的功能轉變

在大資料時代，傳統媒體要想轉型成功，部門融合、協同合作是必不可少的。正如《紐約時報》的《創新報告》所倡導的，要“推倒新聞編輯室的牆”，加強採編部門和客戶服務、技術應用與設計、數字挖掘、產品研發這些部門的合作，產品第一、部門第二要脫離過去採編部分獨立於其他部門、只關注內容生產的單一模式，記者編輯也要參與到內容推廣的流程當中，擺脫依靠廣告和訂閱贏利的落後模式，打造一個有吸引力的數字公司。

像赫芬頓郵報那樣，把新聞採編環節和市場推廣環節結合起來，以使用者的需求作為媒體內容生產和機構改革的動力之一。簡言之，就是要把各部門融合起來，讓資料團隊入駐新聞編輯部。此處所指的資料團隊，就是基於部門融合、跨領域合作的資料新聞創作團隊。

2012年首屆國際資料新聞獎獲獎作品的執行過程顯示，資料新聞比拼的不是採訪力量和團隊規模，而更看重具有新聞敏感的人與具有資料探勘、資料分析和視覺化呈現能力的人之間的相互協作。大資料新聞的生產模式決定了頭腦風暴和奇思妙想的重要性，部門與部門之間的界限日漸模糊，在“一個屋檐下”工作變得異常重要。

2、跨界合作與產業升級：大資料時代媒體機構的自我顛覆

除了促進編輯部與其他部門的融合，讓資料新聞團隊來參與新聞生產外，從媒體自我顛覆的層面來說，還需要加強與社會化媒體、移動網際網路的合作，把不同行業、領域和終端的資料進行聚合，進行關聯分析和價值挖掘，通過媒體融合及跨界合作，加速產業升級。

在大資料分析技術運用方面，新聞媒體還面臨著很多挑戰，資料的來源、挖掘和加工都需要專門的技術人才和裝置。跨界合作，也許是比自己事必躬親更適合的方式，不僅可以降低成本，而且可以通過合作碰撞出新的火花。

比如說“據說春運”就是央視與百度搜索合作製作的大資料新聞報道，央視負責專題選定和新聞製作，百度負責資料採集和挖掘，這對雙方都是利好的事情，後來的“據說兩會”“據說就業”等也證明了這種跨界合作的可持續性和良好的合作前景。

寫在後面：

讀完今天的文章，你需要掌握的知識點有4個：

1、大資料新聞有哪些應用形式？

2、大資料新聞的價值在何處？

3、大資料新聞存在哪些缺陷？

4、大資料時代傳媒業有哪些轉型之路？

如同報紙、電視、網際網路等新技術一樣，大資料也成為了能夠深刻影響新聞業態的技術之一。大資料對新聞業態的重塑是漸行漸近的過程基於“開放、關聯、對接”的網際網路邏輯，不僅僅包括產業結構，還包括在生產理念、商業模式和使用者體驗等方面的革新。

目前，雖然資料新聞還只是為傳統新聞模式服務的新工具，與全新的新聞製作理念仍有很大距離，但只要繼續在資料中探索、用資料講故事、賦予新聞資料流般的生命，未來的新聞業必能更好地發揮李普曼所說的“聚光燈”和“探照燈”效應，為公眾提出忠告、指南、通知和預警。

論述送分系列｜一篇文章告訴你大資料新聞對傳媒行業的顛覆與重塑

論述送分系列｜一篇文章告訴你大資料新聞對傳媒行業的顛覆與重塑

一篇文章告訴你大資料應該怎麼學

[轉自有道]十六種英語時態傻傻分不清？一篇文章告訴你它們的所有用法

Entity Framework學習筆記——EF簡介（一篇文章告訴你什麽是EF）

一篇文章詳解大資料技術和應用場景

前端開發實用比較，一篇文章告訴你到底是用Vue還是用Angular4、5？

Java、C、C+ +、PHP、Python分別用來開發什麼？一篇文章告訴你！

一篇文章告訴你: new 和newInstance 的區別

大資料應用場景有哪些？一篇文章告訴你

一篇文章告訴你大數據應該怎麽學

一篇文章告訴你，該學R還是Python

水滴動態IP：一篇文章告訴你，IP地址是如何劃分的

一篇文章告訴你什麼是量化的統計套利

一篇文章告訴你，TLS 1.3 如何用效能為 HTTPS 正名

一篇文章看懂大資料分析就業前景及職能定位

一篇文章告訴你，平均負載的來龍去脈

螞蟻技術專家：一篇文章帶你學習分布式事務

一篇文章帶你深入了解Dubbo分布式服務框架

一篇文章為你解讀大數據的如今和未來

一篇文章讓你讀懂什麽是餐飲小程序

論述送分系列｜一篇文章告訴你大資料新聞對傳媒行業的顛覆與重塑

相關推薦