1. 程式人生 > >只要5分鐘用資料視覺化帶你看遍11月份新聞熱點事件

只要5分鐘用資料視覺化帶你看遍11月份新聞熱點事件

 2017年11月份已經離我們而去,在過去的11月份我們也許經歷了雙十一的剁手,也可能親眼看見了別人剁手。11月份的北京大興區發生了”11·18”重大火災,國內多家幼兒園也多次上了頭條,學前教育引起廣大重視等等,但是這些事情到底在新聞媒體中出現的頻率是有多少呢?11月份又發生了哪些大事呢?且待我用資料告訴你。大資料時代,資料最能體現實際情況,那就開始吧。

 為了給大家提供可靠直觀的資訊,我決定抓取中國新聞網社會新聞版塊(http://www.chinanews.com/society.shtml)11月份的所有新聞資料,之所以選取中國新聞網的資料是因為中國新聞網的新聞質量權威性相對較高。然後我將用資料視覺化的圖表為大家更加形象的呈現。為了證明我的資料是真實可靠的,下圖是我在抓取過程中的一張截圖。截止到11月30日中午12點,我總共抓取了約3339條新聞資料,總計大約411萬字,在txt文件裡大約11M,詳細見圖2,平均大約每天111多條新聞啊,這個資料量還是可以的,同時也為新聞工作者們心疼3秒鐘,要知道這只是中國新聞網的一個社會新聞版塊啊,哈哈哈......



 拿到這些資料我們要怎麼辦呢?我想知道熱點事件是什麼?哪些地方的熱點事件最多?諸如此類的問題,我們當然可以將這些文章都看了,然後來得到一個整體的影響,但作為承擔著共建我們偉大復興中國夢的新時代計算機資訊化人才,我怎麼能採取如此低效的方式呢?(此處請允許小編露出八顆大牙的微笑)我將這包含著這411萬字的新聞資料文件,通過計算機智慧分詞系統,然後經過一系列操作(此處省略若干字),畢竟我們在乎的是結果,這期間乏味的工作,小編已經做了,最後我得到了大約18萬8千的關鍵字資料。

 如下圖所示,大家有沒有注意到一個熟悉的幼兒園出現在資料集中,而且頻次很高,這在某種程度上證明我們資料還是比較準確的,是不是很期待接下來的會有什麼結果,請慢慢往下看。


為了視覺化的展現這些資料,通過百度的echarts可以動態的互動的將資料以各種形式顯示在網頁上,但是為了在這裡公眾號上顯示,這裡我提供了靜態圖片供大家觀看。下圖為2017年11月在中國新聞網社會版塊出現頻率最高的名詞。


通過上圖我們可以清楚的看到“雙十一”毋庸置疑的佔領了名詞榜的榜首,'共享單車'和‘安全隱患’分別列第2、3名。共享單車的出現也不意外,在過去的十一月份各個省市都出臺了一系列關於治理共享單車“亂停亂放”等現象的管理實施意見,並且隨著共享單車行業進入洗牌期,多家共享單車出現的退押金難等諸多問題,讓它進入我們的前三名似乎也不意外。關於第三名“安全隱患”,聯絡到北京大興區西紅門鎮“11.18”重大火災事故所揭露出來的諸多安全隱患問題,也不難理解。尤其值得注意的”攜程親子園”也在我們的圖表中位於中等位置。而近期熱點事件的另一家幼兒園並沒有上榜,估計是事件太近所以資料量難免不足。其它的資料應該也是對應著一些熱點資訊,就不逐個解釋了。

下圖為2017年11月在中國新聞網社會版塊出現頻率最高的人名。


你知道新聞媒體在新聞報道中最喜歡用什麼來指代人物麼?通過上圖的詞雲我們可以知道李某、張某、王某、陳某、劉某可以說是新聞媒體在新聞報道的最常用的五大指代名啊,這可能也間接說明這是中國最多的幾個姓氏,事實呢?確實是這樣的,這5大姓氏在中國大約有4億的人口。那其它的人名有何含義呢?其他人名我們不難發現,幾乎囊括了11月份重大熱門案件的主角,成為了人們的關注點,其頻率自然而然就提高了。是不是感覺資料真的不會騙你?

 那這麼多的熱點事件都在什麼地方發生的呢?通過下面這張11月份各省市新聞出現頻率的地圖熱點顯示圖,我相信你可以直觀的感受到。


通過不同的顏色我們可以看出不同地方熱點事件發生的情況,紅色的表示在該地區在新聞上出現的頻率很高,北京、上海、廣東、新疆、西藏都排在了前列,而黑龍江、吉林、內蒙古、山西在新聞上出現的頻率則遠遠不足。

 那過去的11月份有沒有什麼機構在新聞中有著很高的“出鏡率”呢?別說,還真有。下圖這個圓環餅圖表示11月份出現的高頻機構。


通過這個圓環餅圖我們可以清楚的看出,在過去的11月裡,公安部以絕對的優勢佔據了榜首,細想一下不難發現,幾乎牽扯到廣大社會人民的熱點新聞事件,我們的警察叔叔第一時間出現在我們的視線裡,這裡向辛苦的人民警察致敬。這些機構中除了清華大學和北京大學這兩所高校外,其他則以政府部門居多,畢竟我們是以社會版塊的新聞為資料來源進行分析的,政府部門居多更是能反映我們的國家對人民生活時刻保持關注,我為我們在生活在這個偉大的國度而自豪。

 到這裡,今天給大家帶來的11月份基於新聞資料的視覺化分析就結束了,小編對該資料的真實性負責,但是其中的分析方法和資料篩選原則難免會有些瑕疵,歡迎有興趣的同學進行交流。

本專案的開源地址如下:

歡迎fork和共同完善!!