1. 程式人生 > >如何使用SPSS查看大CSV文件(超過100萬行)?

如何使用SPSS查看大CSV文件(超過100萬行)?

mysql教程 inter -a ext 文本 推薦 ant borde ffice


本文原創作者:鯤之鵬(http://www.site-digger.com)

本文原始鏈接:http://www.site-digger.com/html/articles/20170208/135.html





背景:Excel( Excel 2007-2016)最多僅能顯示100萬(1,048,576)行,那該如何查看超過100萬行的大CSV文件呢?最好的方案是先將CSV文件導入數據庫(這是鯤之鵬技術人員推薦的方案),例如MySQL,一旦導入到數據庫我們就可以利用SQL語句很輕松的完成一系列復雜的查詢和統計工作,可以說是一勞永逸。但是對於非技術人員來說,將一個大CSV文件導入MySQL也不是件容易的事(你可以按照鯤之鵬提供的CSV轉MySQL教程完成該操作:

http://www.site-digger.com/html/articles/20120525/34.html)。那有沒有簡單的方案呢?有,那就是使用SPSS。

關於SPSS的介紹請谷歌之。通俗地說就是一個界面類似Excel,能支持更多行數、功能強大的數據統計分析軟件。

下面鯤之鵬的技術人員將演示如何用SPSS查看一個超過450萬行數據的CSV文件(這是一個大眾點評網8個城市的全品類商鋪數據文件,字符編碼是UTF-8)。

1)啟動SPSS、設置好字符編碼。

由於我們要查看的是UTF-8字符編碼的CSV文件,我們需要將“編輯 -> 選項 -> 常規”中“數據和語法的字符編碼”設置為Unicode,否則後面中文會顯示為亂碼。

2)啟動“文本導入向導”:

打開 -> 文件 -> 數據,選擇我們要查看的CSV文件(提示:需要將文件類型篩選器選擇為*.*,否則你看不到CSV文件)。

3)接下來SPSS會彈出文本導入向導,如下圖所示。

技術分享圖片

提示:如果在這裏你看到的中文是亂碼形式的,說明SPSS的字符編碼你沒設置正確,請參考步驟1完成。

“變量名稱是否包含在文件的頂部”選擇“”。

技術分享圖片

我們導入的是標準的逗號分隔符文件,分隔符選擇“逗號”,文本限定符選擇“雙引號”。

技術分享圖片

一直下一步直至點擊完成。這是數據導入工作將正式開始。

4)在SPSS的右下角可以查看到實時已導入的數據條數。提示:在導入未結束前已導入的數據如果顯示為問號(如下圖所示),不要擔心,這是正常的,等導入完成就顯示正確了。

技術分享圖片

5)導入完成。

後如下圖所示,總行數超過了450萬行。

技術分享圖片

6)SPSS數據分析功能小試牛刀:

統計大眾點評上海市各類(根據一級分類統計)商戶的分布,結果如下圖所示

技術分享圖片

說明:該文章為鯤之鵬(http://www.site-digger.com)原創文章 ,您除了可以發表評論外,還可以轉載到別的網站,但是請保留源地址,謝謝!!(尊重他人勞動,我們共同努力)


如何使用SPSS查看大CSV文件(超過100萬行)?