如何使用SPSS查看大CSV文件(超過100萬行)?
本文原創作者:鯤之鵬(http://www.site-digger.com)
本文原始鏈接:http://www.site-digger.com/html/articles/20170208/135.html
背景:Excel( Excel 2007-2016)最多僅能顯示100萬(1,048,576)行,那該如何查看超過100萬行的大CSV文件呢?最好的方案是先將CSV文件導入數據庫(這是鯤之鵬技術人員推薦的方案),例如MySQL,一旦導入到數據庫我們就可以利用SQL語句很輕松的完成一系列復雜的查詢和統計工作,可以說是一勞永逸。但是對於非技術人員來說,將一個大CSV文件導入MySQL也不是件容易的事(你可以按照鯤之鵬提供的CSV轉MySQL教程完成該操作:
關於SPSS的介紹請谷歌之。通俗地說就是一個界面類似Excel,能支持更多行數、功能強大的數據統計分析軟件。
下面鯤之鵬的技術人員將演示如何用SPSS查看一個超過450萬行數據的CSV文件(這是一個大眾點評網8個城市的全品類商鋪數據文件,字符編碼是UTF-8)。
1)啟動SPSS、設置好字符編碼。
由於我們要查看的是UTF-8字符編碼的CSV文件,我們需要將“編輯 -> 選項 -> 常規”中“數據和語法的字符編碼”設置為Unicode,否則後面中文會顯示為亂碼。
2)啟動“文本導入向導”:
打開 -> 文件 -> 數據,選擇我們要查看的CSV文件(提示:需要將文件類型篩選器選擇為*.*,否則你看不到CSV文件)。
3)接下來SPSS會彈出文本導入向導,如下圖所示。
提示:如果在這裏你看到的中文是亂碼形式的,說明SPSS的字符編碼你沒設置正確,請參考步驟1完成。
“變量名稱是否包含在文件的頂部”選擇“是”。
我們導入的是標準的逗號分隔符文件,分隔符選擇“逗號”,文本限定符選擇“雙引號”。
一直下一步直至點擊完成。這是數據導入工作將正式開始。
4)在SPSS的右下角可以查看到實時已導入的數據條數。提示:在導入未結束前已導入的數據如果顯示為問號(如下圖所示),不要擔心,這是正常的,等導入完成就顯示正確了。
5)導入完成。
後如下圖所示,總行數超過了450萬行。
6)SPSS數據分析功能小試牛刀:
統計大眾點評上海市各類(根據一級分類統計)商戶的分布,結果如下圖所示
說明:該文章為鯤之鵬(http://www.site-digger.com)原創文章 ,您除了可以發表評論外,還可以轉載到別的網站,但是請保留源地址,謝謝!!(尊重他人勞動,我們共同努力)
如何使用SPSS查看大CSV文件(超過100萬行)?
相關推薦
如何使用SPSS查看大CSV文件(超過100萬行)?
mysql教程 inter -a ext 文本 推薦 ant borde ffice 本文原創作者:鯤之鵬(http://www.site-digger.com)本文原始鏈接:http://www.site-digger.com/html/articles/20170208
Linux命令 查看及修改文件屬性
若是 有用 -s 工作組 文件類型 大牛 tro 命令執行 建立 chmod [功能說明] 改變文件的訪問權限 #Linux中訪問權限分為:文件屬主(文件的創建者)文件組屬主(創建者所處的組)和其他(其他用戶) [語法格式] Chmod[參數]mode[文件名或目錄名]
查看和修改文件編碼
所有 亂碼 版本 clas 編碼格式 識別 ins class 詳細參數 【轉】查看文件編碼在Linux中查看文件編碼可以通過以下幾種方式:1.在Vim中可以直接查看文件編碼:set fileencoding即可顯示文件編碼格式。如果你只是想查看其它編碼格式的文件或者想解決
linux關於ftp查看不到文件列表的問題
全部 增加 每次 解決 for avi net 安全 禁用 今天配置linuxserver的ftp後,登錄都正常。使用ftp工具登錄後,全部文件夾都能夠通過手工寫路徑訪問,可是文件夾和文件列表看不到數據。 後來分析,總結原因得出結果是跟selinu
gcc 查看 引用頭文件的位置
頭文件引用位置場景:代碼 使用了 msgpack庫,但makefile 沒有指定 msgpack的頭文件所在位置,也可以編譯通過。可以得出 一定是在系統的某個位置 安裝了 msgpack,並且被找到。但具體頭文件在哪個位置呢?從網上 搜到 看到 都是 gcc/g++ 頭文件的 搜索路徑,-I指定頭文件的搜索路
只查看ett.txt文件(共100行)內第25到35行的內容的八種解決方法
查找內容試題:只查看ett.txt文件(共100行)內第25到35行的內容解答:方法一:head -35 /data/ett.txt |tail -11方法二:sed -n ‘25,35p‘ /data/ett.txt方法三:grep -C5 30 /data/ett.txt方法四:grep -A10 25
eclipse 查看jar源文件
發現 eclipse mark 文件 class 需要 方便 market cnblogs 一直都是用eclipse來開發java程序,有些引入的jar都是class文件,不方便調試。 發現只需要在eclipse增加一個插件就可以方便查看了,打開eclipse的mar
如何查看mysql日誌文件位置
sql slow name 慢查詢日誌 query log -s span sim 登錄mysql終端日誌文件路徑mysql> show variables like 'general_log_file';+------------------+---
Linux 124課程 4、 創建,查看,編輯文件
mail 位置 roo 其他 redirect 創建 swd 窗口切換 code Redirecting output to a file or grogram 重定向 > 追加重定向|&>> 將標準輸
Linux 查看Tomcat日誌文件
usr 跟蹤 cat 字節 結果 輸入 寫入 a.out 才有 命令為:tail -f catalina.out tail 命令 用途從指定點開始將文件寫到標準輸出。使用tail命令的-f選項可以方便的查閱正在改變的日誌文件,tail -f filename會把filena
strings 命令查看exp備份文件
strings 命令 strings exp 一、描述最近工作中遇到一個案例,客戶9i數據庫系統,由於主機宕機,主機無法啟動,只有exp的備份文件,在我們不知道表空間名稱和業務用戶的情況下需要對數據進行恢復。 二、操作1、找到exp備份文件,要求備份文件不要備份的本地,找一臺備份機。2、通過strin
查看及檢索文件
統計 DG 一行 當前目錄 win 進入 at命令 messages linux系統中 1、查看及檢索文件 1.cd命令詳解 切換 所在目錄(相對於Windows中鼠標雙擊進入某個目錄,直接查看目錄下內容) 相對路徑喝絕對路徑 ? 相對路徑:從當前路徑開始表示位置;./
如何查看CAD圖紙文件的信息和文件版本?
工程 對話 搜索 C4D src 新的 如何 想要 信息 如何查看CAD圖紙文件的信息和文件版本?在工程師們編輯CAD圖紙的時候,都是使用CAD編輯器來繪制圖紙的,所以說CAD文件是我們工作當中經常會使用到的文件,如果我們把編輯完成的CAD圖紙文件上交給上司,你的上司想要對
ffmpeg查看音頻文件信息
RoCE span open exe level streams str stdout course 查看音頻文件的信息(基於本地路徑) import json import subprocess command = ["ffprobe.exe", "-logle
Windows怎麽查看蘋果heic文件
來看 mark fff 轉換 查看 批量轉換 cto mar color 總有很多人對heic還是有些疑惑,特別是蘋果的新用戶,因為heic是蘋果獨有的一種圖片儲存格式,在Windows中也是無法直接查看的,那Windows怎麽查看蘋果heic文件呢?一起來看看吧! 1、首
python3 寫CSV文件多一個空行的解決辦法
bsp eggs line 參數 lov blog mini csv span Python文檔中有提到: open(‘eggs.csv‘, newline=‘‘) 也就是說,打開文件的時候多指定一個參數。Python文檔中也有這樣的示例: import csvwith
查看ubuntu磁盤空間占用及占用空間大的文件
讀取 ash bsp 空間占用 服務 啟動服務 blog bug 磁盤利用率 最近老是收到 ecs上有臺服務器的磁盤利用率高 終於有一天 ssh登不上去了 http://blog.csdn.net/aaashen/article/details/50685988
POI以SAX方式解析Excel2007大文件(包含空單元格的處理) Java生成CSV文件實例詳解
arraylist api csdn false gif pac apache all top http://blog.csdn.net/l081307114/article/details/46009015 http://www.cnblogs.com/dreammyl
linux下使用du命令查找最大的文件
linux 空間 最大的 找出某個磁盤下的最大文件,可以使用du命令:語法:du -sh [dirname|filename]當前目錄大小du -sh.當前目錄下文件或目錄的大小du -sh*顯示前十個占用空間最大的文件或目錄du -s * | sort -nr | head-n:純數字排序
Linux 如何通過命令查看一個文件的某幾行(中間幾行或最後幾行)
inux 一行 [] 讀取 filename 多個 小寫 統計字數 sql linux 如何顯示一個文件的某幾行(中間幾行) 【一】從第3000行開始,顯示1000行。即顯示3000~3999行 cat filename | tail -n +3000 | head -n