1. 程式人生 > >作業一 統計軟件介紹與數據操作

作業一 統計軟件介紹與數據操作

clu 數據挖掘 管理 模塊 大量 bsp 選擇 清晰 選中

一、軟件介紹

1.spss

SPSS原名StatisticalPackage for the Social Sciences(社會科學統計軟件包),現在已被IBM收購,改名後仍然是叫SPSS,不過全稱變更為StatisticalProduct and Service Solutions(統計產品與服務解決方案)。SPSS是一個專業的統計分析軟件。除了基本的統計分析功能之外,還提供非線性回歸、聚類分析(Clustering)、主成份分析(PCA)和基本的時序分析。SPSS在某種程度上可以進行簡單的數據挖掘工作,比如K-Means聚類,不過數據挖掘的主要工作一般都是使用其自家的Clementine(現已改名為SPSS Modeler)完成。需要提一點的是SPSS Modeler的建模功能非常強大且智能化,同時還可以通過其自身的CLEF(ClementineExtension Framework)框架和Java開發新的建模插件,擴展性相當好,是一個不錯的商業BI方案。

技術分享

2.R

R是一套完整的數據處理、計算和制圖軟件系統。其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計制圖功能;簡便而強大的編程語言:可操縱數據的輸入和輸出,可實現分支、循環,用戶可自定義功能。與其說R是一種統計軟件,還不如說R是一種數學計算的環境,因為R並不是僅僅提供若幹統計程序、使用者只需指定數據庫和若幹參數便可進行一個統計分析。R的思想是:它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合需要的

技術分享

3.Stata

Stata 是一套提供其使用者數據分析、數據管理以及繪制專業圖表的完整及整合性統計軟件。它提供許許多多功能,包含線性混合模型、均衡重復反復及多項式普羅比模式。用Stata繪制的統計圖形相當精美。Stata的統計功能很強,除了傳統的統計分析方法外,還收集了近20年發展起來的新方法,如Cox比例風險回歸,指數與Weibull回歸,多類結果與有序結果的logistic回歸,Poisson回歸,負二項回歸及廣義負二項回歸,隨機效應模型等。

技術分享

4.Python

Python是一種面向對象、解釋型計算機程序設計語言。Python語法簡潔而清晰,閱讀一個良好的Python程序就感覺像是在讀英語一樣。它使你能夠專註於解決問題而不是去搞明白語言本身。另外具有豐富和強大的類庫,例如numpy、matplotlib、Pandas的引入,是的python能支持幾乎所有統計分析和建模的工作,另外由於Pandas,使得Python在結構化數據的處理上非常給力。它常被昵稱為膠水語言,能夠把用其他語言制作的各種模塊(尤其是C/C++)很輕松地聯結在一起。常見的一種應用情形是,使用Python快速生成程序的原型(有時甚至是程序的最終界面),然後對其中有特別要求的部分,用更合適的語言改寫,比如3D遊戲中的圖形渲染模塊,性能要求特別高,就可以用C/C++重寫,而後封裝為Python可以調用的擴展類庫。

技術分享

二、數據操作

1.打開數據集

操作:文件→打開→數據→選擇要打開的數據集

技術分享

2.增刪改數據

(1)修改數據

操作:找到需要修改的數據,雙擊激活後即可修改

(2)插入或刪除一行數據

操作:點擊所要插入行號→點擊工具欄的“插入行”圖標

選中所要刪除的行→按Delete鍵(3)插入或刪除一列

操作:找到所要插入的列→點擊工具欄的“插入列”圖標

選中索要刪除的列→按Delete鍵

3.產生新變量

基本操作:點擊轉換按鈕→計算變量

技術分享

(1)求差求和

操作:基於上述基本操作後,目標變量命名→編寫變量標簽→輸入表達式→輸出結果,此操作可運用於求差求和求均值最大值等。

技術分享技術分享

技術分享技術分享

(2)加上IF條件求平均值

操作:基於基本操作後,點擊如果按鈕→輸入條件→輸入公式→輸出結果

技術分享技術分享

技術分享

(4)排序

操作:點擊數據按鈕→排序個案→選擇排序依據和排列順序→輸出結果

技術分享技術分享

(5)合並文件

操作:點擊數據按鈕→合並文件→添加個案→選擇要新加入的數據集→Ctrl鍵同時選中不同名變量→配對→輸出

技術分享技術分享

技術分享技術分享

附圖:

技術分享

技術分享

作業一 統計軟件介紹與數據操作