1. 程式人生 > >第一次作業 數據分析軟件介紹

第一次作業 數據分析軟件介紹

源代碼 發出 模塊 愛好者 技術 找到 logistic social 對象

Python Python[1] (英國發音:/?pa?θ?n/ 美國發音:/?pa?θɑ?n/), 是一種面向對象的解釋型計算機程序設計語言,由荷蘭人Guido van Rossum於1989年發明,第一個公開發行版發行於1991年。 Python是純粹的自由軟件, 源代碼和解釋器CPython遵循 GPL(GNU General Public License)協議[2] 。Python語法簡潔清晰,特色之一是強制用空白符(white space)作為語句縮進。 Python具有豐富和強大的庫。它常被昵稱為膠水語言,能夠把用其他語言制作的各種模塊(尤其是C/C++)很輕松地聯結在一起。常見的一種應用情形是,使用Python快速生成程序的原型(有時甚至是程序的最終界面),然後對其中[3] 有特別要求的部分,用更合適的語言改寫,比如3D遊戲中的圖形渲染模塊,性能要求特別高,就可以用C/C++重寫,而後封裝為Python可以調用的擴展類庫。需要註意的是在您使用擴展類庫時可能需要考慮平臺問題,某些可能不提供跨平臺的實現。 7月20日,IEEE發布2017年編程語言排行榜:Python高居首位[4] 。 自從20世紀90年代初Python語言誕生至今,它已被逐漸廣泛應用於系統管理任務的處理和Web編程。 Python的創始人為Guido van Rossum。1989年聖誕節期間,在阿姆斯特丹,Guido為了打發聖誕節的無趣,決心開發一個新的腳本解釋程序,做為ABC 語言的一種繼承。之所以選中Python(大蟒蛇的意思)作為該編程語言的名字,是因為他是一個叫Monty Python的喜劇團體的愛好者。ABC是由Guido參加設計的一種教學語言。就Guido本人看來,ABC 這種語言非常優美和強大,是專門為非專業程序員設計的。但是ABC語言並沒有成功,究其原因,Guido 認為是其非開標識
放造成的。Guido 決心在Python 中避免這一錯誤。同時,他還想實現在ABC 中閃現過但未曾實現的東西。 就這樣,Python在Guido手中誕生了。可以說,Python是從ABC發展起來,主要受到了Modula-3(另一種相當優美且強大的語言,為小型團體所設計的)的影響。並且結合了Unix shell和C的習慣。 Python[5] 已經成為最受歡迎的程序設計語言之一。2011年1月,它被TIOBE編程語言排行榜評為2010年度語言。自從2004年以後,python的使用率呈線性增長[6] 由於Python語言的簡潔性、易讀性以及可擴展性,在國外用Python做科學計算的研究機構日益增多,一些知名大學已經采用Python來教授程序設計課程。例如卡耐基梅隆大學的編程基礎、麻省理工學院的計算機科學及編程導論就使用Python語言講授。眾多開源的科學計算軟件包都提供了Python的調用接口,例如著名的計算機視覺庫OpenCV、三維可視化庫VTK、醫學圖像處理庫ITK。而Python專用的科學計算擴展庫就更多了,例如如下3個十分經典的科學計算擴展庫:NumPy、SciPy和matplotlib,它們分別為Python提供了快速數組處理、數值運算以及繪圖功能。因此Python語言及其眾多的擴展庫所構成的開發環境十分適合工程技術、科研人員處理實驗數據、制作圖表,甚至開發科學計算應用程序。 說起科學計算,首先會被提到的可能是MATLAB。然而除了MATLAB的一些專業性很強的工具箱還無法替代之外,MATLAB的大部分常用功能都可以在Python世界中找到相應的擴展庫。和MATLAB相比,用Python做科學計算有如下優點: ● 首先,MATLAB是一款商用軟件,並且價格不菲。而Python完全免費,眾多開源的科學計算庫都提供了Python的調用接口。用戶可以在任何計算機上免費安裝Python及其絕大多數擴展庫。 ● 其次,與MATLAB相比,Python是一門更易學、更嚴謹的程序設計語言。它能讓用戶編寫出更易讀、易維護的代碼。 ● 最後,MATLAB主要專註於工程和科學計算。然而即使在計算領域,也經常會遇到文件管理、界面設計、網絡通信等各種需求。而Python有著豐富的擴展庫,可以輕易完成各種高級任務,開發者可以用Python實現完整應用程序所需的各

R語言

R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、源代碼開放的軟件,它是一個用於統計計算和統計制圖的優秀工具。

R是統計領域廣泛使用的誕生於1980年左右的S語言的一個分支。可以認為R是S語言的一種實現。而S語言是由AT&T貝爾實驗室開發的一種用來進行數據探索、統計分析和作圖的解釋型語言。最初S語言的實現版本主要是S-PLUS。S-PLUS是一個商業軟件,它基於S語言,並由MathSoft公司的統計科學部進一步完善。後來新西蘭奧克蘭大學的Robert Gentleman和Ross Ihaka及其他誌願人員開發了一個R系統。由“R開發核心團隊”負責開發。R可以看作貝爾實驗室(AT&T BellLaboratories)的RickBecker,JohnChambers和AllanWilks開發的S語言的一種實現。當然,S語言也是S-Plus的基礎。所以,兩者在程序語法上可以說是幾乎一樣的,可能只是在函數方面有細微差別,程序十分容易地就能移植到一程序中,而很多一的程序只要稍加修改也能運用於R。 R作為一種統計分析軟件,是集統計分析與圖形顯示於一體的。它可以運行於UNIX,Windows和Macintosh的操作系統上,而且嵌入了一個非常方便實用的幫助系統,相比於其他統計分析軟件,R還有以下特點: 1.R是自由軟件。這意味著它是完全免費,開放源代碼的。可以在它的網站及其鏡像中下載任何有關的安裝程序、源代碼、程序包及其源代碼、文檔資料。標準的安裝文件身自身就帶有許多模塊和內嵌統計函數,安裝好後可以直接實現許多常用的統計功能。[2] 2.R是一種可編程的語言。作為一個開放的統計編程環境,語法通俗易懂,很容易學會和掌握語言的語法。而且學會之後,我們可以編制自己的函數來擴展現有的語言。這也就是為什麽它的更新速度比一般統計軟件,如,SPSS,SAS等快得多。大多數最新的統計方法和技術都可以在R中直接得到。[2] 3. 所有R的函數和數據集是保存在程序包裏面的。只有當一個包被載入時,它的內容才可以被訪問。一些常用、基本的程序包已經被收入了標準安裝文件中,隨著新的統計分析方法的出現,標準安裝文件中所包含的程序包也隨著版本的更新而不斷變化。在另外版安裝文件中,已經包含的程序包有:base一R的基礎模塊、mle一極大似然估計模塊、ts一時間序列分析模塊、mva一多元統計分析模塊、survival一生存分析模塊等等.[2] 4.R具有很強的互動性。除了圖形輸出是在另外的窗口處,它的輸入輸出窗口都是在同一個窗口進行的,輸入語法中如果出現錯誤會馬上在窗口口中得到提示,對以前輸入過的命令有記憶功能,可以隨時再現、編輯修改以滿足用戶的需要。輸出的圖形可以直接保存為JPG,BMP,PNG等圖片格式,還可以直接保存為PDF文件。另外,和其他編程語言和數據庫之間有很好的接口。[2] 5.如果加入R的幫助郵件列表一,每天都可能會收到幾十份關於R的郵件資訊。可以和全球一流的統計計算方面的專家討論各種問題,可以說是全世界最大、最前沿的統計學家思維的聚集地.[2] R是基於S語言的一個GNU項目,所以也可以當作S語言的一種實現,通常用S語言編寫的代碼都可以不作修改的在R環境下運行。 R的語法是來自Scheme。R的使用與S-PLUS有很多類似之處,這兩種語言有一定的兼容性。S-PLUS的使用手冊,只要稍加修改就可作為R的使用手冊。所以有人說:R,是S-PLUS的一個“克隆”。 但是請不要忘了:R是免費的(R is free)。R語言源代碼托管在github,具體地址可以看參考資料。[3] 。 R語言的下載可以通過CRAN的鏡像來查找。 R語言有域名為.cn的下載地址,有六個,其中兩個由Datagurn,由中國科學技術大學提供的。R語言Windows版,其中由兩個下載地點是Datagurn和USTC提供的。

Stata

Stata 是一套提供其使用者數據分析、數據管理以及繪制專業圖表的完整及整合性統計軟件。它提供許許多多功能,包含線性混合模型、均衡重復反復及多項式普羅比模式。用Stata繪制的統計圖形相當精美。 Stata的統計功能很強,除了傳統的統計分析方法外,還收集了近20年發展起來的新方法,如Cox比例風險回歸,指數與Weibull回歸,多類結果與有序結果的logistic回歸,Poisson回歸,負二項回歸及廣義負二項回歸,隨機效應模型等。具體說, Stata具有如下統計分析能力: 數值變量資料的一般分析:參數估計,t檢驗,單因素和多因素的方差分析,協方差分析,交互效應模型,平衡和非平衡設計,嵌套設計,隨機效應,多個均數的兩兩比較,缺項數據的處理,方差齊性檢驗,正態性檢驗,變量變換等。 分類資料的一般分析:參數估計,列聯表分析 ( 列聯系數,確切概率 ) ,流行病學表格分析等。 等級資料的一般分析:秩變換,秩和檢驗,秩相關等 相關與回歸分析:簡單相關,偏相關,典型相關,以及多達數十種的回歸分析方法,如多元線性回歸,逐步回歸,加權回歸,穩鍵回歸,二階段回歸,百分位數 ( 中位數 ) 回歸,殘差分析、強影響點分析,曲線擬合,隨機效應的線性回歸模型等。 其他方法:質量控制,整群抽樣的設計效率,診斷試驗評價, kappa等。

SPSS統計軟件
SPSS是英文Statistical package for the social science 的縮寫,翻譯成漢語是社會學統計程序包,20世紀60年代末由美國斯坦福大學的三位研究生研制,1975年在芝加哥組建SPSS總部。SPSS系統特點是操作比較方便,統計方法比較齊全,繪制圖形、表格較有方便,輸出結果比較直觀。SPSS是用FORTRAN語言編寫而成。適合進行從事社會學調查中的數據分析處理。最新版為13.0版。網址:http://www.spss.com/。
SPSS原名社會科學統計軟件包,現已改名為統計解決方案服務軟件。是世界著名的統計分析軟件之一。
  20世紀60年代末,美國斯坦福大學的三位研究生研制開發了最早的統計分析軟件SPSS,同時成立了SPSS公司,並於1975年在芝加哥組建了 SPSS總部。20世紀80年代以前,SPSS統計軟件主要應用於企事業單位。1984年SPSS總部首先推出了世界第一套統計分析軟件微機版本 SPSS/PC+,開創了SPSS微機系列產品的先河,從而確立了個人用戶市場第一的地位。
同時SPSS公司推行本土化策略,目前已推出9個語種版本。SPSS/PC+的推出,極大地擴充了它的應用範圍,使其能很快地應用於自然科學、技術科學、社會科學的各個領域,世界上許多有影響的報刊雜誌紛紛就SPSS的自動統計繪圖、數據深入分析、使用靈活方便、功能設計齊全等方面給予了高度的評價與稱贊。目前已經在國內廣泛流行起來。它使用Windows的窗口方式展示各種管理和分析數據方法的功能,使用對話框展示出各種功能選擇項,只要是掌握一定的 Windows操作技能,粗通統計分析原理,就可以使用該軟件進行各種數據分析,為實際工作服務。

SPSS for Windows是一個組合式軟件包,目前已經開發出SPSS12版本,它集數據整理、分析功能於一身。用戶可以根據實際需要和計算機的功能選擇模塊,以降低對系統硬盤容量的要求,有利於該軟件的推廣應用。SPSS的基本功能包括數據管理、統計分析、圖表分析、輸出管理等等。SPSS統計分析過程包括描述性統計、均值比較、一般線性模型、相關分析、回歸分析、對數線性模型、聚類分析、數據簡化、生存分析、時間序列分析、多重響應等幾大類,每類中又分好幾個統計過程,比如回歸分析中又分線性回歸分析、曲線估計、Logistic回歸、Probit回歸、加權估計、兩階段最小二乘法、非線性回歸等多個統計過程,而且每個過程中又允許用戶選擇不同的方法及參數。SPSS也有專門的繪圖系統,可以根據數據繪制各種統計圖形和地圖。
SPSS for Windows的分析結果清晰、直觀、易學易用,而且可以直接讀取EXCEL及DBF數據文件,現已推廣到多種操作系統的計算機上,最新的版采用 DAA(Distributed Analysis Architecture,分布式分析系統),全面適應互聯網,支持動態收集、分析數據和HTML格式報告,領先於諸多競爭對手。
  方便易用是SPSS for Windows的主要優點,同時也是SPSS不夠全面的原因所在

spss的簡單操作

技術分享

技術分享

技術分享

雙擊修改一個數據

技術分享

Dele鍵刪除一個數據

技術分享

復制,清除一列數據

技術分享

合並兩個文件裏的數據

技術分享

第一次作業 數據分析軟件介紹