1. 程式人生 > >機器學習(包括深度神經網路)python開發環境搭建(超詳細)(適合新手)

機器學習(包括深度神經網路)python開發環境搭建(超詳細)(適合新手)

最近接了一個大資料專案,需要進行到資料分析,作為一個從程式設計師往資料探勘工程師轉行的人來說,R語言在靈活性上不如Python,並且在深度神經網路等機器學習開源模組上,python也比R語言有更好的支援。本文主要利用Ubuntu來搭建虛擬機器來進行資料分析工作,主要利用了sklearn和keras開源模組。Google開發的深度神經網路python開源模組tensorflow目前不支援windows系統,因此強烈建議使用linux作業系統,而redhat雖然是Linux系統中比較成熟的一種,但是其yum是付費服務,並且沒有預裝apt-get等大量的外掛,因此選擇ubuntu系統,對於剛入門的新手來說更友好。 環境配置: VM Ware 12.0(在不同主機之間的檔案複製貼上比Visual Box要好一點) Anaconda2 (python2.7以及相關的科學計算整合,安裝完成後就可以直接使用科學計算所有的模組,包括最流行的numpy,pandas) JetBrain Pycharm (Python開發最火的IDE整合開發工具,方便使用git和github進行程式碼的管理) Ubuntu16.01 amd64位 1、Ubuntu虛擬機器安裝
選擇Ubuntu的ISO映象檔案,這時VM Ware將自動選擇為簡易安裝,不用考慮分割槽問題
設定虛擬主機的名稱,新建一個user使用者,並設定登入密碼,這個密碼必須記住,因為在進行管理員操作的時候必須用到。
選擇虛擬機器的安裝目錄和名稱,這裡命名為Ubunu64位
考慮到做大資料的資料分析,因此磁碟大小建議分配50G,反正只是邏輯磁碟,分配多點沒有問題。
點選完成,則VM Ware自動幫你安裝虛擬機器,此時你只要耐心等待即可。 輸入剛剛設定的登入密碼,進入桌面 2、安裝git 點選左上角的圖示,點選terminal,開啟命令列視窗。
輸入sudo apt-get install git,下載git安裝包 輸入git config --global user.name "Your Name"git config --global user.email "
[email protected]
"設定你的git的使用者名稱和郵箱
設定完成後,輸入git config -list,顯示資訊如下: user.name=Your Name  [email protected] 在命令列中輸入git,要是有正確返回,則git安裝完成。 3、Anaconda2的安裝 從官網上直接下載Anaconda2 適合linux的安裝包,複製貼上到/home/bigdata/Downloads下,建議直接在Ubuntu的火狐瀏覽器下直接下載,這樣直接從網上將Anaconda2、pycharm下載到相應的目錄。pycharm下載後是tar.gz格式,可以右鍵點選extract here進行解壓到當前目錄。同時,在/home/bigdata/Downloads下新建data、tmp兩個資料夾,存放資料分析的資料和模型結果。 此時,由於下載的Anaconda2是一個.sh檔案,Ubuntu系統對於.sh檔案不能很好的相容,所以不能直接點選開啟,必須使用命令列開啟。 輸入cd /home/bigdata/Downloads跳轉到Anaconda2的目錄 輸入bash Anaconda2-4.1.1-Linux-x86_64.sh,啟動安裝程式,按照提示進行操作 完成後,/home/bigdata資料夾會有一個anaconda2的資料夾。 新增環境變數,使系統能夠使用Anaconda裡的工具命令。 輸入sudo gedit /etc/environment,輸入登入密碼,這裡的密碼是不可見的。得到 在PATH路徑中新增anaconda的bin包路徑,注意要新增到“”中,並且用:隔開。

點選save儲存。然後退出 開啟命令列,輸入python,如果出現下圖,則Anaconda安裝成功。 但這時安裝好的Anaconda2裡的python2.7.12仍然不是系統預設的Python工具 輸入sudo rm /usr/bin/python刪除原系統預設的python工具 輸入sudo ln -s /home/bigdata/anaconda2/bin/python2.7 /usr/bin/python建立新連線 輸入source /etc/environment讓操作生效。 輸入python,得到下列資訊,則python和anaconda徹底安裝成功。
4、機器學習相關開源模組安裝 安裝Anaconda後,可以使用pip或conda工具進行下載開源Python模組,但是必須保持網路連線狀態。由於深度神經網路和一些機器學習的模組很新,所以必須兩個命令都用到。 輸入: conda install theano conda install keras pip install tensorflow pip install sklearn 安裝提示資訊安裝,完成後,輸入python進入python命令列工具,分別輸入import keras和import sklearn,如果沒有錯誤資訊,則模組安裝完成。 5、使用pycharm 開啟命令列輸入cd /home/bigdata/Downloads/pycharm-community-2016.2.2/bin 輸入 bash pycharm.sh執行pycharm 點選左上角的FIle-->settings--->version control----->github,輸入自己的github賬號和密碼,點選測試 點選Test後,第一次會讓你設定本地github的登入密碼,這個密碼必須記住,因為是不是系統在你提交程式碼或者從github上clone時需要填寫這個密碼來驗證。如果你的github賬號密碼都正確,則出現下圖。 在選擇git這個選項,設定你已經安裝好的git工具的路徑,一般為/usr/bin/git. 點選Test,出現下圖則github和git都配置成功,可以使用了。 5、從github中匯入專案 從選單欄中點選VCS,選擇checkout from version control,再選擇github。 然後就可以選擇你想要的專案匯入到本地了 有興趣的同學可以在URL那欄複製貼上https://github.com:braveld/PythonProgram.git,這是我分享的我找的一些機器學習的程式碼,以及sklearn和keras的用法,比較容易入手。機器學習的訓練集和測試集留言並留下你的郵箱,我會盡快發給你。