1. 程式人生 > >Python網路爬蟲第1章Python基礎

Python網路爬蟲第1章Python基礎

Python網路爬蟲入門第一篇

網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。本篇將使用Python語言作為開發工具從Python基礎開始由淺入深的講解爬蟲的開發流程及設計思路。

  1. Python基礎

★本章導讀★

有句老話說得好,“工欲善其事,必先利其器”,咱們要想學好網路爬蟲的開發,得先學會要用哪些工具吧。同時也為了照顧沒有語言基礎的同學學習爬蟲的開發,使得後面學起來輕鬆些。本章將對Python基礎做一個快速大致的講解學習,如:Python環境搭建和基礎語法等。

★知識要點★

通過本章內容的學習,學完後讀者能掌握以下知識技能。

  1. Python環境的搭建
  2. Python 開發IDE Pycharm的基本使用
  3. 資料型別和變數
  4. 字串編碼
  5. 列表和元組
  6. 流程控制語句if和迴圈
  7. 字典和集合的使用
  8. 函式 

1.1 Python簡介

Python(英國發音:/ˈpaɪθən/ 美國發音:/ˈpaɪθɑːn/), 是一種面向物件的解釋型計算機程式設計語言,由荷蘭人Guido van Rossum於1989年發明,第一個公開發行版發行於1991年。

Python是純粹的自由軟體, 原始碼和直譯器CPython遵循 GPL(GNU General Public License)協議。Python語法簡潔清晰,特色之一是強制用空白符(white space)作為語句縮排。

Python具有豐富和強大的庫。它常被暱稱為膠水語言,能夠把用其他語言製作的各種模組(尤其是C/C++)很輕鬆地聯結在一起。常見的一種應用情形是,使用Python快速生成程式的原型(有時甚至是程式的最終介面),然後對其中有特別要求的部分,用更合適的語言改寫,比如3D遊戲中的圖形渲染模組,效能要求特別高,就可以用C/C++重寫,而後封裝為Python可以呼叫的擴充套件類庫。需要注意的是在您使用擴充套件類庫時可能需要考慮平臺問題,某些可能不提供跨平臺的實現。Python目前分為兩個大的版本,一個是Python2.x版本,另一個是Python3.x版本。這兩個版本差距比較大,考慮到未來的潮流了,當然我們也要緊跟時代的步伐,儘量使用比較新的穩定版本,所以本書中所講例項均使用的為3.x的版本。

1.2 Windows下Python環境的安裝與配置

根據Windows版本(64位/或者32位)從Python官網下載對應的版本安裝包,開啟官網選擇第二選項Downloads,以3.7版本為例,如圖1-1所示。
官方的下載地址為:https://www.python.org

                                                       圖1-1

下載完後,雙擊【python-3.7.0.exe】執行安裝程式安裝Python,如圖1-2所示。

                                                     圖1-2

步驟一:勾選【Add Python 3.7 to PAHT】選項後單擊【Customize installation】選項。這一步的操作作用是把Python加入到系統的path環境變數中。如果不勾選的話,就要手動去配置環境變數。 

步驟二:在彈出的選擇卡中勾選所有的選項,並單擊【Next】按鈕,如圖1-3所示。

選項“Documentation”表示安裝Python的幫助文件;選項“pip”表示安裝Python的第三方包管理工具;

選項“tc/tk and IDLE”表示安裝Python的整合開發環境;選項Python test suite表示安裝Python的標準測試套件,後兩個選擇表示允許版本更新。然後單擊【Next】

                                                         圖1-3

步驟三:保持預設的勾選狀態,然後單擊【Browse】選擇安裝路徑,如圖1-4所示。

                                                       圖1-4

步驟四:最後單擊【Install】進行安裝。

安裝完成後,在控制檯開啟cmd命令列視窗,輸入“python”,檢查是否安裝成功。如果安裝成功了將會出現如圖1-5所示的內容。由於我這兒以前已經安裝過了3.6的版本,所以圖上看到是3.6.2版本。

                                                           圖1-5

1.3 Liunx下的Python環境安裝

Liunx下的Python環境安裝,一般常用的有兩種方式:命令安裝和原始碼安裝。

           Liunx下其實預設裝有Python2.7版本,但是由於我們需要使用3.x版本的Python,所以我們需要自己去安裝。使用原始碼安裝Python需要自己編譯,而且時間比較長。在這裡推薦使用命令去安裝,這樣既簡單又快速,可以省去很多步驟。由於Liunx系統有眾多版本,這裡選擇性的以Ubuntu/Debian/Deepin為例。

          1.命令安裝,開啟命令列視窗,如圖1-6所示。

                                                             圖1-6

步驟一:sudo su 切換到root使用者
步驟二:輸入apt-get install -y python3-dev build-essential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev libcurl4-openssl-dev 此命令成功執行完畢後將會出現如圖1-7所示:

                                                            圖1-7

步驟三:繼續輸入apt-get install -y python3回車,等待安裝。

執行完上面的命令後,Python3就已經安裝完成了。最後還要測試一下是否安裝成功,直接輸入python3,如圖1-8所示:

                                                          圖1-8

如果安裝成功將會看到相關的版本資訊。
接下來我們還要安裝pip3,這裡還是使用命令去安裝,命令如下:
sudo apt-get install -y python3-pip
執行完命令後,就已經安裝成功了

2.原始碼安裝
 原始碼安裝需要去官網手動下載相應的安裝包,官網地址:https://www.python.org,選擇相應的版本下載,這裡還是以3.7版本為例。
首先,下載好安裝包以後,解壓並進入到解壓路徑,命令如下:
tar -zxvf Python-3.7.0.tgz
cd Python-3.7.0
接下來,建立安裝路徑,命令:sudo mkdir /usr/local/python3
然後編譯安裝,整個過程可能會有點長,相關命令如下:
sudo ./configure --prefix=/usr/loacl/python3
sudo make
sudo make install
安裝完畢後,建立軟連結,相關命令如下:
sudo ln -s /usr/local/python3/bin/python3 /usr/bin/python3
隨後下載pip安裝包並安裝pip下載地址:https://github.com/pypa/pip/archive/9.0.1.tar.gz,命令如下:
tar -zxvf  pip-9.0.1.tar.gz
cd pip-9.0.1
python3 setup.py install
安裝完pip3後,再建立pip3的軟連結。相關命令如下:
sudo ln -s /usr/local/python3/bin/pip /usr/bin/pip3
這樣就成功的通過手動編譯安裝好了Python3和pip3

後續內容待有時間在補充!!!!!!!!!!!!!!!!!