1. 程式人生 > >Python3爬蟲1:簡單介紹

Python3爬蟲1:簡單介紹

我們先來簡單介紹下python爬蟲的重要步驟;

  1. 傳送請求:requests
  2. 解析:beautifulsoup
  3. 適當的時候需要使用代理
  4. 加入頭部資訊
  5. 模擬登陸
  6. 資料清洗:pandas

本文是介紹Python3爬蟲的一個很基本的例子,是參考《Python網路資料採集》這本書來學習的

先來看看用到的庫

urllib
BeautifulSoup
再來看看程式碼
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.pythonscraping.com/pages/page1.html")
bsObj = BeautifulSoup(html.read())
print(bsObj.h1)
看看URL裡面的內容:


所以通過上面的程式碼做的事情就是打開了指定的URL,然後解析出裡面的內容。

urllib和BeautifulSoup是兩個很基礎的庫,來看看這兩個庫到底提供了哪些功能。

urllib:

https://docs.python.org/3/library/urllib.html

這個庫提供一些跟URL操作相關的功能。

BeautifulSoup:

https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

將一段文件傳入BeautifulSoup 的構造方法,就能得到一個文件的物件, 可以傳入一段字串或一個檔案控制代碼.

首先,文件被轉換成Unicode,並且HTML的例項都被轉換成Unicode編碼


然後,Beautiful Soup選擇最合適的解析器來解析這段文件,如果手動指定解析器那麼Beautiful Soup會選擇指定的解析器來解析文件.