Python3爬蟲1:簡單介紹
阿新 • • 發佈:2019-02-06
我們先來簡單介紹下python爬蟲的重要步驟;
- 傳送請求:requests
- 解析:beautifulsoup
- 適當的時候需要使用代理
- 加入頭部資訊
- 模擬登陸
- 資料清洗:pandas
本文是介紹Python3爬蟲的一個很基本的例子,是參考《Python網路資料採集》這本書來學習的
先來看看用到的庫
urllib
BeautifulSoup
再來看看程式碼看看URL裡面的內容:from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.pythonscraping.com/pages/page1.html") bsObj = BeautifulSoup(html.read()) print(bsObj.h1)
所以通過上面的程式碼做的事情就是打開了指定的URL,然後解析出裡面的內容。
urllib和BeautifulSoup是兩個很基礎的庫,來看看這兩個庫到底提供了哪些功能。
urllib:
https://docs.python.org/3/library/urllib.html
這個庫提供一些跟URL操作相關的功能。
BeautifulSoup:
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
將一段文件傳入BeautifulSoup 的構造方法,就能得到一個文件的物件, 可以傳入一段字串或一個檔案控制代碼.
首先,文件被轉換成Unicode,並且HTML的例項都被轉換成Unicode編碼
然後,Beautiful Soup選擇最合適的解析器來解析這段文件,如果手動指定解析器那麼Beautiful Soup會選擇指定的解析器來解析文件.