零基礎爬取堆糖網圖片(一)
阿新 • • 發佈:2020-04-06
## 零基礎爬取堆糖網圖片(一)
### 全文介紹:
首先**堆糖網**是一個美圖桌布興趣社群,有大量的~~美女~~圖片
今天我們實現搜尋關鍵字爬取堆糖網上相關的美圖。
當然我們還可以實現多執行緒爬蟲,加快爬蟲爬取速度
![](https://img2020.cnblogs.com/blog/1579925/202004/1579925-20200406193144147-375816940.png)
#### 涉及內容:
1. 爬蟲基本流程
2. requests庫基本使用
3. urllib.parse模組
4. json包
5. jsonpath庫
#### 圖例說明:
1. 請求與響應
```mermaid
sequenceDiagram
瀏覽器->>伺服器: 請求
伺服器-->>瀏覽器: 響應
```
2. 爬蟲基本流程
```mermaid
graph TD
A[目標網站] -->|分析網站| B(url)
B --> C[模擬瀏覽器請求資源]
C -->D[解析網頁]
D-->E[儲存資料]
```
### 正文:
#### 1. 分析網站
##### 1.1 目標網址:[https://www.duitang.com/](https://www.duitang.com/)
##### 1.2 關鍵字:
![](https://img2020.cnblogs.com/blog/1579925/202004/1579925-20200406193202734-246672431.png)
值得注意的是url當中是不能有漢字的,所以真正的url是這樣的:
https://www.duitang.com/search/?kw=%E7%BE%8E%E5%A5%B3&type=feed
**思路:**
```python
import urllib.parse
label = '美女'
label = urllib.parse.quote(label)
# 輸出:%E7%BE%8E%E5%A5%B3
```
##### 1.3 資料來源:
首先,這個網站的資料是**瀑布流**式的載入方式。
> 瀑布流舉例說明:你去一個飯店,直接開口要十碗燴麵,這個時候老闆開始下面給你吃