1. 程式人生 > >零基礎爬取堆糖網圖片(一)

零基礎爬取堆糖網圖片(一)

## 零基礎爬取堆糖網圖片(一) ### 全文介紹: 首先**堆糖網**是一個美圖桌布興趣社群,有大量的~~美女~~圖片 今天我們實現搜尋關鍵字爬取堆糖網上相關的美圖。 當然我們還可以實現多執行緒爬蟲,加快爬蟲爬取速度 ![](https://img2020.cnblogs.com/blog/1579925/202004/1579925-20200406193144147-375816940.png) #### 涉及內容: 1. 爬蟲基本流程 2. requests庫基本使用 3. urllib.parse模組 4. json包 5. jsonpath庫 #### 圖例說明: 1. 請求與響應 ```mermaid sequenceDiagram 瀏覽器->>伺服器: 請求 伺服器-->>瀏覽器: 響應 ``` 2. 爬蟲基本流程 ```mermaid graph TD A[目標網站] -->|分析網站| B(url) B --> C[模擬瀏覽器請求資源] C -->D[解析網頁] D-->E[儲存資料] ``` ### 正文: #### 1. 分析網站 ##### 1.1 目標網址:[https://www.duitang.com/](https://www.duitang.com/) ##### 1.2 關鍵字: ![](https://img2020.cnblogs.com/blog/1579925/202004/1579925-20200406193202734-246672431.png) 值得注意的是url當中是不能有漢字的,所以真正的url是這樣的: https://www.duitang.com/search/?kw=%E7%BE%8E%E5%A5%B3&type=feed **思路:** ```python import urllib.parse label = '美女' label = urllib.parse.quote(label) # 輸出:%E7%BE%8E%E5%A5%B3 ``` ##### 1.3 資料來源: 首先,這個網站的資料是**瀑布流**式的載入方式。 > 瀑布流舉例說明:你去一個飯店,直接開口要十碗燴麵,這個時候老闆開始下面給你吃