1. 程式人生 > >網路爬蟲-爬取指定城市空氣質量檢測資料

網路爬蟲-爬取指定城市空氣質量檢測資料

爬取指定城市空氣質量檢測資料

網站連結 → https://www.aqistudy.cn/historydata/

以月資料為例,見下圖:
在這裡插入圖片描述

然後我們通過console除錯可以發現 這個網頁在items裡面已經將資料打包好了,如下圖所示
在這裡插入圖片描述

沒毛病,資料全都對得上,接下來的思路就是利用拼接url的方法,使用selenium進入網頁,利用selenium的注入js方法,直接讓網頁返回我們想要的資料來源,然後儲存下來即可。

result = browser.execute_script("return items") # 直接接受網頁返回的json資料

好的 接下來就是喜聞樂見的測試環節了~

在這裡插入圖片描述

可以發現並沒有什麼毛病。但是當我們開啟儲存下來的CSV檔案的時候會發現!

在這裡插入圖片描述

What the fuck? 跟我想象中的有出入啊! 咋回事呢小老弟全是亂碼 –
於是面向百度瞭解了一波
解決方案如下:

1. 先將CSV用txt記事本開啟,然後選擇ANSI編碼方式。另存為,點編碼這裡,這裡的編碼有這麼幾種選擇ANSI/Unicode/Unicode big endian/UTF-8
2. 選擇ANSI,然後儲存,再用Excel開啟,就不會有亂碼了。

在這裡插入圖片描述

在這裡插入圖片描述

OK 大功告成 資料格式也全都正確了 very nice!

github傳送門 → Go and have a look