Python爬蟲--爬取歷史天氣資料

阿新 • • 發佈：2019-01-19

寫在前面：爬蟲是老鼠屎在進入實驗室後接觸的第一個任務，當時剛剛接觸程式碼的老鼠屎一下子迎來了地獄難度的爬微博簽到資料。爬了一個多月毫無成果，所幸帶我的師兄從未給我疾言厲色，他給與了我最大的包容與理解。儘管無功而返，但是那一個月也給了老鼠屎充足的學習時間，讓老鼠屎對爬蟲有了一點點的理解和執念。今天老鼠屎由於專案原因又需要爬天氣資料，所以在這裡把老鼠屎的一點經驗寫在這裡，希望能給向曾經的我一樣迷茫的朋友們一點點幫助，付出的努力總會在不經意的時候綻放

2 爬取資料

4 全部程式碼

5 推薦資料

1 所需要的庫

爬蟲用到了requests庫和BeautifulSoup庫，這兩個庫分別用於對網頁的獲取和分析，對於資料的整理用到了pandas庫。這三個庫的安裝非常簡單，直接在cmd或者powershell當中pip install即可。唯一需要注意的是BeautifulSoup庫安裝時是在cmd中輸入pip install beautifulsoup4。安裝有問題的童鞋可以參考老鼠屎的

舊博文進行安裝。安裝好後即可匯入所需的庫。

import requests                                                                      
from bs4 import BeautifulSoup 
import pandas as pd

2 爬取資料

2.1 獲取網頁內容

紅色方框內容為網頁的url，這裡需要用requests庫進行請求。

url = "https://lishi.tianqi.com/qingdao/201603.html"                                                                                                                                                   
response = requests.get(url)

可以看一下response：。狀態碼為200證明請求成功。

2.2 對網頁進行解析

對網頁解析用到BeautifulSoup庫。

soup = BeautifulSoup(response.text, 'html.parser')

我們可以看一下現在的soup

這裡有網頁裡所有的內容。我們需要從這裡提取出我們想要的內容。我們回到要爬取的網頁，按F12可以看到網頁的原始碼。

這裡我們要爬的是左下角的天氣資料。我們點選中間上方紅色框框住的箭頭按鈕，點選要爬取的內容，即可在右面網頁原始碼快速找到它所對應的部分。

我們可以發現，所需要的內容都在<div class="tqtongji2">標籤下。每個<ul>裡面包含一天的天氣，每個<li>裡面有不同的內容（如日期、天氣、最高氣溫、最低氣溫等）。我們可以用BeautifulSoup裡面的find和find_all來選取想要的內容。

tqtongji2=soup.find("div",{"class":"tqtongji2"})
ul_all=tqtongji2.find_all("ul")
data_all=[]
for i in ul_all:
    li_all=i.find_all("li")
    data=[]
    for j in li_all:
        data.append(j.text)
    data_all.append(data)

可以看一下現在的data_all的樣子

3 資料的整理與儲存

接下來就是為資料儲存做準備啦。把資料放到DataFrame裡面，之後儲存至csv即可。

weather=pd.DataFrame(data_all)
weather.columns=["日期","最高氣溫","最低氣溫","天氣","風向","風力"]
weather.drop([0],inplace=True)
weather.to_csv("xxx.csv",encoding="utf_8_sig")

這裡需要注意的是，因為內容中有中文，直接儲存會亂碼，所以儲存時要加上encoding="utf_8_sig"。詳細情況可以參考老鼠屎的舊博文。

4 全部程式碼

import requests                                                                      
from bs4 import BeautifulSoup 
import pandas as pd

url = "https://lishi.tianqi.com/qingdao/201603.html"                                                                                                                                                   
response = requests.get(url)                                                     
soup = BeautifulSoup(response.text, 'html.parser') 
tqtongji2=soup.find("div",{"class":"tqtongji2"})
ul_all=tqtongji2.find_all("ul")
data_all=[]
for i in ul_all:
    li_all=i.find_all("li")
    data=[]
    for j in li_all:
        data.append(j.text)
    data_all.append(data)
weather=pd.DataFrame(data_all)
weather.columns=["日期","最高氣溫","最低氣溫","天氣","風向","風力"]
weather.drop([0],inplace=True)
weather.to_csv("xxx.csv",encoding="utf_8_sig")

5 推薦資料

最後推薦一點老鼠屎認為不錯的資料。

嵩天老師的《Python網路爬蟲與資訊提取》課程。這個課程可以在中國大學MOOC網站上找到，是給免費的課程。老師的講解十分清晰，對於想要入門爬蟲的童鞋來說是個不錯的選擇。

寫在後面：儘管老鼠屎爬的這個是個非常簡單的例子，但是老鼠屎希望通過自己的親身經歷鼓勵那些迷茫的童鞋們不要拋棄不要放棄。希望大家都能夠學有所成

Python爬蟲--爬取歷史天氣資料

1 所需要的庫

2 爬取資料

2.1 獲取網頁內容

2.2 對網頁進行解析

3 資料的整理與儲存

4 全部程式碼

5 推薦資料

Python爬蟲--爬取歷史天氣資料

（8）Python爬蟲——爬取豆瓣影評資料

python爬蟲爬取貓眼電影資料

python爬取歷史天氣

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python爬蟲爬取網上圖片原始碼，可用來製作深度學習資料集

python爬蟲爬取今日頭條APP資料（無需破解as ,cp，_cp_signature引數）

python爬蟲爬取京東店鋪商品價格資料(更新版)

python爬蟲爬取淘寶搜尋頁面商品資訊資料

python 爬蟲爬取網易嚴選全網商品價格評論資料

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python爬蟲爬取資料存入MongoDB

python爬蟲-爬取愛情公寓電影（2018）豆瓣短評並資料分析

Python爬蟲爬取網頁資料並存儲（一）

Python 爬蟲爬取京東商品評論資料，並存入CSV檔案

Python爬蟲爬取NBA資料

python爬蟲爬取淘寶網頁資料

python爬蟲爬取美團西安美食資料

使用python爬蟲爬取百度手機助手網站中app的資料

Python爬蟲-爬取糗事百科段子

Python爬蟲--爬取歷史天氣資料

1 所需要的庫

2 爬取資料

2.1 獲取網頁內容

2.2 對網頁進行解析

3 資料的整理與儲存

4 全部程式碼

5 推薦資料

相關推薦