Python爬蟲入門實戰--------一週天氣預報爬取

阿新 • • 發佈：2018-12-29

最近學校剛開始開設爬蟲課，我也剛剛如入門，嘗試寫了一個爬去成都市的一週的天氣預報。

一、軟體和庫的準備：

python環境安裝配置：安裝python所需要的環境（此處就不詳細的進行說明了，百度查詢），最好是使用python3.x版本，雖然現在大部分公司的專案都還是在使用2.x版本，但是3.x才是目前主流的，以後的專案肯定使用3.x居多。
編輯器：選擇一個合適的編輯器，python有許多編輯器，但是題主推薦使用pycharm和jupyter，具體安裝過程這裡就不再進行說明，安裝jupyter使用Anaconda一體式安裝要方便快捷一點。

需要使用到的庫：這裡我們要使用的庫主要有urllib.request、csv以及BeautifulSoup

urllib庫：這個安裝python自帶的庫，也可以使用第三方更加方便強大的庫requests，這個庫需要自己去手動安裝，在cmd裡面使用pip install requests安裝就好了

csv庫：屬於安裝pytohn環境自帶的庫，不需要再去手動安裝

BeautifulSoup庫：這個庫需要手動安裝，BeautifulSoup是一個網頁解析庫，它支援很多解析器，不過最主流的有兩個。一個是python標準庫，一個是lxml HTML 解析器。兩者的使用方法相似：
from

bs4 import BeautifulSoup

# Python的標準庫

BeautifulSoup(html, 'html.parser')

# lxml

BeautifulSoup(html, 'lxml')

使用pip安裝 pip install beautifulsoup安裝，如果出現這種問題：
SyntaxError: Missing parentheses in call to 'print'. Did you mean print(int "Unit tests have failed!")?

----------------------------------------
Command "python setup.py egg_info" failed with error code 1 in C:\Users\17933\AppData\Local\Temp\pip-install-n7hwndyc\beautifulsoup\

是因為是python3.6對beautifulsoup4支援不夠好

就需要使用pip install --upgrade --force-reinstall beautifulsoup4安裝；

如果是使用的Anaconda安裝就方便多了，直接在環境裡面點選安裝就好了

二、爬蟲的編寫：

相關包的匯入：

import csv
import urllib.request
from  bs4 import BeautifulSoup      ## 引入解析模組BS4

模擬瀏覽器得到資料

url = "http://www.weather.com.cn/weather/101270101.shtml"
header = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36")  # 設定頭部資訊
opener = urllib.request.build_opener()  # 修改頭部資訊
opener.addheaders = [header]         #修改頭部資訊
request = urllib.request.Request(url)   # 製作請求
response = urllib.request.urlopen(request)   #  得到請求的應答包
html = response.read()   #將應答包裡面的內容讀取出來
html = html.decode('utf-8')    # 使用utf-8進行編碼，不重新編碼就會成亂碼

查詢要爬取的部分

我們在頁面上找到我們所需要的資訊部分，我們需要日期、天氣以及溫度

找到對應的程式碼部分

全圖如下:

# 以上部分的程式碼如下：
final = []   #初始化一個空的list，我們為將最終的的資料儲存到list
bs = BeautifulSoup(html,"html.parser")   # 建立BeautifulSoup物件
body = bs.body  # 獲取body部分
data = body.find('div',{'id':'7d'})  # 找到id為7d的div

之後我們再往下看，我們所需要的資訊都存在ul標籤中，我們需要查詢ul標籤

ul = data.find('ul')  # 獲取ul部分，由於ul標籤只有一個  我們使用find()函式，如果有多個我們使用find_all()

所需要的資訊在ul標籤裡面的li標籤內部，而且不止一個，所以我們需要使用find_all()方法

li = ul.find_all('li')  # 獲取所有的li     返回的是list物件

4.對查詢到部分進行資料的爬取

我們最後將所有的資料儲存在list之中在進行寫入檔案

日期在li標籤的h1標籤之中

天氣在li標籤的第一個p標籤之中

溫度在第二個p標籤之中的span標籤之中

i = 0
for day in li:  # 對每個li標籤中的內容進行遍歷
    if i < 7:
        temp = []
        date = day.find('h1').string # 找到日期
#         print (date)
        temp.append(date)  # 新增到temp中
    #     print (temp)
        inf = day.find_all('p')  # 找到li中的所有p標籤
    #     print(inf)
    #     print (inf[0])
        temp.append(inf[0].string)  # 第一個p標籤中的內容（天氣狀況）加到temp中
        if inf[1].find('span') is None:
            temperature_highest = None # 天氣預報可能沒有當天的最高氣溫（到了傍晚，就是這樣），需要加個判斷語句,來輸出最低氣溫
        else:
            temperature_highest = inf[1].find('span').string # 找到最高溫度
            temperature_highest = temperature_highest.replace('℃', '') # 到了晚上網站會變，最高溫度後面也有個℃
        temperature_lowest = inf[1].find('i').string  #找到最低溫度
        temperature_lowest = temperature_lowest.replace('℃', '')  # # 最低溫度後面有個℃，去掉這個符號
        temp.append(temperature_highest)
        temp.append(temperature_lowest)
        final.append(temp)  # 將每一次迴圈的list的內容都插入最後儲存資料的list
        i = i +1

5.寫入檔案：

with open('weather.csv', 'a', errors='ignore', newline='') as f:
            f_csv = csv.writer(f)
            f_csv.writerows(final)

三、全部程式碼

import csv
import urllib.request
from  bs4 import BeautifulSoup

url = "http://www.weather.com.cn/weather/101270101.shtml"
header = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36")  # 設定頭部資訊
opener = urllib.request.build_opener()  # 修改頭部資訊
opener.addheaders = [header]         #修改頭部資訊
request = urllib.request.Request(url)   # 製作請求
response = urllib.request.urlopen(request)   #  得到請求的應答包
html = response.read()   #將應答包裡面的內容讀取出來
html = html.decode('utf-8')    # 使用utf-8進行編碼，不重新編碼就會成亂碼


final = []   #初始化一個空的list，我們為將最終的的資料儲存到list
bs = BeautifulSoup(html,"html.parser")   # 建立BeautifulSoup物件
body = bs.body  # 獲取body部分
data = body.find('div',{'id':'7d'})  # 找到id為7d的div
ul = data.find('ul')  # 獲取ul部分
li = ul.find_all('li')  # 獲取所有的li
# print (li)
 
i = 0
for day in li:  # 對每個li標籤中的內容進行遍歷
    if i < 7:
        temp = []
        date = day.find('h1').string # 找到日期
#         print (date)
        temp.append(date)  # 新增到temp中
    #     print (temp)
        inf = day.find_all('p')  # 找到li中的所有p標籤
    #     print(inf)
    #     print (inf[0])
        temp.append(inf[0].string)  # 第一個p標籤中的內容（天氣狀況）加到temp中
        if inf[1].find('span') is None:
            temperature_highest = None # 天氣預報可能沒有當天的最高氣溫（到了傍晚，就是這樣），需要加個判斷語句,來輸出最低氣溫
        else:
            temperature_highest = inf[1].find('span').string # 找到最高溫度
            temperature_highest = temperature_highest.replace('℃', '') # 到了晚上網站會變，最高溫度後面也有個℃
        temperature_lowest = inf[1].find('i').string  #找到最低溫度
        temperature_lowest = temperature_lowest.replace('℃', '')  # # 最低溫度後面有個℃，去掉這個符號
        temp.append(temperature_highest)
        temp.append(temperature_lowest)
        final.append(temp)
        i = i +1
        
# print(final)

with open('weather.csv', 'a', errors='ignore', newline='') as f:
            f_csv = csv.writer(f)
            f_csv.writerows(final)

四、感受

爬蟲大致分為四步：

1.寫好模擬瀏覽器請求頭

2.明確你要爬取那些資料

3.將資料爬取下來並儲存(這是最難的一步)

4.將資料儲存到檔案

大家對我的文章如有什麼見解，請留言，我們一起進步。

如果此文章對你有所幫助那就是我最大的榮幸，請為我留下一個贊，算是隨我莫大的鼓勵。

Python爬蟲入門實戰--------一週天氣預報爬取

最近學校剛開始開設爬蟲課，我也剛剛如入門，嘗試寫了一個爬去成都市的一週的天氣預報。目錄一、軟體和庫的準備：二、爬蟲的編寫：三、全部程式碼一、軟體和庫的準備： python環境安裝配置：安

Python爬蟲入門實戰系列（二）爬取貓眼電影排行榜

在進行本節實戰之前，希望您對requests庫以及正則表示式有所瞭解。執行平臺：windows **Python版本： Python3.x ** 一、依賴庫的安裝在本節實戰之前，請確保已經正確安裝了requests庫 requests庫的安裝 pip3 i

Python3爬蟲入門實戰系列（二）爬取貓眼電影排行榜

在進行本節實戰之前，希望您對requests庫以及正則表示式有所瞭解。執行平臺：windows Python版本： Python3.x 一、依賴庫的安裝在本節實戰之前，請確保已經正確安裝了requests庫 requests庫的安裝 pip3 instal

Python爬蟲入門教程 5-100 27270圖片爬取

retrying ont star 都是 ram emp ret afa else 獲取待爬取頁面今天繼續爬取一個網站，http://www.27270.com/ent/meinvtupian/ 這個網站具備反爬，so我們下載的代碼有些地方處理的也不是很到位，大家重點

Python爬蟲【實戰篇】scrapy 框架爬取某招聘網存入mongodb

建立專案 scrapy startproject zhaoping 建立爬蟲 cd zhaoping scrapy genspider hr zhaopingwang.com 目錄結構 items.py title = scrapy.Field()

Python爬蟲入門實戰系列（一）--爬取網路小說並存放至txt檔案

執行平臺： Windows Python版本： Python3.x 一、庫檔案

Python爬蟲入門（一）寫在前面

一、前言你是不是在為想收集資料而不知道如何收集而著急？你是不是在為想學習爬蟲而找不到一個專門為小白寫的教程而煩惱？ Bingo! 你沒有看錯，這就是專門面向小白學習爬蟲而寫的！我會採用例項的方式，把每個部分都跟實際的例子結合起來幫助小夥伴兒們理解。最後再寫幾個實戰的

Python爬蟲獲取最近七天天氣預報資訊

主要用到python的requests庫和BeatifulSoup庫，程式碼如下： #encoding:utf-8 import requests import psycopg2 import datetime import re from bs4 import Beaut

python爬蟲入門教程(一)：開始爬蟲前的準備工作

爬蟲入門系列教程：前言　　學習python爬蟲也有一段時間了，各種爬蟲技術多多少少也接觸過一些。因為有學弟學妹說想學爬蟲，我萌生了寫個簡單的python爬蟲教程的想法。　　一來，給學弟學妹們提供方便，提供一個入門的渠道；二來，總結這些天自身所

Python爬蟲入門（一）

Python爬蟲入門（一） 1.適配環境 1.1.ubuntu入門 1.2 vim入門 2.HTML 2.1連結標籤 2.2 table標籤 2.3 DOM屬性 2.4 CSS

【Python】打響2019年第一炮-Python爬蟲入門（一）

打響2019第一炮-Python爬蟲入門 2018年已經成為過去，還記得在2018年新年寫過一篇【Shell程式設計】打響2018第一炮-shell程式設計之for迴圈語句，那在此時此刻，也是寫一篇關於程式設計方面，不過要比18年的稍微高階點。 So，mark一下，也希望對

Python 爬蟲入門實戰

1. 前言首先自我介紹一下，我是一個做 Java 的開發人員，從今年下半年開始，一直在各大技術部落格網站發表自己的一些技術文章，差不多有幾個月了，之前在 cnblog 部落格園加了網站統計程式碼，看到每天的訪問量逐漸多了起來，國慶正好事情不多，就想著寫一個爬蟲，看下具體閱讀量增加了多少，這也就成了本文的

Python爬蟲入門教程 17-100 部落格抓取資料

寫在前面寫了一段時間的部落格了，忽然間忘記了，其實部落格頻道的部落格也是可以抓取的，所以我幹了..... 其實這事情挺簡單的，開啟CSDN部落格首頁，他不是有個最新文章麼，這個裡面都是最新發布的文章。開啟F12抓取一下資料API，很容易就獲取到了他的介面提取連結長

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

Python爬蟲之利用正則表達式爬取內涵吧

file res start cnblogs all save nts quest ide 首先，我們來看一下，爬蟲前基本的知識點概括一. match()方法：這個方法會從字符串的開頭去匹配（也可以指定開始的位置），如果在開始沒有找到，立即返回None，匹配到一個結果

23個Python爬蟲開源項目代碼：爬取微信、淘寶、豆瓣、知乎、微博等

公眾 mon 成交個人標簽 req 不同數據存儲百度雲盤來源：全球人工智能作者：SFLYQ 今天為大家整理了23個Python爬蟲項目。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有鏈接指向GitHub，祝大家玩的

Python爬蟲開源項目代碼，爬取微信、淘寶、豆瓣、知乎、新浪微博、QQ、去哪網等代碼整理

http server 以及 pro 模擬登錄取數存在漏洞搜狗作者：SFLYQ 今天為大家整理了32個Python爬蟲項目。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有鏈接指向GitHub，祝大家玩的愉快~ 1、WechatSogou

Python爬蟲：現學現用Xpath爬取豆瓣音樂

9.1 tree when href scrapy 發現 pat 直接 where 爬蟲的抓取方式有好幾種，正則表達式，Lxml(xpath)與Beautiful,我在網上查了一下資料，了解到三者之間的使用難度與性能三種爬蟲方式的對比。抓取方式性能使用難度

Python爬蟲為何可以這麽叼？爬取百度雲盤資源！並保存到自己雲盤

源碼下載表達 har .cn bdb 裏的 image AC 賬號登錄點擊它，再點擊右邊的【Cookies】就可以看到請求頭裏的 cookie 情況。 cookie分析除了上面說到的兩個 cookie ，其他的請求頭參數可以參照手動轉存

python爬蟲系列(5.3-動態網站的爬取的策略)

一、認識動態網站所謂的動態網站,是使用ajax加載出來的網頁,我們開啟網頁的時候可以正常顯示內容,但是我們在顯示網頁原始碼的時候,裡面卻找不到該節點. 二、常見動態網站的抓取方式 1、直接分析ajax呼叫的介面,然後通過程式碼請求這個介面 2、採用模擬瀏覽器請求該動態網站,然後獲取

Python爬蟲入門實戰--------一週天氣預報爬取

一、軟體和庫的準備：

二、爬蟲的編寫：

三、全部程式碼

四、感受

相關推薦