2018-7-12python爬取歷史天氣數據

阿新 • • 發佈：2018-07-13

www. 正在 history ins tran 文件 idt 寫入文件 1.3

2018-7-12python爬取歷史天氣數據

python 爬蟲天氣數據

需求

需要幾個城市的歷史天氣數據，為了方便最後入庫，需要的字段為城市、溫度、天氣。最好能生成一個完整的csv導入數據。

from bs4 import BeautifulSoup as bsp
import urllib,http.cookiejar,re,time
#對excel的操作，可以添加sheet
import xlwt
#拼接兩個csv
import glob
import time

# 做好cookie管理工作
cookie=http.cookiejar.CookieJar() # 創建空CookieJar 

cj=urllib.request.HTTPCookieProcessor(cookie) # 構造cookie
opener = urllib.request.build_opener(cj) # 根據cookie構造opener
# 偽造header
opener.addheaders = [(‘User-agent‘, ‘Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:37.0) Gecko/20100101 Firefox/37.0‘),
                     (‘Connection‘,‘ keep-alive‘)]
# 載入header
urllib.request.install_opener(opener)

# 定義若幹url 

root_url=‘http://www.tianqihoubao.com/lishi/‘

# 獲取root_url網頁內容
req = urllib.request.Request(root_url)
u=bsp(bytes.decode(urllib.request.urlopen(req).read(),‘gbk‘))

# 找到表格
u1=u.find(class_="citychk")

# 找到表格裏的每一個市
u2=u1.find_all(‘dd‘)


# 記錄每一個市的url和對應的中文名稱
city_urls=[]
city_names=[]

#for uu in u2:
#    u3=uu.find_all(‘a‘) 

#    for u3u in u3:
#        city_urls.append(re.split(‘\.|/‘,u3u.attrs[‘href‘])[2])
#        city_names.append(u3u.text)



####  shg 2018/07/12 ###############
####  需要哪些城市將那些城市的拼音和漢字放到以下兩個列表中，月份同理
city_urls=["nanjing","beijing"]
city_names=["南京","北京"]
months=[‘201712‘,‘201801‘,‘201802‘,‘201803‘,‘201804‘,‘201805‘,‘201806‘,‘201807‘]
####  shg 2018/07/12 ###############



# 構造各市歷史月份url
for i,city_url in enumerate(city_urls):
    # 每爬一個市休息2秒鐘
    time.sleep(2)
    with open(‘D:/天氣數據/‘+str(i)+city_names[i]+‘.csv‘,‘w‘) as f:
        #####  只給第一個csv建列名
        if i == 0 :
            f.write(‘日期,天氣狀況,氣溫,城市,風力風向\n‘)
        for month in months:
            url_month=‘http://www.tianqihoubao.com/lishi/‘+city_url+‘/month/‘+month+‘.html‘
            req = urllib.request.Request(url_month)

            #如果連接不成功，休息5分鐘
            while True:
                try:
                    u=bsp(bytes.decode(urllib.request.urlopen(req).read(),‘gbk‘))
                    break
                except:
                    time.sleep(300)

            # 刪去不可見字符
            u1=[re.sub(‘\s‘,‘‘,x.text) for x in u.table.find_all(‘td‘)]

            # 寫入文件的時候跳過表頭
            for j,item in enumerate(u1[4:]):
                if j%4==3:
                    # 城市名稱列####  shg 2018/07/12 #################
                    f.write(city_names[i]+",")
                    f.write(item+‘\n‘)
                else:
                    f.write(item+‘,‘)
                    
                    
                    
####  shg 2018/07/12 #################
#import glob   #import time
##### 拼接多個城市的csv
#####  註意修改路徑
csvx_list = glob.glob(‘D:/天氣數據/*.csv‘)
print(‘總共發現%s個CSV文件‘% len(csvx_list))
time.sleep(2)
for i in csvx_list:
    fr = open(i,‘r‘).read()
    with open(‘weather_history.csv‘,‘a‘) as f:
        f.write(fr)
print(‘拼接完畢！‘)
####  shg 2018/07/12 #################

在做的過程中遇到了幾個問題，記錄如下：

1 寫入excel中，分成多個sheet

導入xlwt包。

import xlwt
# 新建一個xls文件，註意編碼
workbook = xlwt.Workbook(encoding=‘utf-8‘)
#  新建一個sheet，如果對一個單元格重復操作，添加cell_overwrite_ok=True
booksheet1 = workbook.add_sheet("beijing",cell_overwrite_ok=True)
#  寫入
booksheet1.write(1,1,"beijing")
booksheet2 = workbook.add_sheet("jing",cell_overwrite_ok=True)
booksheet2.write(1,1,"jing")
# 保存文件
workbook.save(‘weather.xls‘)

2 拼接多個csv文件。

縱向的拼接，需要兩個csv文件的列相同，註意兩點：

如果是循環跑出來的表，每個表都有表頭，拼接的時候不會去掉。
拼接的時候是按照文件名默認排序從上到下依次排列的。

import glob
import time

csvx_list = glob.glob(‘D:/天氣數據/*.csv‘)
print(‘總共發現%s個CSV文件‘% len(csvx_list))
time.sleep(2)
print(‘正在處理............‘)
for i in csvx_list:
    fr = open(i,‘r‘).read()
    with open(‘csv_to_csv.csv‘,‘a‘) as f:
        f.write(fr)
    print(‘寫入成功！‘)
print(‘寫入完畢！‘)
print(‘10秒鐘自動關閉程序！‘)

3 獲取網頁上表格的方法

[re.sub(‘\s‘,‘‘,x.text) for x in u.table.find_all(‘td‘)]

re.sub("替換的內容“，”替換成“，需替換的字符串）

替換的內容可以使用正則表達式，\ 為轉義字符；| 為或，可以拼接多個條件；例如：

import re
re.sub(‘\[|\]|\"|\"‘,‘‘,‘["88585465","64325165","1685654"]‘)

>>> ‘88585465,64325165,1685654‘

2018-7-12python爬取歷史天氣數據

www. 正在 history ins tran 文件 idt 寫入文件 1.3 2018-7-12python爬取歷史天氣數據 python 爬蟲天氣數據需求需要幾個城市的歷史天氣數據，為了方便最後入庫，需要的字段為城市、溫度、天氣。最好能生成一個完整的c

Python爬取天氣網歷史天氣數據

ast 信息爬蟲 cmake tex for roc ins fonts 使用Python的requests 和BeautifulSoup模塊，Python 2.7.12可在命令行中直接使用pip進行模塊安裝。爬蟲的核心是利用BeautifulSoup的select語句獲

26、自動爬取每日的天氣，並定時把天氣數據和穿衣提示發送到你的郵箱

The sch run parser ali pri mes use content 自動爬取每日的天氣，並定時把天氣數據和穿衣提示發送到你的郵箱。之所以選擇這個相對樸實的爬蟲項目，是因為天氣每天都會有變化，那麽在學完這一關之後，不出意外，你就可以在明早收到天氣信

Python 爬蟲實例（7）—— 爬取新浪軍事新聞

secure host agen cat hand .com cati ica sts 我們打開新浪新聞，看到頁面如下，首先去爬取一級 url，圖片中藍色圓圈部分第二zh張圖片，顯示需要分頁，

python爬取歷史天氣

初衷十一回家走訪親戚，家長們聊關於附近工廠的事情。筆者家附近有一個清潔能源廠，同時還有一個水庫，這種複雜的空氣對流，夏季容易遭受冰雹的侵害。以水果謀生的農戶，躲得過人禍，免不了天災。筆者暗想，用一定的大資料分析，證明這兩種存在對當地的影響。於是有了此文。程式碼網上相關資

多程序爬取補天的廠商

最近工作上挺多事的，心有點亂，感覺是時候靜下心來了。之前就想找個爬取補天的廠商，又碰巧在一個論壇看到一篇文章，然後自己就改改了，算二次原創吧，自己加了多程序並且自動獲取最終頁數。 #coding=ut

爬取歷史類小說

導包 import requests import lxml #lxml是python的一個解析庫，支援HTML和XML的解析，支援XPath解析方式，而且解析效率非常高 from bs4 import BeautifulSoup import pandas

Python爬蟲入門 | 7 分類爬取豆瓣電影，解決動態載入問題

比如我們今天的案例，豆瓣電影分類頁面。根本沒有什麼翻頁，需要點選“載入更多”新的電影資訊，前面的黑科技瞬間被秒…… 又比如知乎關注的人列表頁面：我複製了其中兩個人暱稱的 xpath： //*[@id="Popov

Python爬蟲--爬取歷史天氣資料

寫在前面：爬蟲是老鼠屎在進入實驗室後接觸的第一個任務，當時剛剛接觸程式碼的老鼠屎一下子迎來了地獄難度的爬微博簽到資料。爬了一個多月毫無成果，所幸帶我的師兄從未給我疾言厲色，他給與了我最大的包容與理解。儘管無功而返，但是那一個月也給了老鼠屎充足的學習時間，讓老鼠屎對爬蟲

python網路爬蟲（7）爬取靜態資料詳解

目的爬取http://seputu.com/資料並存儲csv檔案匯入庫 lxml用於解析解析網頁HTML等原始碼，提取資料。一些參考：https://www.cnblogs.com/zhangxinqi/p/9210211.html requests請求網頁 chardet用於判斷網頁中的字元編

利用python爬取龍虎榜數據及後續分析

登錄 one 可能股市 .com 爬蟲但我由於相關 ##之前已經有很多人寫過相關內容，但我之前並未閱讀過，這個爬蟲也是按照自己的思路寫的，可能比較醜陋，請見諒！本人作為Python爬蟲新手和股市韭菜，由於時間原因每晚沒辦法一個個翻龍虎榜數據，所以希望借助爬蟲篩選出

正則爬取二手房數據

ace req spider spi con 網址 for repl 插入數據以下代碼是二手房的數據，代碼僅供參考，很簡單，超級簡單#encoding:utf8import requestsimport re調用網址def spider(url): html = r

Python3爬蟲爬取淘寶商品數據

表格 name 錯誤處理 from [0 https iat turn 感覺這次的主要的目的是從淘寶的搜索頁面獲取商品的信息。其實分析頁面找到信息很容易，頁面信息的存放都是以靜態的方式直接嵌套的頁面上的，很容易找到。主要困難是將信息從HTML源碼中剝離出來，數據和網頁源碼

angular框架下的跨域問題（獲取天氣數據）

cat blog 蘇州 scrip location func amp set 服務 1、新浪天氣：http://php.weather.sina.com.cn/iframe/index/w_cl.php?code=js&day=0&city=&df

通用jsonp跨域技術獲取天氣數據

chang csdn 無法獲得 cnblogs 加載 [0 syn tput mat 1. 前言在進行網站開發的過程中經常會用到第三方的數據，但是由於同源策略的限制導致ajax不能發送請求，因此也無法獲得數據。解決ajax的跨域問題可以使用jsonp技術 2.代碼 &l

Python——爬取人口遷徙數據（以騰訊遷徙為例）

map car img all spa ima tps .sh compile 說明： 1.遷徙量是騰訊修改後的數值，無法確認真實性。 2.代碼運行期間，騰訊遷徙未設置IP屏蔽和瀏覽器檢測，因此下段代碼僅能保證發布近期有效。 3.代碼功能：爬取指定一天的四十個城市左右的遷徙

用python爬取微博數據並生成詞雲

font 意思 extra 很多返回 json 自己技術分享 pre 很早之前寫過一篇怎麽利用微博數據制作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的數據，現在重新整理了一下，任何的微博數據都可以制作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默

python小白也可以分分鐘爬取微博數據，並生成有個性的詞雲，你get到了嗎？

python 爬蟲 web開發編程Python（發音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一種面向對象、直譯式電腦編程語言，也是一種功能強大的通用型語言，已經具有近二十年的發展歷史，成熟且穩定。它包含了一組完善而且容易理解的標準庫，能夠輕松完成很多常見的任務。它的語法非常簡捷和清晰，與其它大多

用scrapy爬取京東的數據

identify allow 9.png spider main %d 網頁 pro fyi 本文目的是使用scrapy爬取京東上所有的手機數據,並將數據保存到MongoDB中。一、項目介紹主要目標 1、使用scrapy爬取京東上所有的手機數據 2、將爬取的數據

使用進程池模擬多進程爬取url獲取數據，使用進程綁定的回調函數去處理數據

utf 返回值 http baidu cnblogs ces print llb bytes 1 # 使用requests請求網頁，爬取網頁的內容 2 3 # 模擬使用進程池模擬多進程爬取網頁獲取數據，使用進程綁定的回調函數去處理數據 4 5 import

2018-7-12python爬取歷史天氣數據

2018-7-12python爬取歷史天氣數據

需求

1 寫入excel中，分成多個sheet

2 拼接多個csv文件。

3 獲取網頁上表格的方法

相關推薦