python爬蟲"Hello World"級入門例項（二）,使用json從中國天氣網抓取資料

阿新 • • 發佈：2019-01-01

一、二話不說先上程式碼

python2.7版

#!/usr/bin/python2.7
#-*- coding=UTF-8 -*-

import urllib
import json

def get_dic(url):
    page = urllib.urlopen(url)
    html = page.read()
    page.close()
    dic=json.loads(html)
    return dic

dic = get_dic("http://www.weather.com.cn/data/cityinfo/101010100.html")

print dic['weatherinfo' 
]['city']
print dic['weatherinfo']['ptime']
print dic['weatherinfo']['temp1']
print dic['weatherinfo']['temp2']
print dic['weatherinfo']['weather']

python3.5版

#!/usr/bin/python3.5
#-*- coding=UTF-8 -*-

import urllib.request
import json

def get_dic(url):
    page = urllib.request.urlopen(url)
    html = page.read().decode('utf-8') 

    page.close()
    dic=json.loads(html)
    return dic

dic = get_dic("http://www.weather.com.cn/data/cityinfo/101010100.html")

print(dic['weatherinfo']['city'])
print(dic['weatherinfo']['ptime'])
print(dic['weatherinfo']['temp1'])
print(dic['weatherinfo']['temp2'])
print(dic['weatherinfo']['weather'])

看看效果
無描述

二、簡單說一下方法（以2.7版本程式碼為例）

def get_dic(url):
    page = urllib.urlopen(url)
    html = page.read()
    page.close()
    dic=json.loads(html)
    return dic

該函式通過urllib庫提供的urlopen和read函式獲取網頁中的資料，但是這個網頁的資料和一般的是有區別的，資料的格式是json的，所以後面就是重點，json.loads函式將返回的json格式資料解碼為python的字典格式。

好啦，到此為止，我們就通過該函式從網頁中獲得了一個包含了天氣資料的python字典，剩下的就是用字典的key來訪問字典中的資料了，是不是很簡單。

至於我們如何知道有哪些key呢，可以在訪問之前用

for key in dic['weatherinfo']:
    print key,dic['weatherinfo'][key]

來遍歷字典，看看有哪些內容，然後選選一些自己覺得需要的就好了。
還是附上原始碼下載連結吧
python2.7版
 python3.5版

python爬蟲"Hello World"級入門例項（二）,使用json從中國天氣網抓取資料

一、二話不說先上程式碼 python2.7版 #!/usr/bin/python2.7 #-*- coding=UTF-8 -*- import urllib import json def get_dic(url): page = urll

scrapy爬蟲框架簡單入門例項（二）

接著上一篇文章，我們已經可以用爬蟲訪問目標網站爬取頁面了，現在需要自動提交表單查詢資料，並且從頁面中篩選出每期中獎號碼儲存為json檔案匯出。首先建立一個scrapy.Item類（開啟專案資料夾下的items.py檔案）： import scrapy class SsqSpiderIte

tensorflow 入門例項（二）

import tensorflow as tf # 建立一個常量 op, 產生一個 1x2 矩陣. 這個 op 被作為一個節點 # 加到預設圖中. # # 構造器的返回值代表該常量 op 的返回值.

Pandas入門基礎（二）：DataFrame的行、列與資料型別

建立DataFrame資料： data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 'year': [2000, 2001, 2002, 2001, 20

scrapy爬蟲框架簡單入門例項（一）

scrapy是一個用於爬取網站資料，提取結構性資料的python應用框架。爬取的資料一般用於資料分析，資料處理，儲存歷史資料等。scrapy的整體架構大致如下：主要包括了以下元件：引擎(Scrapy) 用來處理整個系統的資料流, 觸發事務(框架核心) 排程器(

Python爬蟲框架Scrapy例項（二）

目標任務：使用Scrapy框架爬取新浪網導航頁所有大類、小類、小類裡的子連結、以及子連結頁面的新聞內容，最後儲存到本地。大類小類如下圖所示：點選國內這個小類，進入頁面後效果如下圖（部分截圖）：檢視頁面元素，得到小類裡的子連結如下圖所示：有子連結

小白學 Python 爬蟲（34）：爬蟲框架 Scrapy 入門基礎（二）

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

python——爬蟲&問題解決&思考（四）

參數多層得到簡單 odi 用兩個 src http 輸出　　繼續上一篇文章的內容，上一篇文章中已經將url管理器和下載器寫好了。接下來就是url解析器，總的來說這個模塊是幾個模塊中比較難的。因為通過下載器下載完頁面之後，我們雖然得到了頁面，但是這並不是我們想要的結果

Python入門教程（二）

ack 布爾代數記事本成對 .py 語法錯誤是什麽 ech eclips 　　今天講編程思維。　　可能這對初次接觸編程的人有用——我不是不想切入正題，我只是想強調根本沒什麽正題，我可能在其他文章裏提過這一點。“編程語言就是語法糖”，可能你不知道什麽是語法糖，但是知道的

Web 前端開發入門級學習筆記（二）

9.盒子模型：它講了這樣一個事實：在HTML裡，在瀏覽器渲染頁面時，所有的元素都是要佔據一定空間的，而且這個空間一定是一個矩形的。在我們的瀏覽器中絕對不出現佔據圓形、不規則圖形這樣空間的元素存在。簡單的來說，我們可以把頁面上的所有元素都當做

Python遺傳演算法框架使用例項（二）多目標優化問題Geatpy for Python與Matlab的對比學習

在前面幾篇文章中，我們已經介紹了高效能Python遺傳和進化演算法框架——Geatpy的使用及一些案例。本篇就一個多目標優化例項進行展開講述，並且與使用Matlab工具箱得到相近效果進行一些對比： Geatpy已於2018.09.20更新至1.0.6版本

爬蟲入門系列（二）：優雅的HTTP庫requests

爬蟲入門系列目錄： urllib、urllib2、urllib3、httplib、httplib2 都是和 HTTP 相關的 Python 模組，看名字就覺得很反人類，更糟糕的是這些模組在 Python2 與 Python3 中有很大的差異，如果業務程式碼要同時相容 2 和 3，寫起來

SciKit-learn快速入門教程和例項（二）

一，sklearn的常用屬性和功能繼續上次對波士頓房價預測的討論，瞭解模型的屬性和功能。 #首先匯入庫，使用的是線性迴歸 from sklearn import datasets from sklearn.linear_model import LinearRegr

Python-matplotlib-入門教程（二）-plot-figure設定

0.摘要本文主要介紹使用matplotlib畫圖時使用的配置方法，並對配置引數進行解釋。 1.pyplot.figure() 用於建立一個新的圖。函式引數如下： figure(num=None, figsize=None, dpi=None, facecolor=

機器學習之python入門指南（二）元組、集合、字典的使用

Python3中元組、集合、字典的使用 Python中元組的用法元組的建立與訪問元組和列表類似，不同之處在於元組不能修改，元組使用小括號，列表使用方括號，注意元組中如果只包含以個元素需要在後面加，否則會被當作運算子使用元組與字串類似，下標索引從0開始，可以進行擷取，取捨

Vue.js2.0從入門到放棄---入門例項（三）

已經有幾周沒有更新部落格了，最近自己也在學習就沒有能及時抽身來寫部落格。今天就來簡單說一下vue-resource，這是vue的一個與伺服器端通訊的HTTP外掛，用來從伺服器端請求資料。話不多說，直接上乾貨吧。這裡PS一下，有人反映之前的程式碼下載下來，執行會報錯而

Python 爬蟲基礎Requests庫的使用（二十一）

（一）人性化的Requests庫在Python爬蟲開發中最為常用的庫就是使用Requests實現HTTP請求，因為Requests實現HTTP請求簡單、操作更為人性化。（二）get請求的基本用法 def get(url, params=N

npm的安裝及Vue.js2.0從入門到放棄---入門例項（一）

下載地址：http://nodejs.cn/download/ https://nodejs.org/en/download/ 兩者都可以安裝node.js從node.js官網下載並安裝node，安裝過程很簡單，一路“下一步”就可以了（傻瓜式安裝）。安裝完成之後，開啟命令列

python爬蟲設定代理ip池——方法（一）

"""在使用python爬蟲的時候，經常會遇見所要爬取的網站採取了反爬取技術，高強度、高效率地爬取網頁資訊常常會給網站伺服器帶來巨大壓力，所以同一個IP反覆爬取同一個網頁，就很可能被封，那如何解決呢？使用代理ip，設定代理ip池。以下介紹的免費獲取代理ip池的方法：優點：1.

python爬蟲"Hello World"級入門例項（二）,使用json從中國天氣網抓取資料

一、二話不說先上程式碼

二、簡單說一下方法（以2.7版本程式碼為例）

相關推薦