1. 程式人生 > >python處理網頁帶#&加上5位數字的字元

python處理網頁帶#&加上5位數字的字元

很明顯的json格式。這裡我就不說怎麼處理json資料了。Python有json模組,轉化為列表或者字典結構處理不難。這是網頁上的資料,現在看我們獲取的網頁原始碼:

import requests
url='https://tbskip.taobao.com/json/item_sku.do?item_num_id=562037078185'
r=requests.get(url)

原始碼裡面含有&#和五位數字構成的字元,怎麼將其變成我們看到的網頁資料上的中文呢,使用unescape函式。

import html
#python 3.5之前用html.parser.HTMLParser().unescape(r.text)
res=html.unescape(r.text) 

看下結果,再對比下原網頁資料,&#和五位數字的字元都變成了中文:

預期的結果實現了。現在發一下完整的程式碼:

# -*- coding: utf-8 -*-
"""
Created on Thu Nov 22 11:12:34 2018

@author: FanXiaoLei
"""
import requests
import html
url='https://tbskip.taobao.com/json/item_sku.do?item_num_id=562037078185'
r=requests.get(url)
res=html.unescape(r.text) 
#python 3.5之前用html.parser.HTMLParser().unescape(r.text)
print(res)