1. 程式人生 > >另類爬取表格數據

另類爬取表格數據

但是 code request 獲取 import 裏的 www. date panda

import pandas as pd
df = pd.read_html("http://www.air-level.com/air/beijing/", encoding=utf-8,header=0)[0]
results = df.T.to_dict().values()

print(results)

代碼很簡單但是實現的內容可不簡單,第一行導入pandas包,
第二行的read_html核心功能實現是調用requests然後解析table標簽裏的每個td的數據
最後生成一個list對象裏面是dataframe對象。所以通過小標0獲取它的第一個dataframe數據,既然是dateframe我們就可以使用dataframe的方法了,
第三行首先做了個轉秩操作,然後轉為映射類型打印出來了。上面的代碼為了演示其效果,下面我們對結果做一個存儲操作

df = pd.read_html("http://www.air-level.com/air/beijing/", encoding=utf-8,header=0)[0]
df.to_csv("tq.csv",index=False)

成功的獲取了網頁表格的數據。

需要註意的是read_html只能解析靜態頁面。

另類爬取表格數據