1. 程式人生 > >獲取任意網頁的編碼格式

獲取任意網頁的編碼格式

ignorecas 位置 準確率 arc body charset 定位 .get 使用

如果是非定向爬蟲,不是專門爬一個固定位置的信息,而是成千上萬的未知網站,那就需要找到編碼格式了,使用如下正則,可以正確找到,準確率99%
content=requests.get(url).content
bianma_group=re.search(‘<meta[\s\S]*?charset="?([a-zA-Z0-9\-]*)‘, respbody0, re.IGNORECASE)
if bianma_group:
print bianma_group.group(1)

獲取任意網頁的編碼格式