python 從web抓取資訊

阿新 • • 發佈：2019-01-08

requests模組

想詳細瞭解requests的，可以去看看requests官方文件

requests模組可以很容易的從web下載檔案安裝

pip install requests

然後就可以呼叫了

>>>import requests
#requests.get()可以接受一個要下載的url字串
>>>res=requests.get('http://www.gutenberg.org/cache/epub/1112/pg1112.txt')
#type(res)可以看到它返回的Response物件
>>>type(res)
<class 'requests.models.Response'>
# 
res.status_code可以檢視是否成功
#如果res.status_code等於requests.codes.ok,那就代表請求成功
>>>res.status_code==requests.codes.ok
#res.text可以獲取文字（如果文字太大可能會直接卡死）
#所以可以先看下文字大小
>>>len(res.text)
178981
#也可以檢視部分內容
>>>print(res.text[:20])
The Project Gutenbe

#但是，如果url不對，按上面這種方法也不會報錯
#例如：
>>>res = requests.get('http://www.gutenberg.org/cache/epub/1112/pg111243.txt' 
)
#檢視長度，也不會報錯
>>>len(res.text)
44
>>>res.status_code
404
>>>print(res.text)
<h1>404 Not Found</h1><p>File not found.</p>

所以，檢查錯誤是必須的

raise_for_status()方法可以保證程式在下載失敗時立刻停止，當然，如果下載失敗不想停止程式，可以使用try...except語句

import requests
#這個url並不存在
res=request.get('https://www.gutenberg.org/cache/epub/1112/pg112312.txt' 
)
try:
    res.raise_for_status() #程式走到這裡發現了錯誤，然後進入except
except Exception as e:
    print('There was a problem: %s' %(e))

執行程式，報錯：

將下載的檔案儲存到硬碟

儲存檔案可以用open()和write()方法，但是:

必須用'寫二進位制'模式開啟該檔案

因為這樣可以儲存該檔案中的'Unicode編碼'

import requests
res = requests.get('http://www.gutenberg.org/cache/epub/1112/pg1112.txt')
res.raise_for_status()
pfile=open('pg1112.txt','wb')
for i in res.iter_content(1000):
    pfile.write(i)

pfile.close()

iter_content(maxsize)在每次迭代中，返回一段內容。maxsize設定每次返回的最大位元組數（可以用來做進度條）

總體思路：

1.呼叫requests.get()下載該檔案
2.用'wb'呼叫open(),以二進位制方式開啟(創-建)一個新檔案(用來儲存下載的檔案內容)
3.利用Respose物件的iter_content(maxsize)方法做迴圈
4.每次迭代中呼叫write(),將內容寫入該檔案
5.呼叫close()關閉檔案

BeautifulSoup模組解析HTML

BeautifulSoup是一個模組，用於從HTML頁面中提取資訊(比正則好用很多)

安裝

pip3 install beautifulsoup4

bs4.BeautifulSoup()函式呼叫時需要一個字串,其中包含要解析的html bs4.BeautifulSoup()函式返回一個BeautifulSoup物件。

用select()方法尋找元素

>>>import requests,bs4
>>>res=requests.get('http://book.dangdang.com/')
>>>res.raise_for_status()
>>>nSoup=bsr.BeautifulSoup(res.text)
>>>elems=nSoup.select('dt')
#獲取第一條資料
>>>elems[0]   #型別為class，可以用str(elems[0])轉為字串
<dt class="con " name="m403752_pid5367_t10276">特色書單</dt>
#獲取文字
>>>elems[0].getText()
'特色書單'
#獲取所有屬性對
>>>elems[0].attrs
{'class': ['con', ''], 'name': 'm403752_pid5367_t10276'}
#獲取某個屬性
>>>elems[0].get('name')
'm403752_pid5367_t10276'

css選擇器的例子

假如：soup=bs4.BeautifulSoup(exampleFile)

傳遞給select()方法的選擇器	將匹配...
soup.select('div')	所有名為`<div>`的元素
soup.select('#myid')	所有`id='myid'`的元素
soup.select('.class1')	所有`class=class1`的元素
soup.select('div span')	所有`<div>`元素之內的`<span>`元素
soup.select('div > span')	所有直接在`<div>`元素之內的`<span>`元素，中間沒有其他元素
soup.select('input[name]')	所有名為`<input>`,並有name屬性(其值無所謂)
soup.select('input[type="button"]')	所有名為`<input>`,並有type屬性，其值為button的元素

python 從web抓取資訊

requests模組想詳細瞭解requests的，可以去看看requests官方文件requests模組可以很容易的從web下載檔案安裝pip install requests然後就可以呼叫了>>>import requests #requests.get

python第十一章從web抓取資訊

利用webbrowser 模組開啟URL web抓取：即利用程式下載並處理來自web的內容。 webbrowser: Python自帶，開啟瀏覽器獲取指定頁面 import webbrowser # 開啟百度瀏覽器 webbrowser.open('http://www.baidu.com

Python學習（從Web抓取資訊）

一、利用webbrowser.open()開啟一個網站： >>> import webbrowser >>> webbrowser.open('http://i.firefoxchina.cn/?from=worldindex') Tr

獨家 | 手把手教你用Python進行Web抓取（附程式碼）

作為一名資料科學家，我在工作中所做的第一件事就是網路資料採集。使用程式碼從網站收集資料，當時對我來說是一個完全陌生的概念，但它是最合理、最容易獲取的資料來源之一。經過幾次嘗試，網路抓取已經成為我的第二天性，也是我幾乎每天使用的技能之一。在本教程中，我將介紹一個簡單的例子，說明如何抓取一個網站，

【python】從web抓取信息

info 瀏覽器 sys.argv 小說 res 單擊 enter cat 下載失敗能打開瀏覽器的模塊webbrowser，它的open函數可以做一些有意思的事情。例如從sys.argv或者剪切板讀入地址，然後直接在Google地圖打開相應的地圖頁面。 import

Python指令碼抓取資訊洩露，獲取心怡妹子手機號並新增微信！

答應了蛋蛋的文章一直沒空寫，主要也沒好的素材，平時有些有趣的挖洞經歷又總是懶得各種記錄截圖啥的學習Python中有不明白推薦加入交流群號：516107834 群裡有志同道合的小夥伴，互幫互助，群裡有不錯的學習教程！今天本來想寫篇技術專題，後

Python之簡單抓取豆瓣讀書資訊

最近出差學習，閒來擼一把 Python。看語法書這些，真是看完就忘，還不如來寫點小程式，有實踐性又有趣。我的環境是Ubuntu 17，開始之前先裝幾個依賴包，用於解析 html 檔案。 sudo apt install python-lxml,python-requests

Python爬蟲：十分鐘實現從資料抓取到資料API提供

依舊先從爬蟲的基本概念說起，你去做爬蟲做資料抓取，第一件事想必是去檢視目標網站是否有api。有且可以使用的話，皆大歡喜。假如目標網站自身不提供api，但今天你心情不好就想用api來抓資料，那

用python 通過12306api抓取列車資訊

PS:本文為學習參考例項。程式碼與上述大體相同。首先了解這些查詢介面是怎麼來的 chrome是個好東西，特別是它的控制檯能看到很多細節。 12306網站通過chrome可以看到查詢票的api 其中有log? 和 queryA?兩種開頭的介面

python網路爬蟲--抓取股票資訊到Mysql

1.建表mysql -u root -p 123456create database test default character set utf8;create table stocks --a股( code varchar(10) comment '程式碼', nam

用Python進行網頁抓取

google 神奇顯示 rss 遍歷 ecb data- 可用 appdata 引言　　從網頁中提取信息的需求日益劇增，其重要性也越來越明顯。每隔幾周，我自己就想要到網頁上提取一些信息。比如上周我們考慮建立一個有關各種數據科學在線課程的歡迎程度和意見的索引。我們不僅需要

從Web抓取信息

mil ise htm port 能夠 .com pre .text 利用一、webbrowser模塊——打開瀏覽器獲取指定頁面 open()函數能夠啟動一個新瀏覽器 #！python 3 #！mapIt.py - Launches a map in the br

Python爬蟲：抓取手機APP的數據

sig ner ont sele ebo span fail pytho 抓取摘要: 大多數APP裏面返回的是json格式數據，或者一堆加密過的數據。這裏以超級課程表APP為例，抓取超級課程表裏用戶發的話題。 1、抓取APP數據包方法詳細可以參考這篇博文：

java做web抓取

ber htm driver att mon base example drive ebs 就像許多現代科技一樣，從網站提取信息這一功能也有多個框架可以選擇。最流行的有JSoup、HTMLUnit和Selenium WebDriver。我們這篇文章討論JSoup。JSoup

python多任務抓取虎牙妹子圖片

() like windows url odin jpg all request 任務 import re import urllib.request import gevent def download(image_download, images_path,i):

爬蟲-python實現的抓取騰訊視頻所有電影

mar read light else highlight 電影 %s find 圖片用python實現的抓取騰訊視頻所有電影的爬蟲 # -*- coding: utf-8 -*- import re import urllib2 from bs4 import

python爬蟲之抓取代理伺服器IP

轉載請標明出處： http://blog.csdn.net/hesong1120/article/details/78990975 本文出自:hesong的專欄前言使用爬蟲爬取網站的資訊常常會遇到的問題是，你的爬蟲行為被對方識別了，對方把你的IP遮蔽了，返回

Python3學習（三十四）：python從mongo中取資料，使用pandas.DataFrame進行列操作並轉字典

使用該操作的具體場景（一般與mongo相結合）：比如mongo中存了幾萬條資料，需要將mongo中的資料取出來，並對其中的一列進行相關操作，最後轉化為字典格式。具體程式碼實現如下： import pandas as pd import pymongo import

python通過手機抓取微信公眾號

使用 Fiddler 抓包分析公眾號開啟微信隨便選擇一個公眾號，檢視公眾號的所有歷史文章列表在 Fiddler 上已經能看到有請求進來了，說明公眾號的文章走的都是HTTPS協議，這些請求就是微信客戶端向微信伺服器傳送的HTTP請求。模擬微信請求 1

python爬蟲，抓取新浪科技的文章（beautifulsoup+mysql）

這幾天的辛苦沒有白費，總算完成了對新浪科技的文章抓取，除非沒有新的內容了，否則會一直爬取新浪科技的文章。想了解更多可以關注我的github:https://github.com/libp/WebSpider 如果想要資料庫表結構可以留下郵箱~ # -*- coding:

python 從web抓取資訊

requests模組

將下載的檔案儲存到硬碟

BeautifulSoup模組解析HTML

相關推薦