python網路爬蟲五

阿新 • • 發佈：2018-11-08

實戰三—向搜尋引擎提交搜尋請求

關鍵點：利用搜索引擎提供的介面

百度的介面：wd=“要搜尋的內容”
360的介面：q=“要搜尋的內容”
所以我們只要把我們提交給伺服器的url修改成對應的格式，就可以向搜尋引擎提交關鍵字。
修改url，第一個想到的就是params引數。只須構造鍵值對，提交給params即可。
鍵值對前面的代表搜尋引擎前面的介面標識，鍵值對後面的代表我們要搜尋的內容。

>>> import requests
>>> kv = {'wd':'python'}
>>> r = requests.get("http://www.baidu.com/s",params=kv)
>>> r.status_code
200

用response物件中的request物件來檢視我們提交給伺服器的URL連結。

>>> r.request.url
'http://www.baidu.com/s?wd=python'

給出完整程式碼：

import requests
kv = {'wd':'python'}
url = "http://www.baidu.com/s"

try:
    r = requests.get(url,params = kv)
    print(r.request.url)
    r.raise_for_status()
    print(r.text[:2000])
except:
    print("爬取失敗")

實戰四—圖片的爬取和儲存

圖片連結的格式，url+xxxx.jpg
給出圖片的地址，爬取下來後存放到本機的某一個位置。

>>> import requests
>>> path = "/Users/hyliu/Desktop/picture.jpg"
>>> url = "https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/c0%3Dbaike80%2C5%2C5%2C80%2C26/sign=3acf58502f7f9e2f6438155a7e598241/7aec54e736d12f2e227c44d647c2d5628535680f.jpg"
>>> r = requests.get(url)
>>> r.status_code
200

現在r中已經包含了我們想要的圖片，接下來要做的事情就是把圖片變成檔案存放到本機。
我們知道圖片是一個二進位制格式，用如下程式碼來實現：

>>> path = "/Users/hyliu/Desktop/picture.jpg"
>>> with open(path,'wb') as f:
    f.write(r.content)

53658
>>>

這段程式碼的含義就是，我們先開啟一個檔案picture.jpg，並定義為一個檔案識別符號f。然後我們將返回的內容寫入到這個檔案中。
r.content表示返回內容的二進位制格式，所以我們將r.content寫入到圖片檔案中。
最後我們將檔案關閉。

>>> f.close()
>>>

現在我們去檢視我們爬取的結果（是不是很帥！）

給出完成程式碼（用圖片原本的名稱來命名）：

import requests
import os

url = "https://gss3.bdstatic.com/-Po3dSag_xI4khGkpoWK1HF6hhy/baike/c0%3Dbaike80%2C5%2C5%2C80%2C26/sign=3acf58502f7f9e2f6438155a7e598241/7aec54e736d12f2e227c44d647c2d5628535680f.jpg"
root = "/Users/hyliu/Desktop/"
path = root + url.split('/')[-1] #獲取URL最後一個“/”後的內容，實際上就是獲取圖片原本的名字
try:
    if not os.path.exists(root):    #目錄不存在則建立
        os.mkdir(root)
    if not os.path.exists(path):    #判斷是否存在重名檔案
        r = requests.get(url)
        #print(r.status_code)
        r.raise_for_status()
        with open (path,'wb') as f:
            f.write(r.content)
            f.close()
            print("檔案儲存成功！")
    else:
        print("檔案已存在")
except:
    print("爬取失敗")

實戰五—查詢IP地址的歸屬地

藉助IP138網站查詢：

思路就是像百度和360那樣，找到IP138網站的介面資訊。

>>> import requests
>>> url = "http://m.ip138.com/ip.asp"
>>> kv = {'ip':'218.106.145.15'}
>>> r = requests.get(url,params = kv)
>>> r.status_code
200
>>> r.text[-500:]
'submit" value="查詢" class="form-btn" />\r\n\t\t\t\t\t</form>\r\n\t\t\t\t</div>\r\n\t\t\t\t<div class="query-hd">ip138.com IP查詢(搜尋IP地址的地理位置)</div>\r\n\t\t\t\t<h1 class="query">您查詢的IP：218.106.145.15</h1><p class="result">本站主資料：福建省福州市  聯通</p><p class="result">參考資料一：福建省福州市 聯通</p>\r\n\r\n\t\t\t</div>\r\n\t\t</div>\r\n\r\n\t\t<div class="footer">\r\n\t\t\t<a href="http://www.miitbeian.gov.cn/" rel="nofollow" target="_blank">滬ICP備10013467號-1</a>\r\n\t\t</div>\r\n\t</div>\r\n\r\n\t<script type="text/javascript" src="/script/common.js"></script></body>\r\n</html>\r\n'
>>>

給出完整程式碼：

import requests
kv = {'ip':'218.106.145.15'}
url = "http://m.ip138.com/ip.asp"
try:
    r = requests.get(url,params = kv)
    r.raise_for_status()
    print(r.text[-500:])
except:
    print("爬取失敗")

URL is API

python網路爬蟲五

實戰三—向搜尋引擎提交搜尋請求關鍵點：利用搜索引擎提供的介面百度的介面：wd=“要搜尋的內容” 360的介面：q=“要搜尋的內容” 所以我們只要把我們提交給伺服器的url修改成對應的格式，就可以向搜尋引擎提交關鍵字。修改url，第一個想到的就是params引數。只

python學習筆記之網路爬蟲(五)正則表示式

IT Xiao Ang Zai 9月13號版本：python3.64 程式設計軟體：pycharm 今天我們來學習正則表示式，那麼什麼是正則表示式呢?我們發現，下載一個網頁是容易的，但是要在網頁中找到我們需要的內容，是比較困難的。直接用find()方法是根本不

[Python]網路爬蟲（五）：urllib2的使用細節與抓站技巧

前面說到了urllib2的簡單入門，下面整理了一部分urllib2的使用細節。 1.Proxy 的設定 urllib2 預設會使用環境變數 http_proxy 來設定 HTTP Proxy。如果想在程式中明確控制 Proxy 而不受環境變數的影響，可以使用代理。

python網路爬蟲（五）:併發抓取

在進行單個爬蟲抓取的時候，我們不可能按照一次抓取一個url的方式進行網頁抓取，這樣效率低，也浪費了cpu的資源。目前python上面進行併發抓取的實現方式主要有以下幾種：程序，執行緒，協程。程序不在的討論範圍之內，一般來說，程序是用來開啟多個spider，比如我

Python網路爬蟲與資訊提取（五）資訊標記與資訊提取的一般方法

目前國際公認的資訊標記種類共有如下三種：名稱方式例項XML(eXtensible Markup Language)基於HTML的用有名稱與屬性的標籤進行標記的方式<name>...</name> <name /> <!-

Python網路爬蟲實戰(五)批量下載B站收藏夾視訊

我們除了爬取文字資訊，有的時候還需要爬媒體資訊，比如視訊圖片音樂等。就拿B站來說，我的收藏夾內的視訊可能隨時會失效，所以把它們下載到本地是非常保險的一件事。對於這種大量列表型的資料，可以猜測B站收藏夾的請求中，詳細的收藏詳細可能會是非同步載入的，因為這部分資料可能比較龐大。我們來分析一下網路請求。可

python網路爬蟲（一）

網路爬蟲之前奏網路爬蟲之規則 Requests庫入門 requests庫的安裝 requests的詳細資訊 Win平臺: “以管理員身份執行” cmd，執行pip3 install requests。 requests庫安裝成功與否的測試

Python網路爬蟲快速入門到精通

阿里雲大學線上工作坊上線，原理精講+實操演練，讓你真正掌握雲端計算、大資料技能。 Python專家為你詳細講解爬蟲技術的原理與實戰，3大框架詳解+6場實戰演練+反爬技術+分散式爬蟲，講師線上答疑，全面掌握Python爬蟲。爬蟲有什麼用呢？你要找工作，想知道哪個崗位當前最熱門，爬取分析

python網路爬蟲四

實戰一，爬取京東商品 import requests url = "https://item.jd.com/27217068296.html" try: r = requests.get(url) r.raise_for_status() #獲取爬取失敗異常 r.enc

python網路爬蟲二

瞭解HTTP協議請求與響應模式的協議：使用者提出對URL（用來定位網路中的資源位置）地址資料的操作請求，伺服器給予相應。無狀態的應用層協議：兩次請求之間不會互相影響。 HTTP協議支援的請求種類：如果URL處的資源很龐大，我們就可以用head方法讀取部分資訊。

我的 Python 網路爬蟲直播分享要來了！

開篇之前先提一下上週日的事情。上週日的時候我參加了北京站的 PyCon China 2018 開發者大會，PyCon 大家知道的吧！就是 Python 界最大的技術開發者大會，會上會有很多 Python 開發者分享自己的相關開發經驗，開發者主要來自歐美國家，而 PyCon China 就是中國區的 PyC

python網路爬蟲一

大概框架 Request庫的安裝爬取網頁最好用的第三方庫直接安裝即可（用於OS X） pip3 install requests request庫的常用方法： request庫一共有七個常用方法。一個基本方法是request方法，其他的方法都是呼叫request方

Python網路爬蟲實戰

阿里雲大學：Python網路爬蟲實戰網路爬蟲（又被稱為網頁蜘蛛，網路機器人），是一種按照一定的規則，自動的抓取資訊的程式或者指令碼。網路爬蟲是網際網路上進行資訊採集的通用手段，在網際網路的各個專業方向上都是不可或缺的底層技術支撐。本課程從爬蟲基礎開始，全面介紹了Python網路爬蟲技術，

資料處理（玩轉python網路爬蟲）

從網頁上採集的資料後，大多數的資料是雜亂無章的，這時就需要對資料進行加工處理，去掉一些垃圾資料才能得到我們想要的資料。常用的方法有以下三種方法：字串操作，正則表示式和第三方模組庫。一、字串操作（擷取、替換、查詢和分割）（1）擷取：字串[開始位置:結束位置:間隔位置] 開始位置為

Requests庫函式的學習（玩轉python網路爬蟲）

一、請求方式 HTTP常用的請求方式是GET和POST，Requests對此區分兩種不同的請求方式。（1）GET請求 Requests的GET請求分為兩種：不帶引數和帶引數。判斷URL是否帶有引數，通過對“？”進行判斷，“？”表示帶有引數。 import requests # 第一

python網路爬蟲磁碟快取資料

import os import re import urllib.parse import pickle class DiskCache: def __init__(self,cache_dir='cache'): self.cache_dir=cache_dir

python網路爬蟲（web spider）系統化整理總結（二）：爬蟲python程式碼示例(兩種響應格式：json和html)

上一篇部落格（入門知識篇），對爬蟲有了一個基本的瞭解，但是具體怎麼實現一個爬蟲程式呢？一般情況下，我們在瀏覽器獲取資訊，是

python網路爬蟲（web spider）系統化整理總結（一）：入門

接觸爬蟲很久了，一直沒有個系統的理解和整理，近來假日無事，總結一下。 -------------------------------------------以下是目錄--------------------------------------------------------- 一、爬蟲概

Python網路爬蟲之requests庫Scrapy爬蟲比較

requests庫Scrapy爬蟲比較相同點：都可以進行頁面請求和爬取，Python爬蟲的兩個重要技術路線兩者可用性都好，文件豐富，入門簡單。兩者都沒有處理JS，提交表單，應對驗證碼等功能（可擴充套件）想爬取有驗證碼的，換需要學習別的庫知識。不同點： Scrapy,非同

Python網路爬蟲之製作股票資料定向爬蟲以及爬取的優化可以顯示進度條！

候選網站：新浪股票：http://finance.sina.com.cn/stock/ 百度股票：https://gupiao.baidu.com/stock/ 選取原則：無robots協議非js網頁資料在HTMLK頁面中的 F12，檢視原始

python網路爬蟲五

實戰三—向搜尋引擎提交搜尋請求

實戰四—圖片的爬取和儲存

實戰五—查詢IP地址的歸屬地

相關推薦