Python 爬蟲 2 （轉）

阿新 • • 發佈：2017-08-22

規範 return python 爬蟲直接 htm str 保存 urn find

一，獲取整個頁面數據

首先我們可以先獲取要下載圖片的整個頁面信息。

getjpg.py

#coding=utf-8
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

html = getHtml("http://tieba.baidu.com/p/2738151262")

print html

Urllib 模塊提供了讀取web頁面數據的接口，我們可以像讀取本地文件一樣讀取www和ftp上的數據。首先，我們定義了一個getHtml()函數:

　　urllib.urlopen()方法用於打開一個URL地址。

　　read()方法用於讀取URL上的數據，向getHtml()函數傳遞一個網址，並把整個頁面下載下來。執行程序就會把整個網頁打印輸出。

二，篩選頁面中想要的數據

Python 提供了非常強大的正則表達式

找到了圖片的地址，如：src=”http://imgsrc.baidu.com/forum......jpg”pic_ext=”jpeg”

import re
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r‘src="(.+?\.jpg)" pic_ext‘
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist      
   
html = getHtml("http://tieba.baidu.com/p/2460150866")
print getImg(html)

我們又創建了getImg()函數，用於在獲取的整個頁面中篩選需要的圖片連接。re模塊主要包含了正則表達式：

　　re.compile() 可以把正則表達式編譯成一個正則表達式對象.

　　re.findall() 方法讀取html 中包含 imgre（正則表達式）的數據。

　　運行腳本將得到整個頁面中包含圖片的URL地址。

三，將頁面篩選的數據保存到本地

把篩選的圖片地址通過for循環遍歷並保存到本地，代碼如下：

#coding=utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r‘src="(.+?\.jpg)" pic_ext‘
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,‘%s.jpg‘ % x)
        x+=1


html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)

這裏的核心是用到了urllib.urlretrieve()方法，直接將遠程數據下載到本地。

　　通過一個for循環對獲取的圖片連接進行遍歷，為了使圖片的文件名看上去更規範，對其進行重命名，命名規則通過x變量加1。保存的位置默認為程序的存放目錄。

程序運行完成，將在目錄下看到下載到本地的文件。

Python 爬蟲 2 （轉）

規範 return python 爬蟲直接 htm str 保存 urn find 一，獲取整個頁面數據首先我們可以先獲取要下載圖片的整個頁面信息。 getjpg.py #coding=utf-8 import urllib def getHtml(url):

Python爬蟲系列（四）：Beautiful Soup解析HTML之把HTML轉成Python對象

調用 nor 結束版本現在 name屬性 data 官方文檔 get 在前幾篇文章，我們學會了如何獲取html文檔內容，就是從url下載網頁。今天開始，我們將討論如何將html轉成python對象，用python代碼對文檔進行分析。 (牛小妹在學校折騰了好幾天，也沒把h

python之shelve模塊詳解2（轉）

obb 情況下缺點 hone p s 獲取路徑存儲文件 shelve 閱讀目錄一、定義二、用途三、用法四、關聯模塊Anydbm五、方法六、writeback參數回到頂部一、定義 Shelve是對象持久化保存方法，將對象保存到文件裏面，缺省（即默認）的數據存儲文件是二進

duilib入門簡明教程 -- VS環境配置(2) （轉）

dem mil 國際程序設計界面環境消息商業 href 原文轉自：http://www.cnblogs.com/Alberl/p/3342030.html 既然是入門教程，那當然得基礎點，因為搜索duilib相關資料時，發現有些小夥伴到處都是編譯錯誤，

python格式化輸出（轉）

表達式 () 進制整數格式化輸入輸出字符串賦值 pytho 內置在許多編程語言中都包含有格式化字符串的功能，比如C和Fortran語言中的格式化輸入輸出。Python中內置有對字符串進行格式化的操作%。模板格式化字符串時，Python使用一個字符串作為模板

15個最受歡迎的Python開源框架（轉）

beta greenlet rest架構進行 blank pack jin rom lsa 原文地址：http://blog.jobbole.com/72306/ Django: Python Web應用開發框架 Django 應該是最出名的Python框架，GAE甚

java23種設計模式2（轉）

是把希望 sources 23種設計模式接口聯系適合 () 創建我們接著討論設計模式，上篇文章我講完了5種創建型模式，這章開始，我將講下7種結構型模式：適配器模式、裝飾模式、代理模式、外觀模式、橋接模式、組合模式、享元模式。其中對象的適配器模式是各種模式的起源，我

Python爬蟲系列（一）：從零開始，安裝環境

tar 公司 pip nal 網頁解析目標 http caption 在上一個系列，我們學會使用rabbitmq。本來接著是把公司的celery分享出來，但是定睛一看，celery4.0已經不再支持Windows。公司也逐步放棄了服役多年的celery項目。恰好，公司找

Python爬蟲學習（一）

code time response utf path urllib quest ext .com Python訪問網頁主要使用包urllib 打開網頁使用 urllib.request.urlopen(url, data=None, [timeout, ]*, cafi

Python爬蟲學習（1）

數據 bin des fin load 寫入 all pytho urlopen 接觸python不久，也在慕課網學習了一些python相關基礎，對於爬蟲初步認為是依靠一系列正則獲取目標內容數據於是參照著慕課網上的教學視頻，完成了我的第一個python爬蟲，雞凍 >

Python爬蟲學習（3）

collect nbsp pri div time urlparse links ews 是否在慕課網學習並創建了一個簡單的爬蟲包，爬取百度百科相關詞條信息程序中會用到第三方解析包（BeautifulSoup4），Windows環境下安裝命令：pip install B

Python 爬蟲實戰（二）：使用 requests-html

分享 -html 調用交流 html 技術 python-re find 自己的 Python 爬蟲實戰（一）：使用 requests 和 BeautifulSoup，我們使用了 requests 做網絡請求，拿到網頁數據再用 BeautifulSoup 解析，就在前不久

python | 爬蟲筆記（五）- 數據存儲

height iter use jordan rip 輕量數據存儲回滾 nosql 5.1 文件存儲先用request把源碼獲取，再用解析庫解析，保存到文本 1- txt 文本打開方式： file = open(‘explore.txt‘, ‘a‘, encodin

python | 爬蟲筆記 - （八）Scrapy入門教程

RoCE yield ini 配置自己數據存儲 2.3 rom 提取數據一、簡介 Scrapy是一個基於Twisted 的異步處理框架，是針對爬蟲過程中的網站數據爬取、結構性數據提取而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。

mencoder和ffmpeg引數詳解2 （轉）

有很多軟體能夠擷取影片影象、合併影象，但如果影片太多，比如視訊網站為使用者上傳的影象生成預覽圖之類的，人工在gui方式下操作就不可取了，我們需要在命令列方式下來擷取、合併。首先，擷取影片影象使用最多的就是mplayer或者ffmpeg，我用mplayer比較熟，本文就以此為例了，ffmpe

python分散式程式設計（轉）

本文程式碼轉載廖雪峰老師的python3教程分散式程式設計的難點在於： 1.伺服器之間的通訊，主節點如何瞭解從節點的執行進度，並在從節點之間進行負載均衡和任務排程； 2.如何讓多個伺服器上的程序訪問同一資源的不同部分進行執行第一部分涉及到網路程式設計的底層細節第二個問題讓我聯想到hdfs的一些

Python爬蟲-速度（3）

Python爬蟲-速度（3）文章目錄 Python爬蟲-速度（3）前言普通爬蟲多程序提速多執行緒提速非同步協程提速最後 018.11.11 Python爬蟲-速度（1

Python爬蟲-速度（1）

Python爬蟲-速度（1）文章目錄 Python爬蟲-速度（1）前言網頁分析介面設計執行效果 018.9.16 Python爬蟲-速度（2） Python爬蟲-速度（3）前言

Python爬蟲基礎（一）——HTTP

前言　　因特網聯絡的是世界各地的計算機（通過電纜），全球資訊網聯絡的是網上的各種各樣資源（通過文字超連結），如靜態的HTML檔案，動態的軟體程式······。由於全球資訊網的存在，處於因特網中的每臺計算機可以很方便地進行訊息交流、檔案資源交流······。基於因特網的幫助，我們可以在web客戶端（如瀏覽器

python學習2（轉載）

一、流程控制之while迴圈語法：while 條件:　　迴圈體else:　　else語句（當條件不成立的時候執行這裡和break沒關係）判斷條件是否成立。如果成立執行迴圈體。然後再次判斷條件，。。。。。直到條件不成立的時候跳出迴圈 break ：終止當前本層迴圈（直接跳到迴圈的末尾）

Python 爬蟲 2 （轉）

相關推薦