python-貼吧圖片爬取的一個小指令碼

阿新 • • 發佈：2019-01-01

學了點python，寫了個爬取貼吧圖片的小指令碼，記錄一下，其中遇到了一個坑，就是下載下來的html，百度不知道怎麼做了特殊處理，加上了註釋，結果一開始怎麼都提取不到圖片地址，最後仔細比較才發現，然後批量把註釋取消了才成功獲得url。

真坑！

程式碼如下：

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib
import urllib2
import  ssl
import  re
import os
from lxml import etree

totalcount = 0

def mkdir(path):
    # 引入模組
    import os

    # 去除首位空格
    path = path.strip()
    # 去除尾部 \ 符號
    path = path.rstrip("\\")

    # 判斷路徑是否存在
    # 存在     True
    # 不存在   False
    isExists = os.path.exists(path)

    # 判斷結果
    if not isExists:
        # 如果不存在則建立目錄
        # 建立目錄操作函式
        os.makedirs(path)
        os.chdir(path)
        print path+ ' 建立成功'
        return True
    else:
        # 如果目錄存在則不建立，並提示目錄已存在
        os.chdir(path)
        print path + ' 目錄已存在'
        return False


def loadPage(url):
    """
        作用：根據url傳送請求，獲取伺服器相應檔案
        :param url: 需要爬取的url地址
        :param fileName: 處理的檔名
        :return: 讀出來的內容
        """


    sslNoVerify = ssl._create_unverified_context()
    headers = {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/604.4.7 (KHTML, like Gecko) Version/11.0.2 Safari/604.4.7"}

    request = urllib2.Request(url,headers=headers)
    html = urllib2.urlopen(request,context=sslNoVerify ).read()


    html = re.sub(r"<!--","<div>",html)
    html = re.sub(r"--\>", "</div>", html)

    content = etree.HTML(html)
    link_list = content.xpath('//div[@class="t_con cleafix"]//a[@class="j_th_tit "]/@href')



    for a in link_list:
        subfullUrl = "https://tieba.baidu.com/"+a
        gotoSubHtml(subfullUrl )
    return html



def gotoSubHtml(url):
    sslNoVerify = ssl._create_unverified_context()
    headers = {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/604.4.7 (KHTML, like Gecko) Version/11.0.2 Safari/604.4.7"}

    request = urllib2.Request(url, headers=headers)
    html = urllib2.urlopen(request, context=sslNoVerify).read()

    html = re.sub(r"<!--", "<div>", html)
    html = re.sub(r"--\>", "</div>", html)

    content = etree.HTML(html)
    link_list = content.xpath('//div[@class="d_post_content_main "]//img[@class="BDE_Image"]/@src')
    for a in link_list:
        response = urllib2.urlopen(a)

        pic = response.read()
        global totalcount
        with open(str(totalcount)+"_"+a[-8:], 'wb') as f:
            f.write(pic)

            totalcount += 1
            print "---下載一張圖片成功 ，第"+str(totalcount)+ "張"






def saveImg(url):
    headers = {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/604.4.7 (KHTML, like Gecko) Version/11.0.2 Safari/604.4.7"}

    response = urllib2.Request()

def writePage(html,fileName):
    """
    作用：將html內容寫入到本地
    :param html: 伺服器相應檔案內容
    :param fileName: 儲存的檔名
    :return:
    """

    print "正在儲存" + fileName
    #檔案寫入
    with open(fileName,"w") as f:
        f.write(html)

    print "-" * 30




def tiebaSpider(url,beginPage,endPage,folderName):
    """
    作用：貼吧爬蟲排程器，負責組合吃力每個頁面的url
    :param url: 貼吧url的前部分
    :param beginPage: 起始頁
    :param endPage: 結束頁
    :return: nil
    """

    for page in range(beginPage,endPage+1):
        pn = (page -1) * 50
        fileName = "第" + str(page) + "頁.html"
        fullUrl = url + "&pn=" + str(pn)
        # print fullUrl


        mkdir(folderName)
        html = loadPage(fullUrl)
        print "謝謝使用"
        print "-"*30



if __name__ == "__main__":
    kw = raw_input("請輸入需要爬取的貼吧名：")
    beginPage =int(raw_input("請輸入起始頁:"))
    endPage= int(raw_input("請輸入結束頁:"))


    url = "http://tieba.baidu.com/f?"

    key  = urllib.urlencode({"kw":unicode(kw, "utf-8").encode('gb2312')})
    print  "key = " + key
    fullUrl = url + key


    tiebaSpider(fullUrl,beginPage,endPage,kw)

爬出來的結果

python-貼吧圖片爬取的一個小指令碼

學了點python，寫了個爬取貼吧圖片的小指令碼，記錄一下，其中遇到了一個坑，就是下載下來的html，百度不知道怎麼做了特殊處理，加上了註釋，結果一開始怎麼都提取不到圖片地址，最後仔細比較才發現，然後批量把註釋取消了才成功獲得url。真坑！程式碼如下：#!/usr/bin/e

百度貼吧圖片爬取

直接上程式碼： # -*- coding:utf-8 -*- from lxml import etree import requests class TiebaSpider(object): def __init__(self, tieba_name, begin_page, e

python高清圖片爬取了解一下

高清圖片爬取了解一下前段時間在知乎看到一篇文章，關於視覺中國如何從騰訊身上扒一層皮的事情。大意就是網際網路巨頭在沒有經過授權的情況下使用了9張來自視覺中國的照片，最後的結果是以賠償視覺中國4w結束。原文連結： https://zhuanlan.zhihu.com/

Python網路爬蟲-圖片爬取

一、匯入urllib.request、re兩個模組 import urllib.request (用於開啟URL的可擴充套件庫) import re (用於正則匹配) 二、爬取步驟 1、確定爬取地址 path="要爬取的網站地址（前面需接http://）

百度網頁貼吧批量爬取

from urllib import parse import urllib.request import threading #使用多執行緒爬取 def loadPage(url,filename): ''' 作用：根據url傳送請求，獲取伺服器響應檔案 url:需

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

沒有內涵段子可以刷了，利用Python爬取段友之家貼吧圖片和小視頻(含源碼)

python 興趣爬蟲職業由於最新的視頻整頓風波，內涵段子APP被迫關閉，廣大段友無家可歸，但是最近發現了一個“段友”的app，版本更新也挺快，正在號召廣大段友回家，如下圖，有興趣的可以下載看看（ps：我不是打廣告的，沒收廣告費的）同時，之前同事也發了一個貼吧的段子聚居地，客官稍等，馬

Python爬取百度貼吧圖片指令碼

新手，以下是爬取百度貼吧制定帖子的圖片指令碼，因為指令碼主要是解析html程式碼，因此一旦百度修改頁面前端程式碼，那麼指令碼會失效，權當爬蟲入門練習吧，後續還會嘗試更多的爬蟲。 # coding=ut

Python爬蟲__爬取貼吧圖片和文字

1. 爬取圖片 1.1 前言我當年年少，還不知道爬蟲這個東西，又想把書法圖片儲存下來，於是一張張地把圖片另存為，現在用爬蟲來爬取每一樓的書法圖片，解放一下人力： 1.2 爬取圖片的流程可以總結如下： 1)爬取網頁的ht

實戰python 爬蟲爬取百度貼吧圖片

#!/usr/bin/python import urllib,urllib2import re def getHtml(url): page = urllib2.urlopen(url) return page.read() def getImage(html): re_img = re.compil

python批量下載上次論文，還在爬取貼吧圖片？快用批量下載sci論文吧，根據標題名或者DOI批量下載 scihub 科研下載神器

昨晚在下載scil論文，一共295篇，手動下載的話豈不是要累si? 於是想到有沒有批量下載sci論文的。在web of science 上匯出下載問下的標題、DOI等txt檔案，然後篩選得到DOI和標題，儲存為新檔案。通過迴圈得到DOI與標題，下載並儲存成標題命名。程式參考如下

Python實現爬取貼吧圖片

導讀：最近周邊朋友學python的越來越多，毫無意外的是，大家都選擇了爬蟲入門。這不難理解。Python有豐富的庫使用，使得爬蟲的實現容易很多，學習之後，回報明顯，容易獲得成就感。總結起來就是：讓人有繼續學下去的慾望。我偏巧例外，先走了Python web。雖然

Python爬蟲入門——爬取貼吧圖片

最近忽然想聽一首老歌，“I believe” 於是到網上去搜，把幾乎所有的版本的MV都看了一遍（也是夠無聊的），最喜歡的還是最初版的《我的野蠻女友》電影主題曲的哪個版本，想起女神全智賢，心血來潮，於是就想到了來一波全MM的美照，哪裡有皁片呢？自然是百度貼吧了。放上鍊接-—

python 用BeautifulSoup爬取貼吧圖片

# _*_ coding:utf-8 _*_ import urllib from bs4 import BeautifulSoup def get_content(url): """ doc.""" html = urllib.urlopen(url) content

python-關於爬蟲爬取貼吧圖片

#利用xpath解析列表資料 from lxml import etree import requests import os # 需求：爬取百度貼吧圖片,翻頁，下載圖片儲存到本地 # 流程： # 1、構建url和headers # 2、傳送請求、獲取響應 # 3、解析列表

python-實現一個貼吧圖片爬蟲

fix request arm agent x64 pan http python2 png 今天沒事回家寫了個貼吧圖片下載程序，工具用的是PyCharm，這個工具很實用，開始用的Eclipse，但是再使用類庫或者其它方便並不實用，所以最後下了個專業開發python程序的工

利用python爬取點小圖片，滿足私欲(爬蟲)

.text write ret append jpg use download div pat import requestsimport reimport os,syslinks=[]titles=[] headers = { "User-Agent": "Mozi

XPath：爬取百度貼吧圖片，並儲存本地

使用XPath，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。什麼是XML XML 指可擴充套件標記語言（EXtensible Markup

爬取百度貼吧圖片

本次文章內容是爬取貼吧圖片，希望對大家有所幫助使用環境：我用的是python2.7.9 在Python 3以後的版本中，urllib2這個模組已經不單獨存在（也就是說當你import urllib2時，系統提示你沒這個模組），urllib2被合併到了urllib中。 url

Python爬蟲教程：爬取百度貼吧

貼吧爬取寫程式碼前，構思需要的功能塊；寫程式碼時，把各個功能模組名提前寫好初始化初始化必要引數，完成基礎設定爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼) 主題名初始網址請求頭生成網址生成每一頁的路由

python-貼吧圖片爬取的一個小指令碼

相關推薦