python爬蟲，獲取百度貼吧圖片

阿新 • • 發佈：2019-01-11

直接上程式碼：

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib
import urllib2
from lxml import etree

def loadPage(url):
    print 'loading...'
    request = urllib2.Request(url)
    html = urllib2.urlopen(request).read()
    content = etree.HTML(html)
    link_list = content.xpath('//div[@class="t_con cleafix"]/div[@class="col2_right j_threadlist_li_right "]/div/div/a/@href' 
)
    #組合為每個帖子的連結
    for link in link_list:
        fulllink = "http://tieba.baidu.com" + link
        # print fulllink
        loadImage(fulllink)
#去除每個帖子裡的每個圖片的連結
def loadImage(linkk):
    print 'loading Image...'
    headers = {"User-Agent" :
                   "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0)" 

                   " AppleWebKit/535.11 (KHTML, like Gecko) Chrom"
                   "e/17.0.963.56 Safari/535.11"}
    request = urllib2.Request(linkk,headers=headers)
    html = urllib2.urlopen(request).read()
    content = etree.HTML(html)
    link_list = content.xpath('//img[@class="BDE_Image"]/@src' 
)
    print 'download...'
    for link in link_list:
        # print link

        writeImage(link)

def writeImage(link,i):
    # 檔案寫入
    headers = {"User-Agent" :
                   "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0)"
                   " AppleWebKit/535.11 (KHTML, like Gecko) Chrom"
                   "e/17.0.963.56 Safari/535.11"}
    request = urllib2.Request(link,headers=headers)
    image = urllib2.urlopen(request).read()
    filename = 'D:/WORK/PythonTest/test02/lxml_ing/'+link[-10:]
    print filename
    with open(filename, "wb") as f:
        f.write(image)
        print "image->",'->' ,'*'* 30

def tiebaSpider(url, beginPage, endPage):
    """
        作用：貼吧爬蟲排程器，負責組合處理每個頁面的url
        url : 貼吧url的前部分
        beginPage : 起始頁
        endPage : 結束頁
    """
    print 'now we go ...'
    for page in range(beginPage, endPage + 1):
        pn = (page - 1) * 50
        fullurl = url + "&pn=" + str(pn)
        loadPage(fullurl)
        print "謝謝使用"

if __name__ == "__main__":
    kw = raw_input("請輸入需要爬取的貼吧名:")
    beginPage = int(raw_input("請輸入起始頁："))
    endPage = int(raw_input("請輸入結束頁："))

    url = "http://tieba.baidu.com/f?"
    key = urllib.urlencode({"kw": kw})
    fullurl = url + key
    tiebaSpider(fullurl, beginPage, endPage)

python爬蟲，獲取百度貼吧圖片

直接上程式碼： #!/usr/bin/env python # -*- coding:utf-8 -*- import urllib import urllib2 from lxml import etree def loadPage(url):

實戰python 爬蟲爬取百度貼吧圖片

#!/usr/bin/python import urllib,urllib2import re def getHtml(url): page = urllib2.urlopen(url) return page.read() def getImage(html): re_img = re.compil

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

Python爬蟲系列之百度貼吧爬取

今天給的一個爬蟲小事例，貼吧段子爬取這樣一個小功能，資料呢僅僅娛樂，沒有惡意想法若有侵權，請私信刪除此次用到的一個解析庫Beautiful Soup，更輕量簡單地對資料進行解析，已獲得目標資料貼吧做的還是比較好，有一定的反爬機制，所以我們也應該有一定的應對措施

Python爬蟲-爬取百度貼吧

方法 eba style name urlopen for pri url pen 爬取百度貼吧 ===================== ===== 結果示例： ===================================== 1 ‘‘‘ 2 爬去百

python爬蟲爬取百度貼吧（入門練習）

需求說明：從控制檯輸入指定爬取的貼吧名稱，起始頁面，結束頁面，並在檔案中建立以貼吧名稱+“爬取內容” 為名字建立檔案件，裡面的每一個檔案都是爬取到的每一頁html檔案，檔名稱：貼吧名稱_page.html import urllib.reque

python 爬蟲, 抓取百度美女吧圖片

# ----2018-7-15 ------世界盃總決賽 import requests from lxml import etree import re class TiBa_Image(object): # 建立同意方法 def __init__(

Python爬蟲--- 1.5 爬蟲實踐：獲取百度貼吧內容

原文連結：https://www.fkomm.cn/article/2018/7/22/21.html 經過前期大量的學習與準備，我們重要要開始寫第一個真正意義上的爬蟲了。本次我們要爬取的網站是：百度貼吧，一個非常適合新人練手的地方，那麼讓我們開始吧。本次要爬的貼吧是<< 西

簡單爬蟲，爬去百度貼吧圖片

思路： 1.根據初始url獲取網頁內容 2.根據網頁內容獲取總頁數及所有頁面的url 3.根據每頁的url，將網頁下載到本地 4.讀取本地檔案從檔案中解析出所有的jpg圖片的url 5.用圖片的url下載圖片並儲存成指定的資料夾 6.批量下載圖片，預設儲存到當前目錄下 7

Python爬蟲 -下載百度貼吧圖片

先放上程式的程式碼 import urllib.request import os import easygui as g import re def url_open(url): req = urllib.request.Request(url)

XPath：爬取百度貼吧圖片，並儲存本地

使用XPath，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。什麼是XML XML 指可擴充套件標記語言（EXtensible Markup

python selenium 自動登入百度貼吧

python selenium 自動登入百度貼吧這幾天抽時間在看selenium這個模組，其實很人性化的，裡面有了很多方法可以供大家使用，基礎部分我就不一一介紹了，大家可以參照這篇部落格，還是很不錯的。Selenium基礎開始我們的自動登入補貼的過程。

PHP爬蟲-爬取百度貼吧首頁違規主題貼

因為是第一次寫，感覺有點冗餘。不過嘛，本文章主要面向不知道爬蟲為何物的小夥伴。o(∩_∩)o <?php $url='http://tieba.baidu.com/f?ie=utf-8&kw=php&fr=search'; // 地址 $html = file_ge

python百度貼吧圖片下載指令碼例項

功能介紹：對百度貼吧內的圖片進行下載； python版本： python2.7 用到的庫: urllib,requests 核心原理使用urllib庫爬取貼吧頁面的圖片連結，將其進行下載；requests用於獲取當前訪問頁面返回狀態碼； urllib.ur

Python爬取百度貼吧圖片指令碼

新手，以下是爬取百度貼吧制定帖子的圖片指令碼，因為指令碼主要是解析html程式碼，因此一旦百度修改頁面前端程式碼，那麼指令碼會失效，權當爬蟲入門練習吧，後續還會嘗試更多的爬蟲。 # coding=ut

編寫爬蟲爬取百度貼吧帖子的學習筆記

再接再厲，再次使用python3學習編寫了一個爬取百度貼吧帖子的程式，不多說，直接上關鍵程式碼 #抓取貼吧一個帖子上的內容（一頁內容） import urllib import urllib.req

網路爬蟲簡單的實現爬取百度貼吧圖片

我們要爬取的網站是https://tieba.baidu.com/p/3797994694 首先爬取第一頁的圖片，使用python3自帶庫urllib，詳細的程式碼如下：接下來爬去多頁的圖片，這裡我們選取五頁的圖片，這裡我們採用requests，beautifuls

爬取百度貼吧圖片

本次文章內容是爬取貼吧圖片，希望對大家有所幫助使用環境：我用的是python2.7.9 在Python 3以後的版本中，urllib2這個模組已經不單獨存在（也就是說當你import urllib2時，系統提示你沒這個模組），urllib2被合併到了urllib中。 url

百度貼吧圖片爬取

直接上程式碼： # -*- coding:utf-8 -*- from lxml import etree import requests class TiebaSpider(object): def __init__(self, tieba_name, begin_page, e

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

python爬蟲，獲取百度貼吧圖片

相關推薦