Python爬蟲系列之百度貼吧爬取

阿新 • • 發佈：2018-11-28

今天給的一個爬蟲小事例，貼吧段子爬取這樣一個小功能，資料呢僅僅娛樂，沒有惡意想法

若有侵權，請私信刪除

此次用到的一個解析庫Beautiful Soup，更輕量簡單地對資料進行解析，已獲得目標資料
貼吧做的還是比較好，有一定的反爬機制，所以我們也應該有一定的應對措施，具體對應我們requests獲取到的資料對應頁面原始碼，通過觀察發現數據的是否非同步與註釋等等反爬問題
以下是程式碼部分

# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
import requests
import re
import 
 time
import urllib.parse

'''
    Author:王磊
    Time  :2018/11/27 20:22:36
'''

header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0"}


def getHTML(url):
    '''
    通過url獲取html
    :param url:
    :return:htmlStrs
    '' 
'
    res = requests.get(url, headers=header)
    html = res.content.decode('utf-8', 'ignore')
    html = html.replace("<!--", "")
    html = html.replace("-->", "")
    return html


def parseSaveData(html):
    '''
    通過html程式碼解析資料並儲存
    :param html:
    :return:None
    '''
    soup = BeautifulSoup 
(html, 'html.parser')
    # req = re.compile(r'<span.*?class="tb_icon_author.*?".*?>.*?</span>', re.S)
    # print(re.findall(req, html))
    # 每條帖子資料
    uls = soup.findAll('li', attrs={"class": re.compile(r'j_thread_list.*?')})
    lens = len(uls)
    with open('C:\\Users\\asus\\Desktop\\pc\\text\\tieba.txt', 'a', encoding='gbk') as f:
        for i in range(lens):
            Utitle = uls[i].findAll('a', attrs={"rel": re.compile(r'noreferrer.*?')})[0]['title']
            Uauthor = uls[i].findAll('span', attrs={"class": re.compile(r'tb_icon_author.*?')})[0]['title']
            print(Utitle)
            print(Uauthor)
            print("*" * 50)
            Utitle = (Utitle + '\r\n').encode("GBK", 'ignore').decode('gbk')
            Uauthor = (Uauthor + '\r\n').encode("GBK", 'ignore').decode('gbk')
            f.write(Utitle)
            f.write(Uauthor)
            f.write("*" * 50 + '\r\n')


def getPages(html):
    '''
    通過html獲取當前貼吧總帖子頁數
    :param html:
    :return: pageNums
    '''
    soup = BeautifulSoup(html, 'html.parser')
    endPages = soup.findAll('a', attrs={"class": re.compile(r'last.*?pagination-item.*?')})
    return int(urllib.parse.urlparse('http://' + endPages[0]['href'])[4].split("=")[3])


def main():
    '''
    入口函式
    :return:None
    '''
    name = urllib.parse.quote('電子科技大學成都學院')
    url = 'http://tieba.baidu.com/f?kw=' + name + '&ie=utf-8&pn=0'
    # 獲取資料
    html = getHTML(url)
    # 獲取頁面數
    pages = getPages(html)
    # 迴圈獲取頁資料並存儲
    index = 0
    for i in range(pages):
        url = 'http://tieba.baidu.com/f?kw=' + name + '&ie=utf-8&pn=' + str(index)
        #分析儲存資料
        parseSaveData(html)
        index += 50
        time.sleep(3)


if __name__ == '__main__':
    main()

☞點選這裡與我探討☚

♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪
♪♪後續會更新系列基於Python的爬蟲小例子，歡迎關注。♪♪
♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪♪

Python爬蟲系列之百度貼吧爬取

今天給的一個爬蟲小事例，貼吧段子爬取這樣一個小功能，資料呢僅僅娛樂，沒有惡意想法若有侵權，請私信刪除此次用到的一個解析庫Beautiful Soup，更輕量簡單地對資料進行解析，已獲得目標資料貼吧做的還是比較好，有一定的反爬機制，所以我們也應該有一定的應對措施

Python爬蟲【實戰篇】百度貼吧爬取頁面存到本地

先上程式碼 import requests class TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url_temp = " htt

python爬蟲，獲取百度貼吧圖片

直接上程式碼： #!/usr/bin/env python # -*- coding:utf-8 -*- import urllib import urllib2 from lxml import etree def loadPage(url):

百度貼吧爬取(可以指定貼吧名及頁碼)

百度貼吧爬蟲 python#!/usr/bin/python # coding=utf-8 import urllib import urllib2 def loadPage(url,filename): ‘‘‘ 作用:根據URL發送請求,獲取服務器響應文件 html:返回的響應文

Python爬蟲之百度貼吧

目標： 1、對百度貼吧的任意帖子進行爬取 2、爬取帖子指定內容 3、將爬取內容儲存到檔案 1、分析url https://tieba.baidu.com/p/3138733512?se

Python爬蟲實戰（1）——百度貼吧抓取帖子並儲存內容和圖片

最近在網上看了很多的爬蟲指令碼，寫的參差不齊，但是其中有很多寫的非常的優秀，程式碼質量很高，規範性也很好，很具有代表性，非常值得我們去學習！~ 寫好一個python爬蟲需要有以下幾個必備條件： 1、足夠好的程式碼規範(等號前後加空格、逗號後加空格等等)，結構性封裝性好，重

python selenium 自動登入百度貼吧

python selenium 自動登入百度貼吧這幾天抽時間在看selenium這個模組，其實很人性化的，裡面有了很多方法可以供大家使用，基礎部分我就不一一介紹了，大家可以參照這篇部落格，還是很不錯的。Selenium基礎開始我們的自動登入補貼的過程。

python爬蟲系列(5.3-動態網站的爬取的策略)

一、認識動態網站所謂的動態網站,是使用ajax加載出來的網頁,我們開啟網頁的時候可以正常顯示內容,但是我們在顯示網頁原始碼的時候,裡面卻找不到該節點. 二、常見動態網站的抓取方式 1、直接分析ajax呼叫的介面,然後通過程式碼請求這個介面 2、採用模擬瀏覽器請求該動態網站,然後獲取

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

Python爬蟲學習之正則表達式爬取個人博客

9.png turn () htm parent ast string 則表達式 urn 實例需求：運用python語言爬取http://www.eastmountyxz.com/個人博客的基本信息，包括網頁標題，網頁所有圖片的url，網頁文章的url、標題以及摘要。實

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

python 爬蟲百度貼吧簽到小工具

sca window user con lee post use wow64 搜索 import requests,re,timeheader ={ "Cookie":"登陸過賬號後的cookie 必須填寫", "User-Agent":"Mozilla/5.

Python實現簡單爬蟲功能--批量下載百度貼吧裡的圖片

在上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片儲存下載，或者使用者用來做桌面桌布，或者用來做設計的素材。　　我們最常規的做法就是通過滑鼠右鍵，選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項，還有辦法就通過就是通過截圖工具擷取下來，但這樣就降低圖片的清晰度

Python爬蟲-爬取百度貼吧

方法 eba style name urlopen for pri url pen 爬取百度貼吧 ===================== ===== 結果示例： ===================================== 1 ‘‘‘ 2 爬去百

Python爬蟲教程：爬取百度貼吧

貼吧爬取寫程式碼前，構思需要的功能塊；寫程式碼時，把各個功能模組名提前寫好初始化初始化必要引數，完成基礎設定爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼) 主題名初始網址請求頭生成網址生成每一頁的路由

Python爬蟲 -下載百度貼吧圖片

先放上程式的程式碼 import urllib.request import os import easygui as g import re def url_open(url): req = urllib.request.Request(url)

Python爬蟲例項：從百度貼吧下載多頁話題內容

上週網路爬蟲課程中，留了一個實踐：從百度貼吧下載多頁話題內容。我完成的是從貼吧中一個帖子中爬取多頁內容，與老師題目要求的從貼吧中爬取多頁話題還是有一定區別的，況且，在老師講評之後，我瞬間就發現了自己跟老師程式碼之間的差距了，我在程式碼書寫上還是存在很多不規範不嚴謹的地方，而且

Python爬蟲--- 1.5 爬蟲實踐：獲取百度貼吧內容

原文連結：https://www.fkomm.cn/article/2018/7/22/21.html 經過前期大量的學習與準備，我們重要要開始寫第一個真正意義上的爬蟲了。本次我們要爬取的網站是：百度貼吧，一個非常適合新人練手的地方，那麼讓我們開始吧。本次要爬的貼吧是<< 西

實戰python 爬蟲爬取百度貼吧圖片

#!/usr/bin/python import urllib,urllib2import re def getHtml(url): page = urllib2.urlopen(url) return page.read() def getImage(html): re_img = re.compil

Python爬蟲系列之百度貼吧爬取

今天給的一個爬蟲小事例，貼吧段子爬取這樣一個小功能，資料呢僅僅娛樂，沒有惡意想法

若有侵權，請私信刪除

相關推薦