python爬取百度貼吧指定內容

阿新 • • 發佈：2018-11-03

環境:python3.6

1：抓取百度貼吧—linux吧內容基礎版抓取一頁指定內容並寫入檔案

萌新剛學習Python爬蟲,做個練習
貼吧連結: http://tieba.baidu.com/f?kw=linux&ie=utf-8&pn=0
解析原始碼使用的是BeautifulSoup
關於BeautifulSoup: 可以直接檢視官方文件:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
檔案儲存使用json的方式
當然你可以儲存成txt檔案
廢話不多說直接上程式碼

'''
抓取百度貼吧---linux吧內容
基礎版 抓取一頁指定內容並寫入檔案
爬蟲線路： requests - pyquery
Python版本： 3.6
'''

import requests
import json
from bs4 import BeautifulSoup


# 用於傳送請求，獲得網頁原始碼以供解析
def start_requests(url):
    r = requests.get(url)
    return r.content


# 解析內容
def parse(text):
    soup = BeautifulSoup(text, 'lxml')
    infos = soup.find_all('li', attrs={'class': 'j_thread_list'})
    # 建立一個列表儲存所有結果
    result_list = []
    for info in infos[1:]:
        # 建立一個字典將所有資訊存入字典中
        mydict = {}
        mydict['title'] = info.find('a', class_='j_th_tit').text.strip()    # 帖子標題
        mydict['link'] = "http://tieba.baidu.com/" + info.find('a', class_='j_th_tit')['href']  # 帖子連結
        mydict['author'] = info.find('a', class_='frs-author-name').text.strip()    # 帖子作者
        mydict['time'] = info.find('span', class_='pull-right').text    # 發表時間
        result_list.append(mydict)
    return result_list


# 將資料寫入json檔案
def write_json(result):
    s = json.dumps(result, indent=4, ensure_ascii=False)
    with open('tieba.json', 'w', encoding='utf-8') as f:
        f.write(s)


def main():
    # 貼吧連結
    url = 'http://tieba.baidu.com/f?kw=linux&ie=utf-8&pn=0'
    text = start_requests(url)
    result = parse(text)
    write_json(result)


# 一般做法
if __name__ == '__main__':
    main()

檔案內容:
在這裡插入圖片描述

2：抓取百度貼吧—linux吧內容升級版抓取指定頁內容並寫入檔案多頁抓取之構造url

'''
抓取百度貼吧---linux吧內容
升級版 抓取指定頁內容並寫入檔案
多頁抓取之構造url
爬蟲線路： requests - pyquery
Python版本： 3.6
'''

import requests
import json
from bs4 import BeautifulSoup


# 用於傳送請求，獲得網頁原始碼以供解析
def start_requests(url):
    r = requests.get(url)
    print(111)
    return r.content


# 解析內容
def parse(text):
    soup = BeautifulSoup(text, 'lxml')
    infos = soup.find_all('li', attrs={'class': 'j_thread_list'})
    for info in infos[1:]:
        mydict = {}
        mydict['title'] = info.find('a', class_='j_th_tit').text.strip()
        mydict['link'] = "http://tieba.baidu.com/" + info.find('a', class_='j_th_tit')['href']
        mydict['author'] = info.find('a', class_='frs-author-name').text.strip()
        mydict['time'] = info.find('span', class_='pull-right').text
        result_list.append(mydict)


# 將資料寫入json檔案
def write_json(result):
    s = json.dumps(result, indent=4, ensure_ascii=False)
    with open('all_tieBa.json', 'w', encoding='utf-8') as f:
        f.write(s)


def main():
    for i in range(10):
        url = 'http://tieba.baidu.com/f?kw=linux&ie=utf-8&pn={}'.format(i * 50)
        text = start_requests(url)
        parse(text)
    write_json(result_list)
    print('寫入完成')


# 一般做法
if __name__ == '__main__':
    result_list = []
    main()

3：抓取百度貼吧—linux吧內容升級版抓取所有頁內容並寫入檔案多頁抓取之翻頁

這裡要抓取的內容已經很多了,速度會很慢,萌新還不會通過其他技術來加速下載速度

'''
抓取百度貼吧---linux吧內容
升級版 抓取所有頁內容並寫入檔案
多頁抓取之翻頁
爬蟲線路： requests - pyquery
Python版本： 3.6
'''

import requests
import json
from bs4 import BeautifulSoup


# 用於傳送請求，獲得網頁原始碼以供解析
def start_requests(url):
    r = requests.get(url)
    return r.content


# 解析內容
def parse(text):
    """
       翻頁原理是爬取一頁的資訊的同時，把下一頁的url也爬取到，再對抓取到的這個url進行爬取。這種方法適用於有“下一頁”
       標籤的網站，而且一般是網頁url無法構造的時候才用這種方法。
        用這種方法要注意對有無下一頁進行判斷
       """
    soup = BeautifulSoup(text, 'lxml')
    infos = soup.find_all('li', attrs={'class': 'j_thread_list'})
    for info in infos[1:]:
        mydict = {}
        mydict['title'] = info.find('a', class_='j_th_tit').text.strip()
        mydict['link'] = "http://tieba.baidu.com/" + info.find('a', class_='j_th_tit')['href']
        mydict['author'] = info.find('a', class_='frs-author-name').text.strip()
        mydict['time'] = info.find('span', class_='pull-right').text
        result_list.append(mydict)
    # 此處獲取下一頁的連結物件
    next_page = soup.find('a', class_='next')
    if next_page:
        next_url = 'http:'+next_page['href']
        print(next_url)
        text = start_requests(next_url)
        parse(text)


# 將資料寫入json檔案
def write_json(result):
    s = json.dumps(result, indent=4, ensure_ascii=False)
    with open('tieba3.json', 'w', encoding='utf-8') as f:
        f.write(s)


def main():
    text = start_requests(base_url)
    parse(text)
    write_json(result_list)
    print('寫入完成')


# 一般做法
if __name__ == '__main__':
    base_url = 'http://tieba.baidu.com/f?ie=utf-8&kw=linux&fr=search&red_tag=s0376598528'
    result_list = []
    main()

執行程式碼:
在這裡插入圖片描述

總結到此為止 -->over

python爬取百度貼吧指定內容

環境:python3.6 1：抓取百度貼吧—linux吧內容基礎版抓取一頁指定內容並寫入檔案萌新剛學習Python爬蟲,做個練習貼吧連結: http://tieba.baidu.com/f?kw=linux&ie=utf-8&pn=0 解析原始碼使用的是B

Python爬取百度貼吧數據

utf-8 支持我 family encode code word keyword 上一條時間　　本渣除了工作外，在生活上還是有些愛好，有些東西，一旦染上，就無法自拔，無法上岸，從此走上一條不歸路。花鳥魚蟲便是我堅持了數十年的愛好。　　本渣還是需要上班，才能支持我的

Python爬取百度貼吧標題

# -*- coding: utf-8 -*- """ Created on Sun Nov 4 10:22:07 2018 @author: wangf """ from urllib.request import urlopen import codecs from

Python爬取百度貼吧圖片指令碼

新手，以下是爬取百度貼吧制定帖子的圖片指令碼，因為指令碼主要是解析html程式碼，因此一旦百度修改頁面前端程式碼，那麼指令碼會失效，權當爬蟲入門練習吧，後續還會嘗試更多的爬蟲。 # coding=ut

Python爬取百度貼吧回帖中的微訊號（基於簡單http請求）

作者：草小誠轉載請注原文地址：https://blog.csdn.net/cxcjoker7894/article/details/85685115 前些日子媳婦兒有個需求，想要一個任意貼吧近期主題帖的所有回帖中的微訊號，用來做一些微商的操作，你懂的。因為有些貼吧專門就是

Python爬取百度貼吧的圖片

Python是一個弱型別的動態語言下面是我的第一個簡單的爬蟲指令碼程式 #coding=gbk #匯入re和urlLib兩個庫 import re import urllib #定義一個有參的獲得圖片的方法,方法名為getImg def getImg(url):

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Python爬蟲-爬取百度貼吧

方法 eba style name urlopen for pri url pen 爬取百度貼吧 ===================== ===== 結果示例： ===================================== 1 ‘‘‘ 2 爬去百

Python爬蟲教程：爬取百度貼吧

貼吧爬取寫程式碼前，構思需要的功能塊；寫程式碼時，把各個功能模組名提前寫好初始化初始化必要引數，完成基礎設定爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼) 主題名初始網址請求頭生成網址生成每一頁的路由

實戰python 爬蟲爬取百度貼吧圖片

#!/usr/bin/python import urllib,urllib2import re def getHtml(url): page = urllib2.urlopen(url) return page.read() def getImage(html): re_img = re.compil

python網路爬蟲學習(二)一個爬取百度貼吧的爬蟲程式

今天進一步學習了python網路爬蟲的知識，學會了寫一個簡單的爬蟲程式，用於爬取百度貼吧的網頁並儲存為HTML檔案。下面對我在實現這個功能時的程式碼以及所遇到的問題的記錄總結和反思。首先分析實現這個功能的具體思路: 通過對貼吧URL的觀察，可以看出貼吧中的

python爬蟲爬取百度貼吧（入門練習）

需求說明：從控制檯輸入指定爬取的貼吧名稱，起始頁面，結束頁面，並在檔案中建立以貼吧名稱+“爬取內容” 為名字建立檔案件，裡面的每一個檔案都是爬取到的每一頁html檔案，檔名稱：貼吧名稱_page.html import urllib.reque

python爬蟲(13)爬取百度貼吧帖子

爬取百度貼吧帖子一開始只是在網上看到別人寫的爬取帖子的文章，然後自己就忍不住手癢自己鍛鍊一下，然後照著別人的寫完，發現不太過癮，畢竟只是獲取單個帖子的內容，感覺內容稍顯單薄，然後自己重新做了修改，把它變成重寫成了一個比較強大的爬蟲精簡版本簡介通過帖子的地址，獲

Python爬蟲例項--爬取百度貼吧小說

Python爬蟲例項–爬取百度貼吧小說寫在前面本篇文章是我在簡書上寫的第一篇技術文章，作為一個理科生，能把僅剩的一點文筆拿出來獻醜已是不易，希望大家能在指教我的同時給予我一點點鼓勵，謝謝。一.介紹小說吧：顧名思義，是一個小說

requests+xpath+map爬取百度貼吧

name ads int strip 獲取 app open http col 1 # requests+xpath+map爬取百度貼吧 2 # 目標內容:跟帖用戶名,跟帖內容,跟帖時間 3 # 分解: 4 # requests獲取網頁 5 # xpath提取內

ulrlib案例-爬取百度貼吧

request class clas uml sleep 很多下載變化 random 1.任務需求百度貼吧有很多主題，每個主題下的網頁存在很多分頁。爬取不同的主題，並下載每個主題下的多頁網頁。輸入貼吧名稱，下載相應貼吧的多頁網頁，設置最多下載50頁。 2.分析

完整的爬蟲程序爬取百度貼吧的圖片

列表文檔 for tieba http ... 自增 num 圖片 #!/usr/bin/env python#-- coding:utf-8 -- import osimport urllibimport urllib2from lxml import etree cl

XPath：爬取百度貼吧圖片，並儲存本地

使用XPath，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。什麼是XML XML 指可擴充套件標記語言（EXtensible Markup

爬取百度貼吧圖片

本次文章內容是爬取貼吧圖片，希望對大家有所幫助使用環境：我用的是python2.7.9 在Python 3以後的版本中，urllib2這個模組已經不單獨存在（也就是說當你import urllib2時，系統提示你沒這個模組），urllib2被合併到了urllib中。 url

python爬取百度貼吧指定內容

1：抓取百度貼吧—linux吧內容 基礎版 抓取一頁指定內容並寫入檔案

2：抓取百度貼吧—linux吧內容 升級版 抓取指定頁內容並寫入檔案 多頁抓取之構造url

3：抓取百度貼吧—linux吧內容 升級版 抓取所有頁內容並寫入檔案 多頁抓取之翻頁

相關推薦

1：抓取百度貼吧—linux吧內容基礎版抓取一頁指定內容並寫入檔案

2：抓取百度貼吧—linux吧內容升級版抓取指定頁內容並寫入檔案多頁抓取之構造url

3：抓取百度貼吧—linux吧內容升級版抓取所有頁內容並寫入檔案多頁抓取之翻頁