1. 程式人生 > >Python 抓取貼吧裡某樓主所有的帖子

Python 抓取貼吧裡某樓主所有的帖子


操作的url:  http://tieba.baidu.com/p/2887364960?see_lz=1&pn=1
import urllib.request
import http.client
import bs4
import re
pattern=re.compile('post_content_[0-9]{1,}')
def IsRightId(id):
             group=pattern.findall(id)
             if group:
                          return group
             else :
                          return None
def GetEveryPage(url,file):
             try:
                          rep=urllib.request.urlopen(url)
             except http.client.HTTPException as e:
                          print(repr(e))
             else:
                          rep_utf=rep.read().decode('gbk').encode(encoding='utf-8').decode('utf-8')
                          
                          soup=bs4.BeautifulSoup(rep_utf)
                          for div in soup.find_all('div'):
                                       div_id=div.get('id')
                                       if IsRightId(str(div_id)):
                                                    file.write(div.get_text()+'\r\n')
                         
                          
url='http://tieba.baidu.com/p/2887364960?see_lz=1&pn='
file_tieba=open('007.txt','w+',encoding='utf-8')
for i in range(1,17):
             url_everypage=url+str(i)
             print('Processing page:'+str(i)+str('/16......'))
             GetEveryPage(url_everypage,file_tieba)
print('Finished!')
file_tieba.close()

相關推薦

Python 所有帖子

操作的url:  http://tieba.baidu.com/p/2887364960?see_lz=1&pn=1 import urllib.request import http.cl

enc -a htm urlopen tieba html dex NPU __main__ import osimport urllib.requestfrom urllib import parse#https://tieba.baidu.com/f?kw=%E7%B

的任意一張圖片

爬取百度貼吧隨便一頁裡的圖片 想爬圖片了,玩玩 import re import urllib user_agent = ‘Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)’ headers = {‘User-Agent’:user_agent}

Python帖子內容

# -*- coding: utf-8 -*- """ Created on Sun Nov 4 09:58:09 2018 @author: wangf """ import re import requests import urllib #處理頁面標籤

Python多頁圖片

Python爬取貼吧圖片都只能爬取第一頁的,加了迴圈也不行,現在可以了。 #coding:utf-8 import urllib import urllib2 import re import o

Python圖片(

今天給大家寫分享一個爬蟲小程式,用來抓取貼吧的一些圖片  picture.py。 步驟: 1、獲取指定網頁原始碼,建議request一下。 2、匹配正則 3、利用urlretrieve下載 在這兒呢

Python實現簡單爬蟲功能--批量下載百度的圖片

在上網瀏覽網頁的時候,經常會看到一些好看的圖片,我們就希望把這些圖片儲存下載,或者使用者用來做桌面桌布,或者用來做設計的素材。   我們最常規的做法就是通過滑鼠右鍵,選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項,還有辦法就通過就是通過截圖工具擷取下來,但這樣就降低圖片的清晰度

python:爬的某個的網頁資訊

#-*-coding:utf-8-*- import urllib #負責url編碼處理 import urllib2 import sys import os if sys.getdefaultencoding() != 'utf-8': reload(sys)

Python爬蟲__爬圖片和文字

1. 爬取圖片 1.1 前言 我當年年少,還不知道爬蟲這個東西,又想把書法圖片儲存下來,於是一張張地把圖片另存為,現在用爬蟲來爬取每一樓的書法圖片,解放一下人力: 1.2 爬取圖片的流程可以總結如下: 1)爬取網頁的ht

python爬蟲四:爬資料

# -*- coding: utf-8 -*- import requests import time from bs4 import BeautifulSoup import io import sys #sys.stdout = io.TextIOWrapper(sys

python批量下載上次論文,還在爬圖片?快用批量下載sci論文,根據標題名或者DOI批量下載 scihub 科研下載神器

昨晚在下載scil論文,一共295篇,手動下載的話豈不是要累si? 於是想到有沒有批量下載sci論文的。 在web of science 上匯出下載問下的標題、DOI等txt檔案,然後篩選得到DOI和標題,儲存為新檔案。 通過迴圈得到DOI與標題,下載並儲存成標題命名。 程式參考如下

Python實現爬圖片

導讀:       最近周邊朋友學python的越來越多,毫無意外的是,大家都選擇了爬蟲入門。這不難理解。Python有豐富的庫使用,使得爬蟲的實現容易很多,學習之後,回報明顯,容易獲得成就感。總結起來就是:讓人有繼續學下去的慾望。我偏巧例外,先走了Python web。雖然

Python爬蟲入門——爬圖片

最近忽然想聽一首老歌,“I believe” 於是到網上去搜,把幾乎所有的版本的MV都看了一遍(也是夠無聊的),最喜歡的還是最初版的《我的野蠻女友》電影主題曲的哪個版本,想起女神全智賢,心血來潮,於是就想到了來一波全MM的美照,哪裡有皁片呢?自然是百度貼吧了。 放上鍊接-—

python 用BeautifulSoup爬圖片

# _*_ coding:utf-8 _*_ import urllib from bs4 import BeautifulSoup def get_content(url): """ doc.""" html = urllib.urlopen(url) content

利用Python中的matplotlib模組yahoo finance的歷史資料並繪圖

       如何自動獲取各個公司的股票歷史資料並繪圖是金融文字情感分析專案裡的必要部分,誠然這些資料在finance.yahoo.com裡可以很方便的看到,但如何利用程式自動獲取、實時顯示卻是個問題。之前一直考慮寫爬蟲來抓取資料,顯然這樣做很費力且效率不高,而Pytho

站視訊python: m3u8轉mp4

之前利用python簡單爬蟲抓過一些圖片,最近想到了抓取視訊。由於很多地方視訊不提供下載。所以覺得有必要學習一下,以備不時之需。備註:這裡僅記錄碰到的網站視訊例項,不保證適用所有情況。 基本概念與思路 目標問題是,在某視訊網站下載喜歡的視訊檔案並儲存為MP4

python-關於爬蟲爬圖片

#利用xpath解析列表資料 from lxml import etree import requests import os # 需求:爬取百度貼吧圖片,翻頁,下載圖片儲存到本地 # 流程: # 1、構建url和headers # 2、傳送請求、獲取響應 # 3、解析列表

Python學院新聞報告

滿足 imp 實驗 源代碼 ges tail view paste rom Python案例 scrapy抓取學院新聞報告 任務 抓取四川大學公共管理學院官網(http://ggglxy.scu.edu.cn)所有的新聞咨詢. 實驗流程 1.確定抓取目標.2.制定抓取規則.

python

info 奧巴馬 www word ref str source div term 我要抓取奧巴馬每周的演講內容http://www.putclub.com/html/radio/VOA/presidentspeech/index.html 如果手動提取,就需要一個個點進去

pythonbing主頁背景圖片

replace utf bytes for json格式 module imp urlopen 有變 最初Python2寫法: #!/usr/bin/env python # -*- coding:utf-8 -*- # -*- author:nancy -*- # pyt