爬蟲爬取博客園自己or他人發布文章代碼

阿新 • • 發佈：2019-03-28

目錄 img afa requests ade pri 獲取 head lse

import requests
from bs4 import BeautifulSoup
import os


class mzitu():

    def __init__(self):
        self.headers = {
            ‘User-Agent‘: "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"}

    def all_url(self, url):
        html  
= self.request(url)  # #調用request函數把套圖地址傳進去會返回給我們一個response
        all_a = BeautifulSoup(html.text, ‘html.parser‘).find(‘div‘, class_=‘all‘).find_all(‘a‘)
        # 頁面更改 多了一個早期圖片 需要刪掉（小夥伴們 可以自己嘗試處理一下這個頁面）
        all_a.pop(0)
        # 上面是刪掉列表的第一個元素
        for a in all_a:
            title = a.get_text()
            print(u 
‘開始保存：‘, title)  # #加點提示不然太枯燥了
            path = str(title).replace("?", ‘_‘)  # #我註意到有個標題帶有 ？  這個符號Windows系統是不能創建文件夾的所以要替換掉
            self.mkdir(path)  # #調用mkdir函數創建文件夾！這兒path代表的是標題title哦！！！！！不要糊塗了哦！
            href = a[‘href‘]
            self.html(href)  # #調用html函數把href參數傳遞過去！href是啥還記的吧？ 就是套圖的地址哦！！不要迷糊了哦！

    def html(self, href):  # #這個函數是處理套圖地址獲得圖片的頁面地址
        html  
= self.request(href)
        self.headers[‘referer‘] = href
        max_span = BeautifulSoup(html.text, ‘html.parser‘).find(‘div‘, class_=‘pagenavi‘).find_all(‘span‘)[-2].get_text()
        for page in range(1, int(max_span) + 1):
            page_url = href + ‘/‘ + str(page)
            self.img(page_url)  # #調用img函數

    def img(self, page_url):  # #這個函數處理圖片頁面地址獲得圖片的實際地址
        img_html = self.request(page_url)
        img_url = BeautifulSoup(img_html.text, ‘html.parser‘).find(‘div‘, class_=‘main-image‘).find(‘img‘)[‘src‘]
        self.save(img_url)

    def save(self, img_url):  # #這個函數保存圖片
        name = img_url[-9:-4]
        img = self.request(img_url)
        f = open(name + ‘.jpg‘, ‘ab‘)
        f.write(img.content)
        f.close()

    def mkdir(self, path):  # #這個函數創建文件夾
        path = path.strip()
        isExists = os.path.exists(os.path.join("D:\mzitu", path))
        if not isExists:
            print(u‘建了一個名字叫做‘, path, u‘的文件夾！‘)
            os.makedirs(os.path.join("D:\mzitu", path))
            os.chdir(os.path.join("D:\mzitu", path))  # #切換到目錄
            return True
        else:
            print(u‘名字叫做‘, path, u‘的文件夾已經存在了！‘)
            return False

    def request(self, url):  # # 這個函數獲取網頁的response 然後返回
        content = requests.get(url, headers=self.headers)
        return content


Mzitu = mzitu()  # #實例化
Mzitu.all_url(‘http://www.mzitu.com/all‘)  # # 給函數all_url傳入參數  你可以當作啟動爬蟲（就是入口）

其中需要把博客id名和url首頁值替換掉即可！

爬蟲爬取博客園自己or他人發布文章代碼

目錄 img afa requests ade pri 獲取 head lse import requests from bs4 import BeautifulSoup import os class mzitu(): def __init

【Python3 爬蟲】爬取博客園首頁所有文章

表達式技術標記 itl 1.0 headers wow64 ignore windows 首先，我們確定博客園首頁地址為：https://www.cnblogs.com/ 我們打開可以看到有各種各樣的文章在首頁，如下圖：我們以上圖標記的文章為例子吧！打開網頁源碼，搜

webmagic爬取博客園所有文章

get() cat 彈出 println for core gic cif tac 最近學習了下webmagic，學webmagic是因為想折騰下爬蟲，但是自己學java的，又不想太費功夫，所以webmagic是比較好的選擇了。寫了幾個demo，源碼流程大致看了一遍。想著

編寫windows服務定時爬取博客園文章郵件提醒以及入庫

cli 發現 innertext 比較 sum asp author ota sel 這段時間工作比較忙，每天也沒那麽多的時間逛博客園看文章，於是就想寫一個工具每天早上9點爬取文章給自己發郵件作為每天的技術早餐。相對而言，爬取博客園的文章還是比較簡單的，主要思路就

python學習第一彈：爬蟲（抓取博客園新聞）

結果 csv hid window 相關數解析html 可能一個 _id 前言　　說到python，對它有點耳聞的人，第一反應可能都是爬蟲~ 　　這兩天看了點python的皮毛知識，忍不住想寫一個簡單的爬蟲練練手，JUST DO IT 準備工作　　要制作數據

[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息

r.js 目錄 ref 抓取 {} attr 視頻 json clist 抓取目標：就是我自己的博客：http://www.cnblogs.com/ghostwu/ 需要實現的功能：抓取博客所有的文章標題，超鏈接，文章摘要，發布時間需要用到的庫： node.js自帶的h

Python爬蟲爬取部落格園作業

要求第一部分：請分析作業頁面，爬取已提交作業資訊，並生成已提交作業名單，儲存為英文逗號分隔的csv檔案。檔名為：hwlist.csv 。檔案內容範例如下形式：學號,姓名,作業標題,作業提交時間,作業URL 20194010101,張三,羊車門作業,2018-1

python爬蟲——爬取知乎上自己關注的問題

與之前爬的網站圖片的不同的是，現在爬取的是要自己個人的關注的東西，所以需要做到模擬登入。模擬登入的原理是登入網站後，在瀏覽器上獲取儲存的cookies資訊，填充之後與請求一起傳送。如果前面的爬取圖片的會爬取了，對於這個解析字串的也沒有多大問題了。一直看著知乎上很多程式設計師把

爬取博客並轉成pdf

def href tmp std 執行 tex import lac 文件名前些天無意間看到了“birdben”的博客，寫的比較詳細，但是最新的文章更新時間是“2017-05-07”，時間很是久遠，本打算有時間認真學習一下博

python學習--利用session進行博客園登陸並且自動發貼

兩個 agen sts published wow64 set 發現 https stat 1、首先手動登陸，打開fiddler抓包，將登陸前後的cookie進行對比，找出其中不同的記錄 2、登陸代碼如下所示 import requests import logging

Flask博客類登錄註冊驗證模塊代碼(十四)

extent down rms 地址 generate targe 文件系統退出生產 1 文件系統 blog #博客類 App forms #表單 __init__.py

python偽代碼之爬取完美誌願全國歷年文理分數線運行代碼持續更新

Python 爬蟲高考項目最近好多小夥伴說想搞個項目實戰類的，我就花了一點時間做了一個爬蟲項目（在代碼復制的時候可能會有點問題，縮格一下就沒有問題了）想要獲取更多源碼或者答疑或者或者交流學習可以加群：725479218 # -*- coding:utf-8 -*- from funct

如何高效的編寫與同步博客（二）- 快速發布到多個渠道

block str 登錄 publish sof 兩種關閉 ins mac osx 系列目錄如何高效的編寫與同步博客（一）- 編寫如何高效的編寫與同步博客（二）- 快速發布到多個渠道一.前言我們使用Markdown編寫博文，總免不了文章中出現圖片，這裏的圖片有

爬取【王琳傑-博客園】的博文

wan write 輸入 NPU itl webkit .cn dom模型 raw 獲取頁面信息，用XPath 做數據提取獲取每個blog裏的用標題、正文、閱讀次數信息保存到 json 文件內 # -*- coding:utf-8 -*- impo

博客園爬蟲模擬

ups 原理分析 enc matches 模擬 value logs creat odi 　　 /* 原理分析: 1.通過抓包工具分析請求地址:http://www.cnblogs.com/liuxiao

布局分析001：自己的博客園模板

框架 -s spa 絕對定位 col images com eight class 分析：兩列的模式，兩列都采用絕對定位方式。這個框架的問題是：只知道一個層的寬度如何定位？假如只規定右邊層的寬度，左邊如何定位呢？比如說，規定右邊的寬度為300px，則左邊不用計算，

將自己的博客園，打造成個人知乎

log 博客園 post body 自己的知乎博客個人 blog 將自己的博客園，打造成個人知乎將自己的博客園，打造成個人知乎將自己的博客園，打造成個人知乎將自己的博客園，打造成個人知乎將自己的博客園，打造成個人知乎將自己的博客園，打造成個人知乎將自己的博客園，打造成

Python 爬蟲實例（10）—— 四行代碼實現刷博客園閱讀數量

體會博客 http log 實例代碼 port 代碼實現 ive 代碼很少，自己去體會 from selenium import webdrever driver = webdrever.Chrome() url = "http://www.cnblo

自己制作博客園打賞功能

width 制作 -h com alt post nbsp style 分享圖片功能：給自己博客園添加支付寶、微信（後續）打賞功能（用javascript) 效果圖：主要是側邊欄打賞自己制作博客園打賞功能

【給自己】- 博客園文章編寫規範

ont ron bold strong 阿拉伯自己 clas pos LV 1.第一類文章章節編號：阿拉伯數字一級標題： Arial 18 Bold 正文：Arial 14 Bold 圖片：居左 2.第二類文章章節編號：阿拉伯數字一級標題： Arial 18 Bo

爬蟲爬取博客園自己or他人發布文章代碼

相關推薦