python 爬蟲例項（三）

阿新 • • 發佈：2018-12-18

問題描述

爬取部落格園的首頁資料URL【https://home.cnblogs.com/blog/page/1/】，之後寫到自己的Excel裡面

環境：

OS：Window10

python：3.7

程式碼

import requests
import os
from bs4 import BeautifulSoup
import xlwt
import xlrd
from xlutils.copy import copy
import threading
import datetime

class BlogHome:

    def __init__(self):
        self.url = "https://home.cnblogs.com/blog/page/{}/"
        self.path = r"C:\pythonProject\Blog"

    def request(self, param):
        url= self.url.format(param)
        r = requests.get(self.url)
        return r.text

    def all_page(self, maxpage):

        # wbk = xlwt.Workbook()
        # sheet = wbk.add_sheet("Data")
        wbk = xlrd.open_workbook(r"C:\Users\peiqiang\Desktop\aaa.xls", formatting_info=True)
        wbCopy = copy(wbk)
        sheet = wbCopy.get_sheet(0)
        row = 4
        for page in range(1, maxpage):
            thread_lock.acquire()
            req = self.request(page)
            reRow = self.getdata(req, sheet, row)
            row = reRow
            thread_lock.release()

        wbCopy.save(r"C:\Users\peiqiang\Desktop\aaa.xls")
        print("書き込みました")

    def getdata(self, req, sheet, row):
        soup = BeautifulSoup(req, "xml")
        all_title = soup.find_all(class_="post_block")
        for title in all_title:
            col = 1
            # title取得
            title_blank = title.find(class_="entry_title").find_all("a")
            print("user：", title_blank[0].string.replace("[", "").replace("]", ""))
            sheet.write(row, col, title_blank[0].string.replace("[", "").replace("]", ""))
            col += 1
            print("title：", title_blank[1].string)
            sheet.write(row, col, title_blank[1].string)
            col += 1

            # 評論個數
            post_comment = title.find(class_="post_comment")
            print("評論個數:", post_comment.string)
            sheet.write(row, col, post_comment.string)
            col += 1
            # 読込個數
            post_view = title.find(class_="post_view")
            print("読込個數:", post_view.string)

            sheet.write(row, col, post_view.string)
            col += 1

            # 推奨個數
            # susume = title.find(class_="entry_footer")
            # print("推奨個數:", susume.string)
            # 発表日付
            postdate = title.find(class_="postdate")
            print("発表日付:", postdate.string)
            sheet.write(row, col, postdate.string)
            col += 1
            # 詳細取得
            entry_summary = title.find(class_="entry_summary")
            print("詳細取得:", entry_summary.string)
            sheet.write(row, col, entry_summary.string)
            col += 1
            row += 1
        return row

    def writeExcel(self, row, col, data):
        wbk = xlwt.Workbook()
        sheet = wbk.add_sheet("Data", cell_overwrite_ok=True)
        sheet.write(row, col, data)
        wbk.save(r"C:\Users\peiqiang\Desktop\aaa.xls")
        print("書き込みました")

    def mkdir(self):
        path = self.path.strip()
        isExist = os.path.exists(path)
        if not isExist:
            print('建立名字叫做', path, '的資料夾')
            os.makedirs(path)
            print('建立成功！')
            return True
        else:
            print(path, '資料夾已經存在了，不再建立')
            return False


    def getBlog(self):

        startTime = datetime.datetime.now()
        print("開始", startTime)
        self.all_page(10)
        endTime = datetime.datetime.now()
        print("実行時間：", (endTime - startTime).seconds)
        print("開始", startTime)
        print("終了", endTime)


thread_lock = threading.BoundedSemaphore(value=10)
blogHome = BlogHome()
blogHome.getBlog()

　　執行上面的程式碼

Excel上面的資料

python 爬蟲例項（三）

問題描述爬取部落格園的首頁資料URL【https://home.cnblogs.com/blog/page/1/】，之後寫到自己的Excel裡面環境： OS：Window10 python：3.7 程式碼 import requests import os

Python爬蟲開發（三）：資料儲存以及多執行緒

0×00 介紹本文我們就兩個方面來討論如何改進我們的爬蟲：資料儲存和多執行緒，當然我承認這是為我們以後要討論的一些東西做鋪墊。本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論

python 爬蟲例項（四）

環境： OS：Window10 python：3.7 爬取鏈家地產上面的資料，兩個畫面上的資料的爬取效果，下面的兩個網頁中的資料取出來程式碼 import datetime import threading import requ

python爬蟲入門（三）XPATH和BeautifulSoup4

XML和XPATH 用正則處理HTML文件很麻煩，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。 XML 指可擴充套件標記語言（EXtensible Markup Language） XML 是一種標記語言，很類似 HTML XML 的設計宗旨是

【Python】打響2019年第三炮-Python爬蟲入門（三）

打響2019年第三炮-Python爬蟲入門今晚喝了點茶，也就是剛剛，喝茶過程中大腦中溢位一個想法，茶中有茶葉，也有茶水，在茶水入口的一瞬間我不能直接喝進去，因為直接喝進去會帶著茶葉喝進去會很難受。這可能是一句廢話。本章主要解決第一炮、第二炮遺留下來的問題，該如何

Python爬蟲手記（三）：全球行情實時監控

問題描述：以重要經濟引數為例，進一步鞏固爬蟲和資料庫使用技巧：完成對國際現貨與期貨石油價格、美元人民幣匯率、美元指數等資料的實時監控，取樣頻率為一小時一次，相關資料的取樣頁面需要自己搜尋。看到問題，心裡大概就有一個底了：首先找到一個網頁能顯示原油價格，找到其url，然後

Python爬蟲例項（1）-爬取一張貓的照片

程式設計這種實用性的工程性語言，光看書、背概念是完全刻舟求劍；learning with doing才是最快速的學習方法。我打算將自己學習爬蟲的週期，總結之後寫在CSDN上；通過自己感覺非常經典的例項，來表達爬蟲的知識點。話不多說，上一篇描述了爬蟲的原理之後，這一篇搞第一個例

python 爬蟲實戰（三）使用pyspider爬取虎嗅新聞

#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2018-03-02 23:14:26 # Project: huxiu fr

Python爬蟲框架Scrapy例項（三）資料儲存到MongoDB

Python爬蟲框架Scrapy例項（三）資料儲存到MongoDB任務目標：爬取豆瓣電影top250，將資料儲存到MongoDB中。 items.py檔案複製程式碼# -*- coding: utf-8 -*-import scrapy class DoubanItem(scrapy.Item): # d

一個簡單Python爬蟲例項（爬取的是前程無憂網的部分招聘資訊）

從今天開始學習爬蟲，展示我的第一個例項（用的是Python3寫的，Python2需要加個編碼方式吧，或許還有其他的不相容的地方吧，我就不知道了），把這分享給大家，希望對大家有一些幫助 import urllib,re import urllib.request import xlwt #開啟網頁

Python爬蟲開發（三-續）：快速執行緒池爬蟲

0×00 簡介本文算是填前面的一個坑，有朋友和我將我前面寫了這麼多，真正沒看到什麼特別突出的實戰，給了應對各種情況的方案。多執行緒那裡講的也是坑。忽然想想，說的也對，為讀者考慮我確實應該把多執行緒這裡的坑補完。然後決定再以一篇文章的形式講一下這個輕型執行緒池爬蟲，同時也為大家提供一個思路

python爬蟲筆記（七）:實戰（三）股票資料定向爬蟲

目標分析及描述#CrawBaiduStocksA.py import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url): try:

$python爬蟲系列（1）——一個簡單的爬蟲例項

本文主要實現一個簡單的爬蟲，目的是從一個百度貼吧頁面下載圖片。 1. 概述本文主要實現一個簡單的爬蟲，目的是從一個百度貼吧頁面下載圖片。下載圖片的步驟如下：獲取網頁html文字內容；分析html中圖片的html標籤特徵，用正則解析出所有的

用Python寫網路爬蟲系列（三）表單處理

import urllib,urllib2 LOGIN_URL = r'http://example.webscraping.com/user/login' LOGIN_EMAIL = '[email protected]' LOGIN_PASSWORD ='q

python3爬蟲實戰（三）：mitmproxy對接python下載抖音小視訊

一、前言前面我們已經用appium爬取了微信朋友圈，今天我們學習下mitmproxy，mitmproxy是幹什麼的呢，它跟charles和fiddler類似，是一個抓包工具，以控制檯的形式顯示，mitmproxy的重要性在於它可以對接python,可

python學習（三）scrapy爬蟲框架（三）——爬取桌布儲存並命名

寫在開始之前按照上一篇介紹過的scrapy爬蟲的建立順序，我們開始爬取桌布的爬蟲的建立。首先，再過一遍scrapy爬蟲的建立順序：第一步：確定要在pipelines裡進行處理的資料，寫好items檔案第二步：建立爬蟲檔案，將所需要的資訊從網站上爬

Python編程（三）字符編碼與文件處理

python3 固定 one 加載 not rdl 寫到 bin 存在計算機要想工作必須通電,也就是說‘電’驅使計算機幹活,而‘電’的特性，就是高低電平(高低平即二進制數1,低電平即二進制數0),也就是說計算機只認識數字　　編程的目的是讓計算機幹活，而編程的結果說白

python學習筆記（三）

list 內存寫入 odin move 列表付出 open ada 文件的操作一般分三步： 1、打開文件，獲取文件的指針（句柄） 2、通過指針（句柄）操作文件 3、關閉文件現在有以下文件：我們為愛還在學學溝通的語言

nodejs爬蟲筆記（三）

target ole n+2 如何獲取利用 mod git brush 所有思路：通過筆記（二）中代理的設置，已經可以對YouTube的信息進行爬取了，這幾天想著爬取網站下的視頻信息。通過分析YouTube，可以從訂閱號入手，先選擇幾個訂閱號，然後爬取訂閱號裏面的視頻分

Python 爬蟲 2 （轉）

規範 return python 爬蟲直接 htm str 保存 urn find 一，獲取整個頁面數據首先我們可以先獲取要下載圖片的整個頁面信息。 getjpg.py #coding=utf-8 import urllib def getHtml(url):

python 爬蟲例項（三）

相關推薦