python實現kindle每天推送部落格2----python實現爬取部落格內容

阿新 • • 發佈：2019-02-09

#!/usr/bin/env python
#coding=utf-8
#
#   Copyright 2017 liuxinxing
#

from bs4 import BeautifulSoup
import urllib2

import datetime
import time
import PyRSS2Gen
import re
import sys
reload(sys)
sys.setdefaultencoding('utf-8')


class RssSpider():
    def __init__(self):
        self.myrss = PyRSS2Gen.RSS2(title='OSChina',
                                    link='http://my.oschina.net',
                                    description=str(datetime.date.today()),
                                    pubDate=datetime.datetime.now(),
                                    lastBuildDate = datetime.datetime.now(),
                                    items=[]
                                    )
        self.xmlpath=r'./oschina.xml'

        self.baseurl="http://www.oschina.net/blog"
        #if os.path.isfile(self.xmlpath):
            #os.remove(self.xmlpath)
    def useragent(self,url):
        i_headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36","Referer": 'http://baidu.com/'}
        req = urllib2.Request(url, headers=i_headers)
        html = urllib2.urlopen(req).read()
        return html

    def enterpage(self,url):
        pattern = re.compile(r'\d{4}\S\d{2}\S\d{2}\s\d{2}\S\d{2}')
        rsp=self.useragent(url)
        # print rsp
        soup=BeautifulSoup(rsp, "html.parser")
        # print soup
        timespan=soup.find('div',{'class':'blog-content'})
        # print timespan
        timespan=str(timespan).strip().replace('\n','').decode('utf-8')
        # match=re.search(r'\d{4}\S\d{2}\S\d{2}\s\d{2}\S\d{2}',timespan)
        # timestr=str(datetime.date.today())
        # if match:
        #     timestr=match.group()
            #print timestr
        ititle=soup.title.string
        print ititle
        div=soup.find('div',{'class':'BlogContent'})
        # print type(div)
        doc = div.get_text()
        # print type(doc)
        return ititle,doc

    def getcontent(self):
        rsp=self.useragent(self.baseurl)
        # print rsp
        soup=BeautifulSoup(rsp, "html.parser")
        # print soup
        ul=soup.find('div',{'id':'topsOfRecommend'})
        # print ul
        for div in ul.findAll('div',{'class':'box-aw'}):
            # div=li.find('div')
            # print div
            if div is not None:
                alink=div.find('a')
                if alink is not None:
                    link=alink.get('href')
                    print link
                    if self.isbloglink(link):
                        title,doc =self.enterpage(link)
                        self.savefile(title,doc)

    def isbloglink(self,link):
        express = r".*/blog/.*"
        mo = re.search(express, link)
        if mo:
            return True
        else:
            return False

    def savefile(self,title,doc):
        doc = doc.decode('utf-8')
        with open("./data/"+title+".txt",'w') as f:
            f.write(doc)



if __name__=='__main__':
    rssSpider=RssSpider()
    rssSpider.getcontent()
    # rssSpider.enterpage("https://my.oschina.net/diluga/blog/1501203")

python實現kindle每天推送部落格2----python實現爬取部落格內容

vue js 和signalr 結合實現消息推送1

ack all client aspnet 由於 user startup man logs 由於signalr2.2.0 依賴於jQuery,雖然在vuejs 略顯臃腫，但是對於目前剛接觸 vuejs 和想實現前後分離的我來說這已經很好了。目前先實現功能，然後如果

Java 消息推送------GoEasy實現服務端推送和web端推送

subscribe rip world 查詢 start easy 需要註冊註意項目中需要消息推送，又想較低開發成本，具體需求：角色用戶在後臺管理頁面發布一個消息，所有用這個系統的用戶無論在哪個頁面都能及時收到他發布的消息，後來我在網上查詢到了一個第三方的免費推送服務

java集成jpush實現客戶端推送

step eclips 著作權步驟 isn new args set oid 代碼地址如下：http://www.demodashi.com/demo/13700.html 前言 java 集成jpush 實現客戶端推送一、準備工作開發環境： jdk1.6 Ecl

SpringBoot使用WebSocket實現服務端推送--叢集實現（2）

書接上文，本文介紹了一種實現叢集管理和訊息傳送方式。在叢集模式情況下，一般是Nginx反向代理到多臺Tomcat或者SLB代理到多臺Tomcat的方式，怎麼實現給某個人推送訊息？比如WebSocket1連線到Tomcat1，但是在Tomcat2需要給WebSocket1傳送訊息，怎麼辦？一

SpringBoot使用WebSocket實現服務端推送---單機實現（1）

最近開發中需要實現服務端的推送，經過一段時間的資料查詢最終鎖定使用websocket來實現。JavaEE本身就支援WebSocket。我們只需要開發一個EndPoint來處理連線、訊息等即可。但是WebSocket的session管理是開發中的重中之重和難點，因為你需要知道推送給誰，就需要儲存代

android 實現mqtt訊息推送，以及不停斷線重連的問題解決

前段時間專案用到mqtt的訊息推送，整理一下程式碼，程式碼的原型是網上找的，具體哪個地址已經忘記了。程式碼的實現是新建了一個MyMqttService，全部功能都在裡面實現，包括連伺服器，斷線重連，訂閱訊息，處理訊息，釋出訊息等基本操作。首先新增依賴： dependencies { &

程式猿推送利器：使用Python+Server醬打造微信通知推送利器

你是否經歷過伺服器掛掉卻渾然不知的彷徨？你是否感受過服務停止很久後才發現事情的嚴重的感覺？是的，你急需一款輕量級的推送通知系統！ Server醬正是這麼一款程式猿的好幫手，她通過提供一個超輕量級的API介面就可以讓你的訊息推送到你的微信上，達到以下效果：那麼如何實現訊息

[Python] [爬蟲] 1.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲概要——脫離Scrapy框架

目錄 1.Intro 2.Details 3.Theory 4.Environment and Configuration 5.Automation 6.Conclusion 1.Intro 作為Python的擁蹩，開源支持者，深信Python大

[Python] [爬蟲] 10.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——排程引擎

目錄 1.Intro 2.Source 1.Intro 檔名：scheduleEngine.py 模組名：排程引擎引用庫： random time gc os sys date

[Python] [爬蟲] 9.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——爬蟲日誌

目錄 1.Intro 2.Source 1.Intro 檔名：spiderLog.py 模組名：爬蟲日誌引用庫： logging 功能：日誌寫入到文字，包含普通訊息、警告、錯誤、異常等，可以跟蹤爬蟲執行過程。 &nb

[Python] [爬蟲] 8.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——資料推送模組

目錄 1.Intro 2.Source (1)dataPusher (2)dataPusher_HTML 1.Intro 檔名：dataPusher.py、dataPusher_HTML.py 模組名：資料推送模組引用庫： smtpl

[Python] [爬蟲] 7.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——資料處理器

目錄 1.Intro 2.Source 1.Intro 檔名：dataDisposer.py 模組名：資料處理器引用庫： pymongo datetime time sys

[Python] [爬蟲] 6.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——網頁解析器

目錄 1.Intro 2.Source 1.Intro 檔名：pageResolver.py 模組名：網頁解析器引用庫： re lxml datetime sys retry

[Python] [爬蟲] 5.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——網頁下載器

目錄 1.Intro 2.Source 1.Intro 檔名：pageDownloader.py 模組名：網頁下載器引用庫： selenium random sys socket tim

[Python] [爬蟲] 4.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——配置管理器

目錄 1.Intro 2.Source 1.Intro 檔名：configManager.py 模組名：配置管理器引用庫：None 功能：儲存爬蟲相關配置資訊，如資料庫配置、資料表名、網站URL、報頭等。 2.Source #!/usr/bin/env Py

[Python] [爬蟲] 3.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——代理池

目錄 1.Intro 2.Source 1.Intro 檔名：proxyPool.py 模組名：代理池引用庫： requests urllib2 lxml scrapy pymongo

Python爬蟲爬取部落格園作業

要求第一部分：請分析作業頁面，爬取已提交作業資訊，並生成已提交作業名單，儲存為英文逗號分隔的csv檔案。檔名為：hwlist.csv 。檔案內容範例如下形式：學號,姓名,作業標題,作業提交時間,作業URL 20194010101,張三,羊車門作業,2018-1

小程式訊息推送（含原始碼）java實現小程式推送，springboot實現微信訊息推送

最近需要開發微信和小程式的推送功能，需要用java後臺實現推送，自己本身java和小程式都做，所以就自己動手實現下小程式的模版推送功能推送。實現思路 1 小程式獲取使用者openid，收集formid傳給java後臺 2 java推送訊息給指定小程式使用

JAVA前後端實現WebSocket訊息推送（針對性推送）

1、需要新增依賴包，在pom.xml檔案中新增 javax javaee-api 7.0 provided 2、客戶端程式碼在這裡我為了做成httpsession登入後是同一個，所以我做成兩個頁面，一個登入跳轉頁面，一個用於連結Web

python實現kindle每天推送部落格2----python實現爬取部落格內容

相關推薦