爬取【王琳傑-博客園】的博文

阿新 • • 發佈：2018-06-18

wan write 輸入 NPU itl webkit .cn dom模型 raw

獲取頁面信息，用XPath 做數據提取
獲取每個blog裏的用標題、正文、閱讀次數信息
保存到 json 文件內

# -*- coding:utf-8 -*-

import urllib
import urllib2
from lxml import etree

def loadPage(url):
    """
        作用：根據url發送請求，獲取服務器響應文件
        url: 需要爬取的url地址
    """
    #print url
    #headers = {"User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"} 


    request = urllib2.Request(url)
    html = urllib2.urlopen(request).read()
    # 解析HTML文檔為HTML DOM模型
    content = etree.HTML(html)
    #print content
    # 返回所有匹配成功的列表集合
    link_list = content.xpath(‘//div[@class="postTitle"]/a/@href‘)
    for link in link_list:
        
        #print link
        loadpage(link)

 
# 取出每個文章的鏈接
def loadpage(link):
    headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
    request = urllib2.Request(link, headers = headers)
    html = urllib2.urlopen(request).read()
    # 解析
    content = etree.HTML(html)
     
# 取出每層發送的文章鏈接集合
    link_list = content.xpath(‘//div[@class="post"]//a‘)[0].text
    print link_list
    # 取出每個標題，正文，閱讀的連接
    #for link in link_list:
    #   print link
    #   write(link)

def blogSpider(url, beginPage, endPage):
    """
        作用：貼吧爬蟲調度器，負責組合處理每個頁面的url
        url : 貼吧url的前部分
        beginPage : 起始頁
        endPage : 結束頁
    """
    for page in range(beginPage, endPage + 1):
        pn = page
        fullurl = url + str(pn)
        #print fullurl
        loadPage(fullurl)
        #print html

        print "謝謝使用"

if __name__ == "__main__":
    beginPage = int(raw_input("請輸入起始頁："))
    endPage = int(raw_input("請輸入結束頁："))

    url = "http://www.cnblogs.com/wanglinjie/default.html?page="
    blogSpider(url, beginPage, endPage)

待完。。。

爬取【王琳傑-博客園】的博文

wan write 輸入 NPU itl webkit .cn dom模型 raw 獲取頁面信息，用XPath 做數據提取獲取每個blog裏的用標題、正文、閱讀次數信息保存到 json 文件內 # -*- coding:utf-8 -*- impo

【被玩壞的博客園】之canvas裝飾博客園側邊欄

ctx tail lang num radi sid 應用 ack 火狐最近抽空學了學canvas,然後用canvas做了個小球運動的demo,大致的效果如下：雖然網上已經有很多這樣的demo,但是還是想根據自己的思路來寫一個，下面先跟大家講解一下源代

從博客園轉博過來的

oss proc nag pro ces ges mark RoCE cto 從博客園那兒轉博過來的，請多關照！從博客園轉博過來的

【Python3 爬蟲】爬取博客園首頁所有文章

表達式技術標記 itl 1.0 headers wow64 ignore windows 首先，我們確定博客園首頁地址為：https://www.cnblogs.com/ 我們打開可以看到有各種各樣的文章在首頁，如下圖：我們以上圖標記的文章為例子吧！打開網頁源碼，搜

webmagic爬取博客園所有文章

get() cat 彈出 println for core gic cif tac 最近學習了下webmagic，學webmagic是因為想折騰下爬蟲，但是自己學java的，又不想太費功夫，所以webmagic是比較好的選擇了。寫了幾個demo，源碼流程大致看了一遍。想著

編寫windows服務定時爬取博客園文章郵件提醒以及入庫

cli 發現 innertext 比較 sum asp author ota sel 這段時間工作比較忙，每天也沒那麽多的時間逛博客園看文章，於是就想寫一個工具每天早上9點爬取文章給自己發郵件作為每天的技術早餐。相對而言，爬取博客園的文章還是比較簡單的，主要思路就

python_爬取【安居客房源資訊】

最近在看房子，試著抓取了安居客上房源資訊，供大家學習參考。 #-*- encoding=UTF-8 -*- from urllib.request import urlopen from bs4 import BeautifulSoup import xlrd import

爬蟲爬取博客園自己or他人發布文章代碼

目錄 img afa requests ade pri 獲取 head lse import requests from bs4 import BeautifulSoup import os class mzitu(): def __init

python學習第一彈：爬蟲（抓取博客園新聞）

結果 csv hid window 相關數解析html 可能一個 _id 前言　　說到python，對它有點耳聞的人，第一反應可能都是爬蟲~ 　　這兩天看了點python的皮毛知識，忍不住想寫一個簡單的爬蟲練練手，JUST DO IT 準備工作　　要制作數據

【轉載】博客園背景音樂調用，讓音樂為你的博文加點料

mode com single data 一半網易支持 span 什麽【轉載】博客園背景音樂調用，讓音樂為你的博文加點料　　單調的文字怎麽行，讓音樂為你的博文加點料。什麽？你寫的是技術型博客不搞這麽多文藝，大叔，技術

【博客寫作】寫博客的好處，附博客園文章添加閱讀目錄的方法總結

html 自我成長 tps 原則鼓勵 fun targe info .com 工程師為什麽要寫Blog 好處一：產生學習動機，有方向性地篩選資訊人的腦袋跟時間有限，過多龐雜的資訊就等於無用的資訊，跟白噪音一樣會被你的腦袋自然過濾掉。　　好處二：檢視自己既有知識

【活動報名】2050 大會 - 博客園程序員聚會（5.25 杭州·雲棲小鎮）

yun 相關鏈接 width ima index 博文 AR www .cn 2050 科技公益大會將於 2018.5.25 - 5.27 號在杭州·雲棲小鎮舉行（詳見大會官網），我們將在大會團聚活動中按照技術方向組織程序員的聚會，讓來自五湖四海的程序員朋

【給自己】- 博客園文章編寫規範

ont ron bold strong 阿拉伯自己 clas pos LV 1.第一類文章章節編號：阿拉伯數字一級標題： Arial 18 Bold 正文：Arial 14 Bold 圖片：居左 2.第二類文章章節編號：阿拉伯數字一級標題： Arial 18 Bo

【日常】博客園開通的第一天

ucc tro pan AS AR strong ica tcl -a 開通時的2件事 >>> 1、兩個bug 　　　　　還沒開通就發現博客園的2個bug（‘申請開通博客’和‘我的博客’報404），運氣有多好（^-^）...附圖如下以作記念： 2、我的博

【原創】博客園重大Bug！管理員快來！！

bug 圖片用戶提示服務原創博客記錄 ref 事情的起因今天在修改密碼時提示修改失敗（必須包含字母，數字，特殊字符），習慣性的查看下請求響應，如圖，輕松獲取到改密碼的接口地址，以及請求方式。查看POST請求參數很顯然，應該是使用js把新密碼和舊密碼進

scrapy抓取某些樣式的博客園博客信息

mongo from split yield 標簽 col chrome fin afa 測試過很多樣式的博客園，就發現長書這樣的也就是我的博客這樣的抓取不了，標簽不一樣。其他的只需要把bky.py下的user的值即‘username’改為要抓取的用戶的用戶名即可，如： u

【強烈譴責】博客園園友隨意抄襲他人文章並作為自己原創的行為

維護 mage 人文 tps 是不是 www. 自己的 .com red 事因今早上班，上博客，看了一下十天排行榜，發現一篇文章名為《為什麽我們做分布式使用Redis？》。抄襲文章地址如下: https://www.cnblogs.com/yaodengyan/p/97

【裝飾】博客園背景輪播

static style 加載 pos position ack rac .com jpg <script type="text/javascript"> var img = Math.round(Math.random() * 10);

【說明】我們計劃從博客園遷移到知乎啦

game sun .com http activiti 目前但是 www 博客園之前我曾在博客園留下過遊戲制作組所在部門的QQ群，不過 Sunset Game 制作組目前暫時停止運營了，所以各位加群的朋友，很抱歉沒能及時通知到你們。但是如果想聯系我，可以通過我的知乎地

【轉】博客園自定義樣式修改標簽頁的icon圖標

dbo 代碼分享新的 ner href get create 樣式有沒有發現大多數的博客園標簽右上角都是一個小礦工，千篇一律沒有什麽特色，想不想設置一個像我一樣的個性化icon圖標呢？按照以下四步你也可以實現自定義標簽圖標。 From To 第一步：挑挑揀揀選

爬取【王琳傑-博客園】的博文

相關推薦