python 批量爬取部落格資料(僅供學習)

阿新 • • 發佈：2019-02-13

#coding:utf-8  
import urllib  
import time  
import os
page=1  
while page<=7:  
    url=['']*50 #每頁有50篇文章
    temp='http://blog.sina.com.cn/s/articlelist_1191258123_0_'+str(page)+'.html'
    con =urllib.urlopen(temp).read() #讀取資料
    
    i=0
    title=con.find(r'<a title=')  
    href=con.find(r'href=',title)  
    html = con.find(r'.html',href)  
    while title!=-1 and href!=-1 and html!=-1 and i<50:  
        url[i]=con[href+6:html+5]  
        print url[i] 
        title=con.find(r'<a title=',html)  
        href=con.find(r'href=',title)  
        html = con.find(r'.html',href)  
        i=i+1  
    else:  
        print 'end page=',page  
    j=0  
    '''寫入本地檔案'''
    while(j<i): 
        content=urllib.urlopen(url[j]).read()
        path = 'hanhan/'+str(page)+"/"
        if os.path.isdir(path):
            open(path+url[j][-26:],'w+').write(content)
        else:
            os.makedirs(path)
            open(path+url[j][-26:],'w+').write(content)
        j=j+1  
        time.sleep(1)  
    else:  
        print 'download'  
    page=page+1  
else:  
    print 'all find end'

python 批量爬取部落格資料(僅供學習)

#coding:utf-8 import urllib import time import os page=1 while page<=7: url=['']*50

Python爬蟲爬取部落格園作業

要求第一部分：請分析作業頁面，爬取已提交作業資訊，並生成已提交作業名單，儲存為英文逗號分隔的csv檔案。檔名為：hwlist.csv 。檔案內容範例如下形式：學號,姓名,作業標題,作業提交時間,作業URL 20194010101,張三,羊車門作業,2018-1

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

由於今日頭條等頭條類產品的出現，以今日頭條為代表所使用的爬蟲技術正在逐漸火熱，在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來，同時因為Python良好的資料分析和機器學習的能力，Python的應用越來越廣泛。不過，今天我們要提到

python實現kindle每天推送部落格2----python實現爬取部落格內容

部落格搬家系列（三）-爬取部落格園部落格

部落格搬家系列（三）-爬取部落格園部落格一.前情回顧部落格搬家系列（一）-簡介：https://blog.csdn.net/rico_zhou/article/details/83619152 部落格搬家系列（二）-爬取CSDN部落格：https://bl

編寫windows服務定時爬取部落格園文章郵件提醒以及入庫

這段時間工作比較忙，每天也沒那麼多的時間逛部落格園看文章，於是就想寫一個工具每天早上9點爬取文章給自己發郵件作為每天的技術早餐。相對而言，爬取部落格園的文章還是比較簡單的，主要思路就是分析部落格園文章列表的分頁，請求方式，頁面渲染方式等，寫篇隨筆簡單share一下。這個小工具主要用到的由nl

利用Python批量爬取XKCD動漫圖片，並批量儲存

import requests, os, bs4 url = 'https://xkcd.com' os.makedirs('xkcd',exist_ok = True) while not url.endswith('#'): # download the page

利用Python批量儲存51CTO部落格

一、背景最近在整理部落格，近在51CTO官網存在文章，想將之前寫的全部儲存到本地，發現用markdown寫的可以匯出，富文字的則不行，就想利用Python批量儲存自己的部落格到本地。二、程式碼 git地址 #!/bin/env python # -*- coding:utf-8 -*- # _au

使用Tornado和協程爬取部落格園文章

Python3.5後 Tornado官方建議使用async和await的方式實現非同步程式，嘗試了下使用Tornado和協程爬取部落格園的文章並使用peewee_async非同步寫入MySQL資料庫。一. 部落格園文章抓取測試：這裡我以我自己的一篇文章詳情作為測試url，https://www.cnb

python3爬取部落格瀏覽量

爬取結果程式碼很簡單： # encoding=utf8 import requests import re import time from bs4 import BeautifulSoup firstUrl = 'http://blog.csdn.

Python 非同步爬取微博資料練習

PHP交流群:294088839, Python交流群:652376983 # js 資料爬取 from urllib.parse import urlencode import requests base_url ='https://m.weibo.cn/api/container/getI

Scrapy爬取部落格園精華區內容

程式爬取目標獲取部落格園精華區文章的標題、標題連結、作者、作者部落格主頁連結、摘要、釋出時間、評論數、閱讀數和推薦數，並存儲到MongoDB中。程式環境已安裝scrapy 已安裝MongoDB 建立工程 scrapy startproject cnblogs 在命令提示符中執行

Python批量爬取堆糖網圖片

import urllib.parse import requests #第三方請求庫 import json import jsonpath #處理json檔案的的提取庫 from bs4 import BeautifulSoup import os im

簡單程式碼爬取部落格超連結的文字，並且去除字元“原”和空格

這裡給大家分享一個怎麼用Python爬取超連結的文字，並且能夠去除字元“原“和前後空格、空行等等。這個程式碼不多，而且非常簡單。我這裡用的是Python3，版本不和的可以調整一下，這個程式碼還是很好理解的。接下來我給大家分享爬取我的部落格超連結

Python批量爬取小說

利用BeautifulSoup批量爬取筆趣閣小說。 from bs4 import BeautifulSoup import urllib.request import re import os import threading import time # 通過

Python如何爬取動態網頁資料

1.引言說到爬網頁，我們一般的操作是先檢視原始碼或者審查元素，找到資訊所在節點，然後用 beautifulsoup/xpth/re 來獲取資料，這是我們對付靜態網頁的常用手段。但大家也知

Python爬蟲--爬取歷史天氣資料

寫在前面：爬蟲是老鼠屎在進入實驗室後接觸的第一個任務，當時剛剛接觸程式碼的老鼠屎一下子迎來了地獄難度的爬微博簽到資料。爬了一個多月毫無成果，所幸帶我的師兄從未給我疾言厲色，他給與了我最大的包容與理解。儘管無功而返，但是那一個月也給了老鼠屎充足的學習時間，讓老鼠屎對爬蟲

用Python批量爬取妹紙圖片

通過Python編寫爬蟲，批量爬取妹紙圖片，本文的爬蟲實現爬取妹子圖網站（http://www.mzitu.com/zipai/）中妹子自拍欄目中所有妹子的圖片。開啟自拍欄目地址http://www.mzitu.com/zipai/後，我們發現當前頁面預

（8）Python爬蟲——爬取豆瓣影評資料

利用python爬取豆瓣最受歡迎的影評50條的相關資訊，包括標題,作者,影片名,影片詳情連結,推薦級,迴應數,影評連結,影評,有用數這9項內容，然後將爬取的資訊寫入Excel表中。具體程式碼如下： #!/usr/bin/python # -*- codin

python 批量爬取部落格資料(僅供學習)

相關推薦