python 3.5：爬蟲--爬取人民日報1946-2003年所有新聞

阿新 • • 發佈：2019-02-14

爬取資料庫網站上的人民日報新聞（1946-2003）

總網址如下：

http://www.ziliaoku.org/rmrb?from=groupmessage&isappinstalled=0

從此網頁開始爬取，進下一層，再進入下一層，再進行爬取。

由於本人還在學習過程中，有些很多其他更方便快捷的方法，以及一些爬蟲功能還未用到，所以結果還是有兩處需改進的地方，下面會上程式碼，歡迎一起討論學習。

1.非按時間順序出來檔案（txt）

2.由於網站原始碼的特殊，還未弄清如何爬取一天中每一版的，所以最後只能爬取每天的第一版，一天中每一版的網站都是同一個，版裡每一條新聞都指向這個網站。

本次的爬取新聞是我學習爬蟲的一個步驟過程，下次將發我運用scrapy爬取的一次例項

#coding=utf-8
import requests
import re  # 正則表示式
import bs4  # Beautiful Soup 4 解析模組
import urllib.request  # 網路訪問模組
import News   #自己定義的新聞結構
import codecs  #解決編碼問題的關鍵 ，使用codecs.open開啟檔案
import sys   #1解決不同頁面編碼問題
import importlib
importlib.reload(sys)



# 從首頁獲取所有連結
def GetAllUrl(home):
    html = urllib.request.urlopen(home).read().decode('utf8')
    soup = bs4.BeautifulSoup(html, 'html.parser')
    pattern = 'http://www.ziliaoku.org/rmrb/[\d\S].*?'
    links = soup.find_all('a', href=re.compile(pattern))
    for link in links:
        url_set.add(link['href'])
def GetAllUrlL(home):
    html = urllib.request.urlopen(home).read().decode('utf8')
    soup = bs4.BeautifulSoup(html, 'html.parser')
    pattern = 'http://www.ziliaoku.org/rmrb/[\d\S].*?'
    links = soup.find_all('a', href=re.compile(pattern))
    for link in links:
        url_set1.add(link['href'])
def GetNews(url,i):
    response = requests.get(url)
    html = response.text
    article = News.News()
    try:
     article.title = re.findall(r'<h2 id=".*?">(.+?)</h2>', html)
     article.content = re.findall(r'<div class="article">([\w\W]*?)</div>', html)

     t = ""
     for j in article.title:
       t+=str('標題：'+j+'\n')
     c = ""
     for m in article.content:
       c+=str(m)
     article.content1 = '　' + '\n'.join(c.split('
')).strip()

     file = codecs.open('/tmp/luo/news '+str(i)+'.txt', 'w+')
     file.write(t+"\t"+article.content1)
     file.close()
     print('ok')
    except Exception as e:
            print('Error1:', e)


def GetAllUrlK(home,i):
    html = urllib.request.urlopen(home).read().decode('utf8')
    soup = bs4.BeautifulSoup(html, 'html.parser')
    pattern = 'http://www.ziliaoku.org/rmrb/[\d\S].*?'
    link = soup.find('a', href=re.compile(pattern))
    link1 = link['href']
    print(link1)
    GetNews(link1,i)



url_set = set()  # url集合
url_set1 = set()  # url集合
home = 'http://www.ziliaoku.org/rmrb?from=groupmessage&isappinstalled=0'
GetAllUrl(home)
try:
 for d in url_set:
   GetAllUrlL(d)
   print(d)
 i = 0
 for b in url_set1:
    i = i+ 1
    print(b)
    GetAllUrlK(b,i)
except Exception as e:
            print('Error:', e)

# home = 'http://www.ziliaoku.org/rmrb/1984-06-21'
# i = 10
# GetAllUrlK(home,i)

txt檔案為新聞，格式可自己用正則去規範。

python 3.5：爬蟲--爬取人民日報1946-2003年所有新聞

爬取資料庫網站上的人民日報新聞（1946-2003）總網址如下： http://www.ziliaoku.org/rmrb?from=groupmessage&isappinstalled=0 從此網頁開始爬取，進下一層，再進入下一層，再進行爬取。由於本人還在學

python：爬蟲爬取資料的處理之Json字串的處理（2）

#Json字串的處理 Json字串轉化為Python資料型別 import json JsonStr ='{"name":"sunck","age":"18","hobby":["money","power","English"],"parames":{"a":1,"b":2}}' Js

python實戰之原生爬蟲(爬取熊貓主播排行榜)

ref png ret spider find end mod int tps """ this is a module,多行註釋 """ import re from urllib import request # BeautifulSoup:解析數據結構推薦庫

爬蟲——爬取人民網資料生成詞雲圖

1、以人民網的新聞資料為例，簡單介紹的利用python進行爬蟲，並生成詞雲圖的過程。首先介紹python的requests庫，它就好像是一個“爬手”，負責到使用者指定的網頁上將所需要的內容爬取下來，供之後的使用。我們可以利用python的pip功能下載requests庫，在cmd視窗輸入

Python 3.6 優雅的爬取獵聘網招聘資訊

1. 通過三種方式抓取欄位: 招聘標題待遇地區學歷要求經驗公司名稱公司的行業職位描述2. 效果預覽 3. 注意事項 * 利用xpath或者其它方式選取節點時，需要注意判斷是否為None,如果在後面呼叫.strip()等方法肯定會報

python3爬蟲-爬取新浪新聞首頁所有新聞標題

準備工作：安裝requests和BeautifulSoup4。開啟cmd，輸入如下命令 pip install requests pip install BeautifulSoup4 按F12開啟開發人員工具，點選左上角的圖片，然後再頁面中點選你想檢

python爬蟲系列(5.3-動態網站的爬取的策略)

一、認識動態網站所謂的動態網站,是使用ajax加載出來的網頁,我們開啟網頁的時候可以正常顯示內容,但是我們在顯示網頁原始碼的時候,裡面卻找不到該節點. 二、常見動態網站的抓取方式 1、直接分析ajax呼叫的介面,然後通過程式碼請求這個介面 2、採用模擬瀏覽器請求該動態網站,然後獲取

Python題目5：爬取CFDA數據

get yun div ont header lac 函數信息 con import requests class Cfda: # 初始化函數 def __init__(self): # 初始化要提交數據的網址 self

python爬蟲系列(3.7-使用 bs4 爬取獲取貴州農產品)

一、爬取資料步驟 1、爬取網站地址 2、實現程式碼 import requests from bs4 import BeautifulSoup class Food(object): def __init__(self): &nb

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python 爬蟲爬取單個基因的生物學功能（urllib+正則表示式）： import re import urllib from urllib import request url = 'https://www.ncbi.nlm.nih.gov/gene/?term=FUT1'

python ：通過爬蟲爬取資料（1）

(1)通過url爬取網頁資料 import urllib.request #指定url url ="https://www.baidu.com" #向伺服器發起請求，返回響應的資料，通過infor接收 infor = urllib.request.urlopen(url)

python爬蟲學習筆記三：圖片爬取

圖片爬取的程式碼 r.content 檔案的二進位制格式 Python引入了with語句來自動幫我們呼叫close()方法： open(path, ‘-模式-‘,encoding=’UTF-8’) w：以寫方式開啟， a：以追加模式開啟 (從 EOF 開始, 必要時建

【python學習筆記】37：認識Scrapy爬蟲,爬取滬深A股資訊

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。認識Scrapy爬蟲安裝書上說在pip安裝會有問題，直接在Anaconda裡安裝。建立Scrapy專案 PyCharm裡沒有直接的建立入口，在命令列建立（從Anaconda安裝後似乎自動就

Python爬蟲框架：Scrapy 爬取伯樂線上實戰

專案介紹使用Scrapy框架進行爬取伯樂線上的所有技術文章所用知識點 Scrapy專案的建立 Scrapy框架Shell命令的使用 Scrapy自帶的圖片下載管道 Scrapy自定義圖片下載管道(繼承自帶的管道) Scrapy框架ItemLoader

Python爬蟲從入門到精通(3): BeautifulSoup用法總結及多執行緒爬蟲爬取糗事百科

本文是Python爬蟲從入門到精通系列的第3篇。我們將總結BeautifulSoup這個解析庫以及常用的find和select方法。我們還會利用requests庫和BeauitfulSoup來爬取糗事百科上的段子, 並對比下單執行緒爬蟲和多執行緒爬蟲的爬取效率。什麼是

Python 爬蟲爬取單個基因表格資料的生物學功能（urllib+正則表示式）：

Python 爬蟲爬取單個基因的生物學功能（urllib+正則表示式）： import re import urllib from urllib import request url = ‘https://www.ncbi.nlm.nih.gov/gene

Python 3.6 爬蟲爬取豆瓣《孤芳不自賞》短評

使用Python 3.6 進行對《孤芳不自賞》這部作品的短評爬取點選這個連線我們可以進入該作品短評頁面這裡還沒有登入豆瓣。登入豆瓣之後，才能爬取更多的頁面。因此我們選擇登入，最快捷省時的辦法，就是在登入時使用F12進行檢視cookies。

初學python：用簡單的爬蟲爬取豆瓣電影TOP250的排名

一開始接觸到python語言，對它沒什麼瞭解。唯一知道的就是它可以用來寫爬蟲，去爬取網路上的資源。爬蟲是一種按照一定的規則，自動地抓取網路上的資訊的程式或者指令碼。所以當我對python有一定的瞭解後，我就想個寫個爬蟲來試試手。於是就有了這篇文章，用簡單的爬蟲爬取豆瓣電影TO

Python 網路爬蟲 004 (程式設計) 如何編寫一個網路爬蟲，來下載（或叫：爬取）一個站點裡的所有網頁

爬取目標站點裡所有的網頁使用的系統：Windows 10 64位 Python語言版本：Python 3.5.0 V 使用的程式設計Python的整合開發環境：PyCharm 2016 04

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

python 3.5：爬蟲--爬取人民日報1946-2003年所有新聞

相關推薦