[Python爬蟲] 爬蟲例項:獲取政府網站公示資料並儲存到MongoDB資料庫

阿新 • • 發佈：2018-12-21

前言

在上一篇文章 https://blog.csdn.net/xHibiki/article/details/84134554 中,我們介紹了Mongo資料庫以及管理工具Studio3T和adminMongo的下載安裝,這次,我們結合Python爬蟲和第三方模組Pymongo,爬取政府網站:深圳市規劃和國土資源委員會（市海洋局）,來學習MongoDB資料庫和管理工具的的使用方法.

文件型資料庫

文件型資料庫是一類非關係型資料庫(NoSQL)，MongoDB是其中的一種.區別於傳統的資料庫，它是用來管理文件。在傳統的資料庫中，資訊被分割成離散的資料段，而在文件資料庫中，文件是處理資訊的基本單位。一文件可以很長、很複雜、可以無結構，與字處理文件類似。一個文件相當於關係資料庫中的一條記錄。
文件儲存一般用類似json的格式儲存，儲存的內容是文件型的。這樣也就有機會對某些欄位建立索引，實現關係資料庫的某些功能。

在使用前,除了安裝MongoDB和管理工具,另外還需要Pymongo模組.
只要在命令列中輸入:pip3 install pymongo即可安裝Pymongo庫.
在這裡插入圖片描述
或者在File–Setting–Project–Project Interpreter中獲取

爬取頁面

深圳市規劃和國土資源委員會（市海洋局）的公告公示:
在這裡插入圖片描述
隨便點開一個公告公示的詳細頁面,

包含了以下部分:
1.標題 2.來源 3.日期 4.正文 5.附件連結(0個或1個)
因為公告公示都是由同一個模板生成的,所以比較好爬取.

爬蟲程式碼

因為文章的核心是使用MongoDB和PyMongo,所以爬蟲部分就不再贅述.這裡使用requests

和lxml爬取,使用re清洗資料

#爬取公示詳細頁面
import requests
import re
from lxml import etree
import pymongo
import time
from multiprocessing import Pool

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                  'AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/67.0.3396.79 Safari/537.36' 

}

# MongoDB的連線
client = pymongo.MongoClient('localhost', 27017)
mydb = client['mydb']
publicity = mydb['cn.gov.szpl.publicity']


def get_link(url):  # 獲取每一頁公示的所有連結
    res = requests.get(url, headers)
    selector = etree.HTML(res.text)
    href = selector.xpath('//ul[@class="list-group"]/li/a/@href')
    links = []
    for i in href:
        links.append(re.sub('^.', 'http://www.szpl.gov.cn/xxgk/gggs', str(i)))
    return links


def page_scratch(link):  # 抓取公示詳細頁面資訊
    res = requests.get(link, headers)
    res.encoding = res.apparent_encoding  # 更改可能的編碼方式也可以直接用"GB2312"
    selector = etree.HTML(res.text)
    # 公示標題
    title = selector.xpath('//div[@class="xxym"]/h4/text()')[0]
    # 公示來源
    source = re.findall('來源：(.*)\n', selector.xpath('//div[@class="xxym"]/h5/text()')[0])[0]
    # 公示日期
    date = re.findall(' (.*?)\t', selector.xpath('//div[@class="xxym"]/h5/text()')[1])[0]
    # 公示內容
    article = '\n'.join(selector.xpath('//div[@class="TRS_Editor"]/p/text()'))
    # 附件的下載連線
    download_link = selector.xpath('//i[@class="fa fa-caret-right"]/a/@href')
    if len(download_link) == 0:
        appendix = '無'
    else:
        appendix = re.search('^http(.*)/', res.url)[0] + download_link[0].replace('./', '')
    # 儲存到MongoDB中
    publicity.insert_one({'標題': title, '來源': source, '日期': date, '公示內容': article, '附件連結': appendix})
    time.sleep(0.1)  # 緩衝


if __name__ == '__main__':
    try:
        urls = ['http://www.szpl.gov.cn/xxgk/gggs/index.html']
        urls.extend(['http://www.szpl.gov.cn/xxgk/gggs/index_{}.html'.format(i) for i in range(1, 99)])  # 所有的網頁
        links = []
        for url in urls:
            links.extend(get_link(url))
        pool = Pool(processes=4)
        pool.map(page_scratch, links)
    except:
        pass

在管理工具adminMango可以看到抓取的頁面資訊已經成功地儲存到資料庫中
在這裡插入圖片描述
Studio3T

完整的爬蟲程式碼

多程序爬蟲,爬取共99頁的資料存放到MongoDB中.

import requests
import re
from lxml import etree
import pymongo
import time
from multiprocessing import Pool

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) '
                  'AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/67.0.3396.79 Safari/537.36'
}

# MongoDB的連線
client = pymongo.MongoClient('localhost', 27017)
mydb = client['mydb']
publicity = mydb['cn.gov.szpl.publicity']


def get_link(url):  # 獲取每一頁公示的所有連結
    res = requests.get(url, headers)
    selector = etree.HTML(res.text)
    href = selector.xpath('//ul[@class="list-group"]/li/a/@href')
    links = []
    for i in href:
        links.append(re.sub('^.', 'http://www.szpl.gov.cn/xxgk/gggs', str(i)))
    return links


def page_scratch(link):  # 抓取公示詳細頁面資訊
    res = requests.get(link, headers)
    res.encoding = res.apparent_encoding  # 更改可能的編碼方式也可以直接用"GB2312"
    selector = etree.HTML(res.text)
    # 公示標題
    title = selector.xpath('//div[@class="xxym"]/h4/text()')[0]
    # 公示來源
    source = re.findall('來源：(.*)\n', selector.xpath('//div[@class="xxym"]/h5/text()')[0])[0]
    # 公示日期
    date = re.findall(' (.*?)\t', selector.xpath('//div[@class="xxym"]/h5/text()')[1])[0]
    # 公示內容
    article = '\n'.join(selector.xpath('//div[@class="TRS_Editor"]/p/text()'))
    # 附件的下載連線
    download_link = selector.xpath('//i[@class="fa fa-caret-right"]/a/@href')
    if len(download_link) == 0:
        appendix = '無'
    else:
        appendix = re.search('^http(.*)/', res.url)[0] + download_link[0].replace('./', '')
    # 儲存到MongoDB中
    publicity.insert_one({'標題': title, '來源': source, '日期': date, '公示內容': article, '附件連結': appendix})
    time.sleep(0.1)  # 緩衝


if __name__ == '__main__':
    try:
        urls = ['http://www.szpl.gov.cn/xxgk/gggs/index.html']
        urls.extend(['http://www.szpl.gov.cn/xxgk/gggs/index_{}.html'.format(i) for i in range(1, 99)])  # 所有的網頁
        links = []
        for url in urls:
            links.extend(get_link(url))
        pool = Pool(processes=4)
        pool.map(page_scratch, links)
    except:
        pass

MongoDB資料庫
爬取到了1055條資料,一頁15條應該是1485條才對,可能出不知道哪裡出了錯…有空修正一下
在這裡插入圖片描述

至於在MongoDB對資料的CRUD,我們就放到下一次來講吧~

[Python爬蟲] 爬蟲例項:獲取政府網站公示資料並儲存到MongoDB資料庫

前言在上一篇文章 https://blog.csdn.net/xHibiki/article/details/84134554 中,我們介紹了Mongo資料庫以及管理工具Studio3T和admin

Python爬蟲 BeautifulSoup抓取網頁資料並儲存到資料庫MySQL

最近剛學習Python，做了個簡單的爬蟲，作為一個簡單的demo希望幫助和我一樣的初學者程式碼使用python2.7做的爬蟲抓取51job上面的職位名，公司名，薪資，釋出時間等等直接上程式碼，程式碼中註釋還算比較清楚，沒有安裝mysql需要遮蔽掉相關程式碼：#!/u

Python爬蟲實踐：獲取石家莊空氣質量歷史資料（13年至今）

from urllib.request import urlopen from bs4 import BeautifulSoup import re import numpy import csv import time def getdatawithtablehead(url): ""

Python網路爬蟲（九）：爬取頂點小說網站全部小說，並存入MongoDB

前言：本篇部落格將爬取頂點小說網站全部小說、涉及到的問題有：Scrapy架構、斷點續傳問題、Mongodb資料庫相關操作。背景： Python版本：Anaconda3 執行平臺：Windows IDE：PyCharm 資料庫：MongoDB 瀏

定期執行 Python 爬蟲程式並儲存至資料庫

例行性工作排程Linux 提供使用者執行例行性工作排程的指令是 crontab，加入工作排程之前首先我們用指令 crontab -l 看目前的 AWS Lightsail 使用者（ubuntu）有無工作排程。crontab -l## no crontab for ubuntu系統告訴我們目前這個伺服器上沒有工

Python爬蟲-利用百度地圖API介面爬取資料並儲存至MySQL資料庫

首先，我這裡有一份相關城市以及該城市的公園數量的txt檔案：其次，利用百度地圖API提供的介面爬取城市公園的相關資訊。所利用的API介面有兩個： 1、http://api.map.baidu.com/place/v2/search?q=公園&

python3爬蟲爬取圖片，爬取新聞網站文章並儲存到資料庫

2017年9月16日零基礎入門Python，第二天就給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2

利用爬蟲爬取看看豆網站站的資料資訊

其實很早我就開始關注爬蟲技術，這兩天特別學習了一下，並且做了一個簡單的demo。爬取了看看豆網站的資料資訊。總共11751本書，爬取了不到3個小時，基本每秒爬取1條。速度慢的原因主要是單執行緒，使用mysql資料庫。想要提高速度的話可以使用多執行緒和redis。但是對於初學

Python爬蟲入門——2. 5 爬取鬥破蒼穹並儲存到本地TXT

話不多說，上程式碼： #匯入requests庫 import requests #匯入 re 庫 #匯入時間模組 import time import re #定義請求頭，請求頭可以使爬蟲偽裝成瀏覽器 headers = {'User-Agent': '

python爬蟲由淺入深1-從網頁中爬取檔案並儲存至本地

學過python語法的基礎，由此將由淺入深地進行以此python爬蟲的相關知識點的梳理從網頁中爬取檔案並儲存至本地 import requests import os url = "http://image.nationalgeographic.com.cn/2017

python爬取網站上的圖片並儲存到本地

　　1.匯入需要的模組requests，BeautifulSoup，os（用於檔案讀寫）。　　2.建立一個類，並初始化。 class BeautifulPicture: def __init__(self): # 類的初始化操作 self.headers = {

【爬蟲入門】抓取今日頭條的街拍搜尋頁的圖片，並儲存到資料庫和本地

使用多程序對街拍圖片進行下載，並將圖片相關資訊儲存到mongodb資料庫中。 import requests, re, json, pymongo from multiprocessing import Pool from urllib.parse import urlencode f

python獲取系統記憶體、CPU、磁碟、平均負載資訊並儲存到資料庫中

本主題主要考察的是python os模組呼叫linux命令、模組、函式呼叫以及通過python操縱資料庫。假設已經可以正常連線mysql資料庫了，儲存系統資訊的資料庫名稱為hostinfo,相關的四個資料表分別名為cpuinfo、meminfo、diskin

爬蟲雙色球所有的歷史資料並儲存到SQLite

前言上一篇介紹了雙色球走勢圖是怎麼實現的，這一篇介紹怎麼實現爬蟲所有的雙色球歷史資料，也可以同步分享怎麼同步福彩3D資料。採用的C#來實現的。同步雙色球的地址：https://datachart.500.com/ssq/history/newinc/history.php?start={0}&en

Lua獲取Nginx的Post請求資料並寫入Redis

1.環境安裝 1.lnmp.conf 設定 Enable_Nginx_Lua='y'。然後按通常情況安裝。 2.lnmp ./addons.sh安裝redis,如果連線遠端redis伺服器不用裝。 3.安裝lua ubuntu安裝lua apt-get install lua

JAVA 爬取指定網站的資料並存入MySQL資料庫中 maven +httpclient+jsoup+mysql

最近在做一個小專案，因為要用的資料爬取，所以研究了好多天，分享一下自己的方法目錄結構：自己建立maven工程，匯入相關依賴：pom.xml <?xml version="1.0" enco

python中csv檔案中資料新增到MongoDB資料庫

使用csv中的DictReader函式讀取 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2018/10/21 11:31 # @Author : deli Guo # @Site :

node.js獲取微信二維碼並儲存到伺服器

const body = {path: 'pages/index',} const opts = { url: `https://api.weixin.qq.com/wxa/getwxa

python檔案讀寫（從file1中讀出資料並計算，然後將結果寫入到file2中）

要求新建兩個檔案，file1、file2，要求開啟file1檔案，分別對每一行數字進行求和，並將每一行的結果寫在file2中。 file1: 20 30 40 20 52 63 52 52 85 52 8 456 522 25 36 85 96 74 程式原始碼：定義一個求和函式

python tools：將視訊的每一幀提取並儲存

Preface 最近在做 video caption 相關，要處理大量視訊。 Method 1 方法 1 是最簡單的，用 FFmpeg 工具來完成。具體的網上有很多這方面的資料，本人只是簡單瞭解了一下如何使用。如下圖，有一個名為 ffmpeg_

[Python爬蟲] 爬蟲例項:獲取政府網站公示資料並儲存到MongoDB資料庫

前言

文件型資料庫

爬取頁面

爬蟲程式碼

完整的爬蟲程式碼

相關推薦