爬蟲——爬取網頁資料存入表格

阿新 • • 發佈：2018-12-13

最近由於個人需要，從相關書籍以及網上資料進行爬蟲自學，目標網址為http://mzj.beijing.gov.cn，對其內容進行整理篩選，存入excel格式。

首先是對錶格的內容進行設定，編碼格式定義為utf-8，新增一個sheet的表格，其中head為表頭的內容，定義之後，利用sheet.write將表頭內容寫入。

book = xlwt.Workbook(encoding='utf-8')
sheet = book.add_sheet('ke_qq')
head = ['組織名稱','登記證號','統一社會信用程式碼','業務主管單位','登記管理機關','社會組織型別','開辦資金','業務範圍','法定代表人','電話','地址','郵編','登記狀態','成立日期','行業分類']#表頭
for h in range(len(head)):
    sheet.write(0,h,head[h])    #寫入表頭

爬取網頁採用requests進行訪問，利用BeautifulSoup進行解析。

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser', from_encoding='utf-8')

之後提取網頁內容中有效欄位，使用soup.stripped_strings去除其中的空格和空行內容。

str1 = []
    nice = []
    for wz in soup.stripped_strings:
        str1.append(repr(wz))
    k = len(str1)

最後，根據每個人不同的需要，對資料進行整理，在這裡是使用insert、pop、append對資料進行一些調整。

完整程式碼如下：

# coding:utf-8
import requests
from bs4 import BeautifulSoup
import operator as op
import re
import xlwt

user_agent = 'Mozilla/4.0 (compatible;MSIE5.5;windows NT)'
headers = {'User-Agent': user_agent}
num=1
book = xlwt.Workbook(encoding='utf-8')
sheet = book.add_sheet('ke_qq')
head = ['組織名稱','登記證號','統一社會信用程式碼','業務主管單位','登記管理機關','社會組織型別','開辦資金','業務範圍','法定代表人','電話','地址','郵編','登記狀態','成立日期','行業分類']#表頭
for h in range(len(head)):
    sheet.write(0,h,head[h])    #寫入表頭
for one in range(10001,17000):
    keyword = 10000000001
    keywords=keyword+one
    url = 'http://mzj.beijing.gov.cn/wssbweb/wssb/dc/orgInfo.do?action=seeParticular&orgId=0000' + str(keywords) + '&websitId=&netTypeId='
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser', from_encoding='utf-8')
    str1 = []
    nice = []
    for wz in soup.stripped_strings:
        str1.append(repr(wz))
    k = len(str1)
    if k>5:
        i = 1
        for content in str1:
            if i > 3:
                nice.append(content)
            i = i + 1
        try:
            # num=num+1
            if  op.eq(nice[4], '\'業務主管單位：\''):
                nice.insert(4, '無')
            if op.eq(nice[14], '\'法定代表人/負責人：\''):
                nice.insert(14, '無')
            if op.eq(nice[13], '\'活動地域：\''):
                nice.pop(13)
                nice.pop(13)
            if op.eq(nice[16], '\'電話：\''):
                nice.insert(16, '無')
            if op.eq(nice[18], '\'地址：\''):
                nice.insert(18, '無')
            if op.eq(nice[20], '\'郵編：\''):
                nice.insert(20, '無')
            if len(nice)>22:
                if op.eq(nice[22], '\'登記狀態：\''):
                    nice.insert(22, '無')
            if len(nice) > 27:
                if op.eq(nice[27], '\'行業分類：\'') and len(nice) == 28:
                    nice.append('無')
                # if op.eq(nice[13], '\'活動地域：\''):
                #   nice.pop(13)
                #  nice.pop(13)
            if op.eq(nice[12], '\'元\''):
                nice[12] = '0'
            # print(nice)
            j = 0
            d = 0
            s = 0
            for data in nice:
                if j & 1 == 0:
                    s = j - d
                    sheet.write(num, s, data)
                    d += 1
                j += 1
            print(num)
            num += 1
        except:
            print('error'+num)

book.save('E:\WU\pyfile\shuju\save2\shuju2.xls')

其中網頁地址中的keyword由於爬取網頁的不同，可能採取方法有異。

爬蟲——爬取網頁資料存入表格

最近由於個人需要，從相關書籍以及網上資料進行爬蟲自學，目標網址為http://mzj.beijing.gov.cn，對其內容進行整理篩選，存入excel格式。首先是對錶格的內容進行設定，編碼格式定義為utf-8，新增一個sheet的表格，其中head為表頭的內容，定義之後，利用sheet.wr

JAVA爬蟲爬取網頁資料資料庫中,並且去除重複資料

pom檔案  <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId&

Python爬蟲爬取網頁資料並存儲（一）

環境搭建 1.需要事先安裝anaconda（或Python3.7）和pycharm *anaconda可在中科大映象下下載較快 2.安裝中遇到的問題： *anaconda（記得安裝過程中點新增路徑到path裡，沒新增的話手動新增：計算機右鍵屬性——高階系統設

你以為Python爬蟲只能爬取網頁資料嗎？APP也是可以的呢！

摘要大多數APP裡面返回的是json格式資料，或者一堆加密過的資料。這裡以超級課程表APP為例，抓取超級課程表裡使用者發的話題。 1 抓取APP資料包方法詳細可以參考這篇博文：http://my.oschina.net/jhao104/blog/605963 得到超級課程表

Python爬取網頁資料並匯入表格

import requests import time import random import socket import http.client from bs4 import BeautifulSoup import csv def getContent(url

不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料

前言其實爬蟲的思路很簡單，但是對於很多初學者而言，看得懂，但是自己寫的時候就不知道怎麼去分析了！說實話還是寫少了，自己不要老是抄程式碼，多動手！本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位

如何通過jsoup網路爬蟲工具爬取網頁資料,並通過jxl工具匯出到excel

1：閒話少說,直接看需求: 抓取的url:http://www.shparking.cn/index.php/welcome/municipal_parking?key=&per_page=. 參考的資料:http://blog.csdn.net/lmj6235

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

無搜尋條件根據url獲取網頁資料(java爬取網頁資料)

jsoup jar包 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3<

有搜尋條件根據url抓取網頁資料(java爬取網頁資料)

最近有一個任務抓取如下圖的網頁資料要獲取前一天的資料進行翻頁抓取資料並存入資料庫如果就只是抓取當前頁的資料沒有條件和翻頁資料這個就比較簡單了但是要選取前一天的資料,還有分頁資料一開始的思路就想錯了(開始想的是觸發查詢按鈕和

手把手教你利用前端字型檔案(.ttf)混淆數字來阻止爬蟲爬取網站資料

先上一張效果圖假如正確的數字是321456 這時候使用者看到的就是對的而爬蟲在抓取資料的時候抓到得是123456 混淆了數字怎麼實現呢？工具： 1、FontCreator （中文漢化破解版）當然英語好或者土豪的可以無視 2、做好的字型圖片步

Python3 Scrapy框架學習四：爬取的資料存入MongoDB

1. 新建一個scrapy專案： 2.使用PyCharm開啟該專案 3.在settings.py檔案中新增如下程式碼： #模擬瀏覽器，應對反爬 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebK

cheerio爬取網頁資料，儲存到MySQL資料庫

最近在做物流專案成本分析，需要爬取柴油價格資料，使用到了cheerio，cheerio實現了jQuery核心的一個子集。以下為爬取程式碼。 //getHtml.js，獲取HTML頁面資料 var http = require("http"); function gethtml(url,

python初學-爬取網頁資料

python初學-爬取網頁資料 1,獲取網頁原始碼 import urllib url = 'http://www.163.com' wp = urllib.urlopen(url) file_content = wp.read() print file_content 2,

python爬蟲——爬取網頁的中文

# 爬取網頁的中文內容 from urllib import request from bs4 import BeautifulSoup import pandas as pds import xlrd import docx #讀取excel def excel(fname):

一個簡單的網路爬蟲---爬取網頁中的圖片

這裡貼上py原始碼,這個爬蟲很簡單，爬取網頁的圖片，通過正則表示式匹配對應的圖片的url 然後下載之，基本上也沒有什麼容錯處理，僅供學習之用 # -*- coding: utf-8 -*- import urllib2 import urllib im

爬取網頁資料出現中文亂碼 UTF-8中文亂碼

在用python爬取網頁資料時，獲取的中文資料出現亂碼情況第一種情況：沒有宣告編碼格式，即沒有進行 encoding = 'utf-8' 編碼宣告例如下圖，在獲取資料中<

python3爬蟲爬取網頁圖片簡單示例

本人也是剛剛開始學習python的爬蟲技術，然後本來想在網上找點教程來看看，誰知道一搜索，大部分的都是用python2來寫的，新手嘛，一般都喜歡裝新版本。於是我也就寫一個python3簡單的爬蟲，爬蟲一下貼吧的圖片吧。話不多說，我們開始。首先簡單來說說一下知識。一

Python爬蟲——爬取網頁中的圖片小試牛刀

Preface：以往爬取文字，這次需要爬取圖片pdf，先上手一個例子，爬取pdf，先取得url，然後通過urllib.urlretrieve函式將url的網頁內容遠端下載到本地，第一個引數為url，第二個引數為檔名(程式碼中有誤)，第三個引數為回撥函式，可以顯示下載進度。另

java爬蟲爬取網頁資訊

今天接觸到一個專案中非要讓我用爬蟲來爬取一個學校網頁的新聞頁面加子頁面所有文字資訊，畢竟需求就是上帝，然後查詢了一會之後發現並不難就是匹配字元、標籤是有些麻煩好了直接上pom.xml &

爬蟲——爬取網頁資料存入表格

相關推薦