python解析html提取資料，並生成word文件

阿新 • • 發佈：2019-02-01

今天試著用ptyhon做了一個抓取網頁內容，並生成word文件的功能，功能很簡單，做一下記錄以備以後用到。

生成word用到了第三方元件python-docx，所以先進行第三方元件的安裝。由於windows下安裝的python預設不帶setuptools這個模組，所以要先安裝setuptools這個模組：

1、在python官網上找到　https://bootstrap.pypa.io/ez_setup.py　　，把程式碼儲存到本地並執行:　 python ez_setup.py

2、下載python-docx 　(https://pypi.python.org/pypi/python-docx/0.7.4)，下載完成後解壓並進入到　　XXX\python-docx-0.7.4　安裝python-docx :　python setup.py install

這樣python-docx就安裝成功了，可以用它來操作word文件了，word文件的生成參考的這裡https://python-docx.readthedocs.org/en/latest/index.html

html解析用到的是sgmllib裡的SGMLParser　　url內容的獲取用到的是urllib、urllib2

程式碼如下：

# -*- coding: cp936 -*-
from sgmllib import SGMLParser
import os
import sys
import urllib
import urllib2
from docx import Document
from docx.shared import Inches
import time

##獲取要解析的url
class GetUrl(SGMLParser):
    def __init__(self):
        SGMLParser.__init__(self)
        self.start=False
        self.urlArr=[]


    def start_div(self,attr):
        for name,value in attr:
            if value=="ChairmanCont Bureau":#頁面js中的固定值
                self.start=True


    def end_div(self):
        self.start=False


    def start_a(self,attr):
        if self.start:
            for name,value in attr:
                self.urlArr.append(value)
            


    def getUrlArr(self):
        return self.urlArr
    
##解析上面獲取的url，獲取有用資料
class getManInfo(SGMLParser):
    def __init__(self):
        SGMLParser.__init__(self)
        self.start=False
        self.p=False
        self.dl=False
        self.manInfo=[]
        self.subInfo=[]

    def start_div(self,attr):
        for name,value in attr:
            if value=="SpeakerInfo":#頁面js中的固定值
                self.start=True

    def end_div(self):
        self.start=False

    def start_p(self,attr):
        if self.dl:
            self.p=True

    def end_p(self):
        self.p=False

    def start_img(self,attr):
        if self.dl:
            for name,value in attr:
                self.subInfo.append(value)
        


    def handle_data(self,data):
        if self.p:
            self.subInfo.append(data.decode('utf-8'))


    def start_dl(self,attr):
        if self.start:
            self.dl=True

    def end_dl(self):
        self.manInfo.append(self.subInfo)
        self.subInfo=[]
        self.dl=False

    def getManInfo(self):
        return self.manInfo



                

urlSource="http://www.XXX"
sourceData=urllib2.urlopen(urlSource).read()

startTime=time.clock()
##get urls
getUrl=GetUrl()
getUrl.feed(sourceData)
urlArr=getUrl.getUrlArr()
getUrl.close()
print "get url use:" + str((time.clock() - startTime))
startTime=time.clock()


##get maninfos
manInfos=getManInfo()
for url in urlArr:#one url one person
    data=urllib2.urlopen(url).read()
    manInfos.feed(data)
infos=manInfos.getManInfo()
manInfos.close()
print "get maninfos use:" + str((time.clock() - startTime))
startTime=time.clock()

#word
saveFile=os.getcwd()+"\\xxx.docx"
doc=Document()
##word title
doc.add_heading("HEAD".decode('gbk'),0)
p=doc.add_paragraph("HEADCONTENT:".decode('gbk'))


##write info
for infoArr in infos:
    i=0
    for info in infoArr:
        if i==0:##img url
            arr1=info.split('.')
            suffix=arr1[len(arr1)-1]
            arr2=info.split('/')
            preffix=arr2[len(arr2)-2]
            imgFile=os.getcwd()+"\\imgs\\"+preffix+"."+suffix
            if not os.path.exists(os.getcwd()+"\\imgs"):
                os.mkdir(os.getcwd()+"\\imgs")
            imgData=urllib2.urlopen(info).read()

            try:
                f=open(imgFile,'wb')
                f.write(imgData)
                f.close()
                doc.add_picture(imgFile,width=Inches(1.25))
                os.remove(imgFile)
            except Exception as err:
                print (err)
  
            
        elif i==1:
            doc.add_heading(info+":",level=1)
        else:
            doc.add_paragraph(info,style='ListBullet')
        i=i+1

    
doc.save(saveFile)
print "word use:" + str((time.clock() - startTime))

python解析html提取資料，並生成word文件

今天試著用ptyhon做了一個抓取網頁內容，並生成word文件的功能，功能很簡單，做一下記錄以備以後用到。生成word用到了第三方元件python-docx，所以先進行第三方元件的安裝。由於windows下安裝的python預設不帶setuptools這個模組，所以要先安

利用freemarker 在模板裡面寫入動態資料，動態表格，圖片插入並生成word文件

利用freemarker 在模板裡面寫入動態資料，動態表格，圖片插入。以下測試程式碼圖片（image.jpg）和模板（template.xml）是直接放到src目錄下面的，可以根據自己需求調整廢話不多說，直接上程式碼：程式碼塊 impor

解碼aac，並生成wav文件

fadd aac wav 解碼小程在講多媒體的編碼格式時，詳細介紹過pcm跟aac等概念。簡單來說，pcm是沒有壓縮的數字信號，可以直接用於音頻輸出，而aac則是一種音頻編碼格式，需要解碼後才能用於音頻輸出。 aac編碼格式，已經是一種很常見的音頻編碼格式，硬件設備（比如電腦芯片、手機、其它

PowerDesigner建立匯出模版，並生成資料庫文件（word文件）

一、建立匯出模版 1.Report下點選Report Templates... 2.點選新建 3.配置模版：模版名，簡體中文，物理模型 4.配置模版顯示項 Available items -- List of Tables 雙擊移動至右側，用於顯示全部表

利用python獲取微信企業號打卡資料，並生成windows計劃任務

由於公司的系統用的是Java版本，開通了企業號打卡之後又沒有預算讓供應商做資料對接，所以只能自己搗鼓這個，以下是個人設定的一些內容，僅供大家參考安裝python python的安裝，這裡就不詳細寫了，大家可自行度娘或google。安裝第三方庫 python

解析xml文件，並將xml文件中的資料拼接成insert語句

education.xml的內容是： <?xml version="1.0" encoding="utf-8"?> <Msg> <Head> <Id>20140529100039</Id> <Name&

使用JDBC獲取資料庫資料，並生成json格式檔案（省市區三級聯動）

前言：轉眼已經2018年了， 17年有點忙，出差將近三個月，部落格也停更了好久。一直都是不停的修復bug，和做一些業務需要的提示和互動。主要是因為和硬體有關係所以比較麻煩，開發週期也很長，而且還不穩定，硬體先行，然後在是除錯，互動。不過也有好處，學到的東西自然不是簡簡單單的程式碼了。

Python-根據已有的行政區域信息，自動生成exl文件

pac pda play for Coding ted gre sci none 最近接到個小任務，需要從下圖這樣的信息中找出社區、行政村並且分類。事後我計算了一下，只是行政村就有500+，這樣的重復性勞動果斷選擇Python來執行。為了方便其他和我遇到同樣問題的人，我

使用poi將ueditor生成的內容匯出生成word文件，並以頁面檢視開啟

將ueditor生成的內容儲存成字串，通過下面的內容拼成html，並使生成的word以頁面檢視的方式開啟。 String str = " <!--[if gte mso 9]><xml><w:WordDocument><w:

C#：簡單實現動態資料生成Word文件並儲存

今天正好有人問我，怎麼生成一個報表式的Word文件。就是文字的樣式和位置相對固定不變，只是裡面的內容從資料中讀取。我覺得類似這種的一般用第三方報表來做比較簡便。但既然要求了Word，只好硬著頭皮來。網上的方法大多數都是從一個GridView或表中獲得資料後向Word

MarkdownPad2 匯出帶側邊欄目錄的html，自動生成markdown文件側邊欄

MarkdownPad2 匯出帶側邊欄目錄的html  <script src="http://code.jquery.com/jquery-1.7.2.min.js"></script> &

python爬蟲抓取新華網新聞並自動生成word文件

認識一個在學校廣播電臺的學妹, 聽她說她們每天都要在網上找新聞, 國際, 國內, 和校內各五篇, 然後將其做成word文件列印, 個人感覺這種活非常浪費時間, 應該寫個程式幫我們自動完成. 後來沒事的時候就寫了這個python程式實現這個功能. 程式用pyth

實現動態資料生成Word文件並儲存

最近在做人事系統，遇到了一個信函列印的的問題。需求是：給一個現成格式的Word模板，在模板中寫入你要寫的資訊，然後儲存。網上的方法大多數都是從一個GridView或表中獲得資料後向Wo

C#也能動態生成Word文件並填充資料, 匯出EXCEL 方法

public string CreateWordFile(string CheckedInfo) ...{ string message = ""; try ...{ Ob

使用Freemarker生成Word文件並在文件內新增Echarts圖形報表或迴圈新增表格、圖片資料

一、製作.ftl字尾的word模板檔案 1、新建一個word文件模板使用其他文字編輯器編寫表示式，如：Editplus 2、將word文件另存為xml並改名為.ftl字尾的檔案另存完之後關閉word文件，將demo.xml的字尾修改

maven打包成jar，並排除指定文件

pat addclass fig ani logs archive exc arc mave maven打包成jar，配置如下 <plugin> <groupId>org.apache.maven.plugins

DOS批處理器移動指定數量文件到一個臨時文件夾，上傳到linux服務器，並刪除臨時文件夾下的文件

dosDOS批處理器移動指定數量文件到一個臨時文件夾，上傳到linux服務器，並刪除臨時文件夾下的文件，上傳需要依賴pscp.exe。腳本如下：@echo off&setlocal enabledelayedexpansion #將400個xml文件從M:\dockerEPG\目錄下移動到M:\scp

創建100個文件，並對每個文件賦值

-1 span echo log 賦值 style 創建 for img for i in `seq 1 100`;do echo $i >jf$i.txt;done 註意符號·· 而不是‘’ 從視頻中看到這個腳本，但是總是提示不明確的重定向文件創建10

【POI】導出excel文件，不生成中間文件，直接將內存中的數據創建對象下載到瀏覽器

src sheet xssf xls close creat 下載 position new 不是從InputStream中read，然後outputStream再write @RequestMapping("download4Excel") public v

這是一個定時腳本，主要功能是遍歷該文件夾下的所有文件並存儲到數組，對數據中的文件進行操作，一個一個移動到指定的目錄下，並刪除原有文件

for 定時數據 gpo 刪除目錄復制文件 sleep 進行 1 #!/bin/bash 2 echo "這是一個定時腳本，主要功能是遍歷該文件夾下的所有文件並存儲到數組，對數據中的文件進行操作，一個一個移動到指定的目錄下，並刪除原有文件。" 3 j=0 4

python解析html提取資料，並生成word文件

相關推薦