1. 程式人生 > >golang 解析word文件

golang 解析word文件

baliance/gooxml

gooxml是可以對整個office document提供支援的golang庫,功能很強大,這裡簡單給出對word文件的讀取案例

安裝

go get baliance.com/gooxml/
go build -i baliance.com/gooxml/…

解析word程式碼

package main

import (
    "fmt"
    "log"
    "baliance.com/gooxml/document"
)

func main() {
    doc, err := document.Open("ml.docx")
    if
err != nil { log.Fatalf("error opening document: %s", err) } //doc.Paragraphs()得到包含文件所有的段落的切片 for i, para := range doc.Paragraphs() { //run為每個段落相同格式的文字組成的片段 fmt.Println("-----------第", i, "段-------------") for j, run := range para.Runs() { fmt.Print("\t-----------第"
, j, "格式片段-------------") fmt.Print(run.Text()) } fmt.Println() } }

舉個例子:
下圖為word文件的截圖,總共四行,第一行有三種字型

這裡寫圖片描述

執行程式碼結果如下:
這裡寫圖片描述

相關推薦

golang 解析word

baliance/gooxml gooxml是可以對整個office document提供支援的golang庫,功能很強大,這裡簡單給出對word文件的讀取案例 安裝 go get bali

C#儀器數據解析-Word(doc、docx)

new read ffi 數據文件 word 不同 軟件 情況下 如果 不少儀器數據報告輸出為Word格式文件,同Excel文件,Word文件doc和docx的存儲格式是不同的,相應的解析Word文件的方式也類似,主要有以下方式: 1.通過MS Word應用程序的DCOM

python解析word首、尾頁

1.docx 不能解析.doc文件,只能解析.docx文件 2.如何將doc轉換為docx (window 裡有開啟後另存為) 3.docx文件有沒有page的概念?如何使用分頁符?如何取得第一頁和最後一頁 1.如何使doc文件,將其轉換為docx文件   &n

php解析word

一個簡單的word文件閱讀類,使用正則實現簡單的docx文件閱讀,下面是程式碼 <?php class Lib { /** * @param $file docx檔案路徑 * @return string 生成的html字串 * ---讀取docx文件轉

如何解析word中的公式內容

問題:這裡講的就是如何對解析後的excel進行資料的處理,此處對公式的處理 如圖, 所以此處在後臺解析出來的是公式,後臺程式碼需要進行處理: import org.apache.poi.ss.usermodel.Cell; import org.apache.poi.s

python如何處理解析worddoc docx , python-docx,python-docx2txt,zipfile

關於python如何處理word文件doc docx,可以關注 python-docx 和 python-docx2txt 兩個專案,python-docx複雜一些,適合建立文件,python-docx2txt可以方便將文件轉換成txt: https://python-do

php在linux上解析word

最近簡單試了一下這個問題,記下流程: 1.在linux上安裝antiword(網上安裝方法很多,搜尋一個即可). 2.在php上解析一個word檔案為text串,這個串是多行的串,即包含很多換行符. $filename = '/home/den/ttt.doc'; $con

OCJP 1Z0-808考題超詳細解析word) 題1--30

題目難度分類 個人對於題目難度的分類:難度總共五星 不理解題:   ★★★★★ 閱讀理解題:  ★★★★ 難點題: ★★★ 套路題:      ★★★ 基礎題/送分題:    

OCJP 1Z0-808考題超詳細解析word) 題50--60

我現在邊工作,業餘時間看看,更新的可能的比較慢,望大家諒解。 題58 Given the code fragment:  if(aVar++ < 10){ System.out.println(aVar+ " Hello

解析xml格式的word(非jar包)-附程式碼

1 背景 dom4j,Jdom,w3c dom解析xml文件時速度比較慢,因此選擇自己寫程式碼解析xml文件。 2 思路 首先,對xml檔案進行分析,熟悉標籤; 然後,切分文件為不同的塊。我們要對文件中的書籤進行替換,因此需要將文件切分為書籤塊和非書籤塊; 還有就是

python解析html提取資料,並生成word

今天試著用ptyhon做了一個抓取網頁內容,並生成word文件的功能,功能很簡單,做一下記錄以備以後用到。 生成word用到了第三方元件python-docx,所以先進行第三方元件的安裝。由於windows下安裝的python預設不帶setuptools這個模組,所以要先安

解析PE的附加數據

dos 寫入 image creat class filesize content res file 解析程序自己的附加數據,將附加數據寫入文件裏。 主要是解析PE文件頭。定位到overlay的地方。寫入文件。常應用的場景是在crackme中,crackme自身有一段加

java解析xml練習——通過應用包名獲取應用圖標即其他信息(基於魅族應用商店)

fin vma tdm row con smartd enter music close 1、解析包名數據文件(txt文件),並生成包名數組: package jsouphtml; import java.io.BufferedReader; import j

2 怎樣解析XML或字符串

ica 代碼 clas books con value title 例如 parse 1 引用XML文件 2 使用XMLReader解析文本字符串 3 使用XMLReader方法讀取XML數據 詳細代碼實現例如以下: //初始化一個XML字符串 String xml

【U1結業機試題】新聞內容管理系統:解析XML讀取Html模版生成網頁

repl att not 一個 class 新的 create hashmap exception 一、作業要求: 1.在xml文件中創建新聞節點news,包含標題、作者、日期、正文等信息 2.創建HTML模板文件 3.讀取xml中所有新聞信息,並使用新聞信息替換模板文件中

在java項目中怎樣利用Dom4j解析XML獲取數據

avi conf get 自己 mar dom4j eas localhost b2c 在曾經的學習.net時常常會遇到利用配置文件來解決項目中一些須要常常變換的數據。比方數據庫的連接字符串兒等。這個時候在讀取配置文件的時候。我們一般會用到一個雷configuratio

解析FAT16系統

ascii碼 字符 商標 bsp dsm get cto ng- bcd 引導扇區的信息例如以下: 1. 偏移地址00H,長度3,內容:EB 3C 90 跳轉指令。2. 偏移地址03H,長度8。內容:4D 53 44 4F 53 35 2E 30 為廠商標誌和os 版

使用apache POI解析Excel

sim bject 我們 如果 dialog 日期 源碼 round 清理 1. Apache POI簡介 Apache POI是Apache軟件基金會的開放源碼函式庫,POI提供API給Java程式對Microsoft Offic

SAXReader解析xmldemo

ade http 5.1 tex ring 分享 rgs imp pub 1. 加入jar包 2. 代碼解析 package practice; import java.io.File; import java.util.List; import

生成和解析txt

stat zha 上海 查找內容 list lose list() checked types package txt; import java.io.BufferedReader; import java.io.File; import java.io.File