1. 程式人生 > >Java實現poi方式讀取word檔案內容(不帶格式)

Java實現poi方式讀取word檔案內容(不帶格式)

宣告:文章為原創,程式碼也是經過網上查詢整理的,如有雷同,合情合理偷笑,博主很誠實。

1.此技術分享實現Java程式從word文件中讀取文字內容儲存為字串,很簡單。

2.準備工作:poi的jar包,我用的是3.16版本,官網上下載就可以,找不到的可以留言聯絡我。

3.直接上程式碼

package com.poi.test;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

import org.apache.poi.POIXMLDocument;
import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;

public class testPoi {
	/**
	 * 讀取word檔案內容
	 * 
	 * @param path
	 * @return buffer
	 */

	public String readWord(String path) {
		String buffer = "";
		try {
			if (path.endsWith(".doc")) {
				InputStream is = new FileInputStream(new File(path));
				WordExtractor ex = new WordExtractor(is);
				buffer = ex.getText();
				ex.close();
			} else if (path.endsWith("docx")) {
				OPCPackage opcPackage = POIXMLDocument.openPackage(path);
				POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
				buffer = extractor.getText();
				extractor.close();
			} else {
				System.out.println("此檔案不是word檔案!");
			}

		} catch (Exception e) {
			e.printStackTrace();
		}

		return buffer;
	}

	public static void main(String[] args) {
		// TODO Auto-generated method stub
		testPoi tp = new testPoi();
		String content = tp.readWord("D:\\test01.doc");
		System.out.println("content===="+content);
	}

}


4.測試

4.1原始檔內容(原始檔位置:D:\test01.doc)

4.2測試結果

需要word文件中的任何內容,解析就可以了。

相關推薦

Java實現poi方式讀取word檔案內容格式

宣告:文章為原創,程式碼也是經過網上查詢整理的,如有雷同,合情合理,博主很誠實。 1.此技術分享實現Java程式從word文件中讀取文字內容儲存為字串,很簡單。 2.準備工作:poi的jar包,我用的是3.16版本,官網上下載就可以,找不到的可以留言聯絡我。

在ServletContextListener 的實現類中使用Spring @Value 註解的方式讀取配置檔案、或者注入Spring bean

在ServletContextListener 的實現類中 使用Spring @Value 註解的方式讀取配置檔案 我想向ServletContextListener中通過Spring @value 的方法讀取 properties 配置檔案資訊,但是我開始的方法不行 public class MyLi

java讀取csv檔案內容逗號分隔、回車換行文字

最近在做專案時需要每日更新大小額支援的銀行列表資訊,該檔案從核心下載,並使用java專案解析放到資料庫中,該檔案是文字檔案,一行為一條記錄,記錄中以逗號分隔欄位,欄位以雙引號包裹,起初以這種規則自己寫一個小程式也能用,於是寫了幾句程式碼,確實能執行解析出大部分內容,但有些特

讀取文字檔案內容Java FileChannel

import java.io.IOException; import java.io.RandomAccessFile; import java.nio.ByteBuffer; import java.nio.channels.FileChannel; /** * 讀取文字檔案內容(Ja

java 4種方式讀取配置檔案 + 修改配置檔案

方式一:採用ServletContext讀取,讀取配置檔案的realpath,然後通過檔案流讀取出來。 因為是用ServletContext讀取檔案路徑,所以配置檔案可以放入在web-info的classes目錄中,也可以在應用層級及web-info的目錄中。檔案存放位置具

JAVA用DOM方式讀取xml檔案

Status.xml<?xml version="1.0" encoding="UTF-8"?><StatuList>    <Statu id="1">        <id>1</id>        <n

【LeetCode-面試算法經典-Java實現】【059-Spiral Matrix II螺旋矩陣II

mod 最大 http 計算 spiral tro parent 全部 matrix 【059-Spiral Matrix II(螺旋矩陣II)】 【LeetCode-面試算法經典-Java實現】【全部題目文件夾索引】 原題   Given

System V訊息佇列實現檔案伺服器跨網路

可能是定時的部分有問題吧,導致客戶端無法接收資料,不過我感覺思想是沒錯的。。。先pull上吧,以後發現錯誤再改 參考資料:UNP卷二 message.h #ifndef _MESSAGE_H #define _MESSAGE_H #include<stdio.h> #i

POI 追加寫入word文件,POI如何寫入word文件親測有效POI報錯Fail to save: an error occurs while saving the package

一、POI寫入word文件 首先參考W3Shool的教程(上述快速指南)的“Apache POI Word - 文件”一節,對於建立文件和寫入段落都有清晰的闡釋。我不再贅述。但是其寫入段落的方式每次都會覆蓋曾經寫入的內容。那麼經過我探索一番要這麼處理... 二、POI

檢視.tar.gz檔案內容需要解壓

伺服器上的日誌大多數都是對幾天前的日誌進行tar.gz壓縮(例如:7天前的日誌),而有的時候我們需要檢視歷史日誌,且又不想解壓該日誌,這時,我們可以使用下面的方法實現: zcat ttbrain-re

【LeetCode-面試演算法經典-Java實現】【165-Compare Version Numbers比較版本號

原題   Compare two version numbers version1 and version2.   If version1 > version2 return

利用poi操作word文件針對docx格式

一:認識POI  Apache POI是一個開源的利用Java讀寫Excel、WORD等微軟OLE2元件文件的專案。最新的3.5版本有很多改進,加入了對採用OOXML格式的Office 2007支援,如xlsx、docx、pptx文件。  POI主頁:poi.apache.org/  二:POI3.5相關下載

dedecms 呼叫三級欄目下文章的內容固定id

{dede:channelartlist type='reid' } {dede:arclist titlelen='42' row='2' flag="i" isweight="Y" orderby='weight'} <div class="con"> <a href=

Oracle中,用一條Sql實現任意的行轉列拼接是decode

說明一下測試環境:Oracle9i,有朋友說10g上測試結果不正確,本人沒有條件,所以無法進行測試 表結構和資料如下(表名Test): NO VALUE  NAME 1       a       測試1 1       b       測試2 1       c       測試3 1       d 

Linux 相關學習內容定期更新

## Linux 主要目錄 | / | 根目錄,在 linux 下有且只有一個根目錄,所有的東西都是從這裡開始 | | ----------- | ------------------------------------------------------------ | | /bin

五種方式讓你在java讀取properties檔案內容不再是難題

一、背景   最近,在專案開發的過程中,遇到需要在properties檔案中定義一些自定義的變數,以供java程式動態的讀取,修改變數,不再需要修改程式碼的問題。就藉此機會把Spring+SpringMVC+Mybatis整合開發的專案中通過java程式讀取properties檔案內容的方式進行了梳理和分析

java讀取excel檔案內容,並將讀取到的內容寫入到另一檔案

需要匯入的jar包下載地址https://pan.baidu.com/s/16cTpUfx0KvKkbGYkXAUKMA 程式碼:ReadExcel.java //信1605-3 20163432 張運濤 package domain; import java.io.File; im

Java 讀取Excel 檔案內容

在一個專案中,有一個需求,是把excel檔案的內容轉換為xml格式展示。在學習如何操作的過程中,首先是如何獲取excel檔案,其中操作的程式碼如下: 1.首先是匯入需要的 jar, 下載地址: 2.程式碼實現: package com.apusic; import org.apache.po

java Api 讀取HDFS檔案內容

package dao; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import java.io.*; public class HDFSApi { /** * 讀取檔案內

java讀取excel檔案內容

import java.io.FileInputStream; import java.io.InputStream; import java.text.SimpleDateFormat; import java.util.ArrayList; import java.util.List;