Java實現從Html文字中提取純文字

阿新 • • 發佈：2018-12-10

1、應用場景：從一份html檔案中或從String（是html內容）中提取純文字，去掉網頁標籤；

2、程式碼一：replaceAll搞定

//從html中提取純文字

public static String StripHT(String strHtml) {

String txtcontent = strHtml.replaceAll("</?[^>]+>", ""); //剔出<html>的標籤

txtcontent = txtcontent.replaceAll("<a>\\s*|\t|\r|\n</a>", "");//去除字串中的空格,回車,換行符,製表符

return txtcontent;

}

3、程式碼二：正則表示式搞定

//從html中提取純文字

public static String Html2Text(String inputString) {

String htmlStr = inputString; // 含html標籤的字串

String textStr = "";

java.util.regex.Pattern p_script;

java.util.regex.Matcher m_script;

java.util.regex.Pattern p_style;

java.util.regex.Matcher m_style;

java.util.regex.Pattern p_html;

java.util.regex.Matcher m_html;

try {

String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; // 定義script的正則表示式{或<script[^>]*?>[\\s\\S]*?<\\/script>

String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; // 定義style的正則表示式{或<style[^>]*?>[\\s\\S]*?<\\/style>

String regEx_html = "<[^>]+>"; // 定義HTML標籤的正則表示式

p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);

m_script = p_script.matcher(htmlStr);

htmlStr = m_script.replaceAll(""); // 過濾script標籤

p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);

m_style = p_style.matcher(htmlStr);

htmlStr = m_style.replaceAll(""); // 過濾style標籤

p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);

m_html = p_html.matcher(htmlStr);

htmlStr = m_html.replaceAll(""); // 過濾html標籤

textStr = htmlStr;

} catch (Exception e) {System.err.println("Html2Text: " + e.getMessage()); }

//剔除空格行

textStr=textStr.replaceAll("[ ]+", " ");

textStr=textStr.replaceAll("(?m)^\\s*$(\\n|\\r\\n)", "");

return textStr;// 返回文字字串

}

3、程式碼三：HTMLEditorKit.ParserCallback搞定，Java自帶的類

package com.util;

import java.io.*;

import javax.swing.text.html.*;

import javax.swing.text.html.parser.*;

public class Html2Text extends HTMLEditorKit.ParserCallback {

StringBuffer s;

public Html2Text() {}

public void parse(Reader in) throws IOException {

s = new StringBuffer();

ParserDelegator delegator = new ParserDelegator();

// the third parameter is TRUE to ignore charset directive

delegator.parse(in, this, Boolean.TRUE);

}

public void handleText(char[] text, int pos) {

s.append(text);

}

public String getText() {

return s.toString();

}

public static void main (String[] args) {

try {

// the HTML to convert

//Reader in=new StringReader("string");

FileReader in = new FileReader("java-new.html");

Html2Text parser = new Html2Text();

parser.parse(in);

in.close();

System.out.println(parser.getText());

}

catch (Exception e) {

e.printStackTrace();

}

}

Java實現從Html文字中提取純文字

1、應用場景：從一份html檔案中或從String（是html內容）中提取純文字，去掉網頁標籤； 2、程式碼一：replaceAll搞定 //從html中提取純文字 public static String StripHT(String strHt

java實現從url路徑中下載pdf文檔到本地

clas filename input 自己 lis pdf import tin -a package com.cellstrain.icell.util;import java.io.*;import java.net.*;public class DownloadPd

java 實現從無序陣列中找出第k大的數, 無序陣列充許有重複元素

要求找出第幾名的元素是什麼（找出B[i]的值）？找出第k名的元素的值。先從A中隨機一個下標index1，然後進行一趟快速排序等到新陣列A1，排完了就知道index1對應的元素在A1中的新下標index2. 如果k等於index2,則A1[index2]就是要找的值。如果 k小於in

C語言實現從一個字串中提取一個子字串

例如：編寫一個函式，它從一個字串中提取一個子字串。函式原型如下： int substr(char dst[], char src[],int start, int len) {} 目標是：從src陣列起始位置向後偏移start個字元的位置開始，最多複製len個非NULL字

利用keras中image.ImageDataGenerator.flow_from_directory()實現從資料夾中提取圖片和進行簡單歸一化處理

keras中有很多封裝好的API可以幫助我們實現對圖片資料的讀取和處理。比如： keras.preprocessing.image.ImageDataGenerator.flow_from_dir

從文字中提取圖片路徑（java 解析富文字處理 img 標籤）

很多專案都需要到富文字來新增內容，就好比新聞啊，旅遊景點之類的，都需要使用富文字去新增資料，然而怎麼我這邊就發現了兩個問題怎樣將富文字的圖片的 src 獲取出來？方法一：利用正則表示式： public static List<String> getImgStr(String h

HtmlParser提取網頁中的純文字資訊-java

HTMLParser 一個解析web頁面的開源類庫。準備學習下搜尋方面的技術，就學習了些網路爬蟲的知識。最近一直在一個點上困惑，如何提取一個網頁上的純文字資訊。要使用正則表示式的話呢，需要考慮很多因素，而且標籤也太多，不是很方便，效果也不好。就準備利用開源包，最後選擇了HtmlPar

使用Java從分層目錄中提取所有檔名

1.建立名為TestRecursiveDirectoryTraversal的主類 package testrecursivedirectorytraversal; import java.io.File; import java.util.HashSet; import

如何用Python從PDF檔案中提取文字詞彙

在日常工作中，有時可能需要解析一些 PDF 檔案，提取檔案中的關鍵詞，好讓它們能夠被我們搜尋。解決這個問題的重要部分就是找到如何從 PDF 檔案中提取文字資料的方法。從如果是幾張或者幾十張倒還好辦，那要是幾百幾千張，可能就有點麻煩了。幸好我們可以用 Python 完成這項工作。下面就分享

要求從使用者輸入的多行文字中提取學生的姓名、學號及登入日期，並封裝到 Student 類中作為類的私有屬性。建立一個 Student 型別的物件陣列，對學號進行升序排序並輸出

/*從鍵盤輸入多行文字，格式如下：學生端名稱,姓名,班級名稱,學生 ID,註冊時間姜濤,姜濤,,20092212232,2011-11-4 9:06:56 任超,任超,,20092212239,2011-11-4 9:06:56 楊陽,楊陽,,20092212302,20

要求從使用者輸入的多行文字中提取學生的姓名、學號及登入日期，並封裝到 Student 類中作為類的私有屬性。建立一個Student型別的物件陣列，對學號進行升序排序並輸出。

/*部落格網站設定了校驗密碼的規則，編寫方法檢驗一個字串是否是合法的密碼。規則如下：  密碼長度在8-16之間  密碼只能包含字母和數字  密碼必須存在至少2個數字如果使用者輸入的密碼符合規則就顯示valid password，否則提示Invalid passwor

用java實現從txt文字檔案批量匯入資料至資料庫

今天同事讓我準備一個專案的測試資料，要向一個表中插入上千條記錄，並且保證每條記錄內容不同，如果用手工一條一條插入肯定是不可能，也不會有哪個SB去做這樣的事，我最開始想到了用迴圈，但要求插入的記錄內容不能相同，用迴圈實現比較麻煩，於是我想到了將記錄從文字檔案匯入至資料庫（其實

從文本中提取圖片路徑（java 解析富文本處理 img 標簽）

element load select 方法 info 正則項目 lis new 很多項目都需要到富文本來添加內容，就好比新聞啊，旅遊景點之類的，都需要使用富文本去添加數據，然而怎麽我這邊就發現了兩個問題怎樣將富文本的圖片的 src 獲取出來？方法一：利用正則表達式

java實現從一個數據庫查詢資料經過處理匯入另外一個數據庫中

當資料庫表中有clob欄位或要對錶中資料做較複雜處理時就不太好用指令碼從一個數據庫匯入資料到另外一個數據庫中了，這時就要通過程式碼實現了，下面以orale資料庫為例程式碼如下： import java.sql.Connection; import j

基於Zlib實現的從ZIP檔案中提取檔案資料

[cpp] view plaincopyprint? ZEXTRACT_API int GetFileInZip(CMemBuffer& buffer,constchar* zfn,constchar* fname,constchar* password){ unzFile uf = u

從文字中提取身份證號碼

需要從一段文字中獲取身份證號碼的個數，具體程式碼如下： string testtext = "來所反映情況的報警人（男，XXXXXX）報警稱其老婆（女，身份證號碼：41XXXXXXXX，戶籍地址：河南省洛陽洛寧縣長水鄉，身高：150cm，身材偏瘦，馬尾辮）於2018年5

java實現從M個元素中取N個元素的所有組合(數學中的組合問題)

package reverse; public class Cat {public static void main(String[] args) {int[] s = {4, 2, 1, 3, 0, 5};String tmp = "";for(int i=1;i<

Java把Html格式文字轉換成純文字的問題

工作上需要把一段html內容轉換成純文字。最簡單的辦法，是用正則表示式把全部的標籤替換成空字串，然後把被轉義的內容（尖括號，空格等）轉回來。這裡用到了StringEscapeUtils，來自Apache Commons Lang library (commons-lang

從文字中提取特定資訊

嘗試了兩種方法，正則表示式提取效果更佳 #! /usr/bin/env python # -*- coding: utf-8 -*- ''' 方法1：採用位置引數來提取，效果不佳 ''' ##file_data=[] ##with open('待處理文字.txt',en

pandas 利用正則表示式從文字中提取數字

需要從text特徵中提取形如 13.5/10 這樣的字串，再分別提取分子分母。 1）可以利用 str.extract() 方法。 2）利用正則表示式 \d+\.?\d*\/\d+ 進行匹配 3）再

Java實現從Html文字中提取純文字

相關推薦