JAVA正則解析Pattern.compile(regex)出現java.util.regex.PatternSyntaxException

阿新 • • 發佈：2018-12-11

問題

最近線上專案出現了java.util.regex.PatternSyntaxException，專案也沒什麼改動，除了特殊
字元表的字符集由於原來是utf8編碼的字符集,不支援4個位元組的字元，修改成了utf8mb4位元組,其餘
的也沒什麼改動.異常原因如下

異常貼圖

在這裡插入圖片描述

解析

private void everyMsgInDB(List<MessageSampleMsg> msgs,String speCharRegex,Map<String, String> varWordMap){
	...省略
	content = DataFormat. 
removeSpeChar(content, speCharRegex); //問題在這
	...省略
}

public static String removeSpeChar(String content, String regex) {
	Pattern p = Pattern.compile(regex);	//最終問題確定在這裡
	Matcher matcher = p.matcher(content);
	return matcher.replaceAll("");
}

到這發現原來問題出現在組裝的regex,看下面regex的組裝

public static String getSpeCharRegex 
(Connection conn) {
		SpecialCharDao specialCharDao = DaoFactory.getSpecialCharDao();
		List<String> spchars = null;

		try {
			spchars = specialCharDao.getAll(conn);//這是獲取所有的特殊字元
		} catch (SQLException e) {
			log.error("特殊字元查詢失敗", e);
		}

		StringBuffer sbf = new StringBuffer();
		//將每個特殊字元用或和轉義字元去拼接 

		for (String spchar : spchars) {
			sbf.append("\\").append(spchar).append("|");
		}
		return sbf.substring(0, sbf.length() - 1);
	}
}

拼接好的regex如圖一所示,那麼為什麼\ying這裡會出現異常呢？接下來分析下
Pattern.conpile(String regex)原始碼，下面的原始碼是JDK1.8

//1.
public static Pattern compile(String regex) {
	return new Pattern(regex, 0);
}
//2.
private Pattern(String p, int f) {
	pattern = p;
	flags = f;	//這裡flags == 0

	//0 & 任何數都 == 0,這裡可忽略
	if ((flags & UNICODE_CHARACTER_CLASS) != 0)
		flags |= UNICODE_CASE;

	//可忽略
	capturingGroupCount = 1;
	localCount = 0;
	//這個pattern就是前面傳進來的字串【\ying】
	if (pattern.length() > 0) {
		//然後到這裡面
		compile();
	} else {
		root = new Start(lastAccept);
		matchRoot = lastAccept;
	}
}
//3.
private void compile() {
	...省略
	temp = new int[patternLength + 2];//這裡temp是字元的ASCII碼對應的十進位制數

	// 這裡是組裝temp陣列,見下面的temp陣列貼圖
	for (int x = 0; x < patternLength; x += Character.charCount(c)) {
		c = normalizedPattern.codePointAt(x);
		if (isSupplementary(c)) {
			hasSupplementary = true;
		}
		temp[count++] = c;
	}

	...省略

	if (has(LITERAL)) {
		matchRoot = newSlice(temp, patternLength, hasSupplementary);
		matchRoot.next = lastAccept;
	} else {
		// 來到遞迴下降解析
		matchRoot = expr(lastAccept);
	}
	
	...省略
}
//4.
private Node expr(Node end) {

	...省略

	for (;;) {
		//會到這裡
		Node node = sequence(end);
		Node nodeTail = root; // double return
		...省略
	}
	...省略
}
//5.
private Node sequence(Node end) {
	...省略
	LOOP: for (;;) {
		//前面的temp為{92,121,105,110,103},這裡會拿到ch == 92
		//對應的ASCII為\\
		int ch = peek();
		switch (ch) {
		...省略
		//所以匹配到了這裡
		case '\\':
			//到這裡看一下下一個是不是還要跳過
			//下一個為121，對應的ASCII為y
			ch = nextEscaped();
			if (ch == 'p' || ch == 'P') {
				boolean oneLetter = true;
				boolean comp = (ch == 'P');
				ch = next(); // Consume { if present
				if (ch != '{') {
					unread();
				} else {
					oneLetter = false;
				}
				node = family(oneLetter, comp);
			//所以來到這裡
			} else {
				//這一步是讓指標往前回退一會
				//即這時,指標來到了92的位置
				unread();
				//然後來到這裡
				node = atom();
			}
			break;
		...省略
	}
}

//6.繼續下來
private Node atom() {
	int first = 0;
	...省略
	int ch = peek();
	for (;;) {
		switch (ch) {
		...省略
		//因為前面指標回退,所以匹配到了這裡
		case '\\':
			ch = nextEscaped();
			if (ch == 'p' || ch == 'P') {
				if (first > 0) {
					unread();
					break;
				} else { 
					boolean comp = (ch == 'P');
					boolean oneLetter = true;
					ch = next(); 
					if (ch != '{')
						unread();
					else
						oneLetter = false;
					return family(oneLetter, comp);
				}
			}
			unread();
			prev = cursor;
			//然後來到這裡
			//這裡進去的引數為false,true,false
			ch = escape(false, first == 0, false);
			...省略
}

private int escape(boolean inclass, boolean create, boolean isrange) {
    //這裡是讓指標指向y，還記得前面指標已經回退到\了嗎
	int ch = skip();
	//下面的switch如果是return就沒問題
	//如果是break就要丟擲異常了,程式就中斷了
	switch (ch) {
		case '0':
			return o();
		case '1':
		case '2':
		case '3':
		case '4':
		case '5':
		case '6':
		case '7':
		case '8':
		case '9':
			if (inclass)
				break;
			if (create) {
				root = ref((ch - '0'));
			}
			return -1;
		...省略
		case 'l':
		//這裡也有問題
		case 'm':
			break;
		case 'n':
			return '\n';
		//看這裡,如果是o,p,q會被break,就會到最一行丟擲異常
		case 'o':
		case 'p':
		case 'q':
			break;
		...省略
		case 'w':
			if (create)
				root = has(UNICODE_CHARACTER_CLASS) ? new Utype(UnicodeProp.WORD) : new Ctype(ASCII.WORD);
			return -1;
		case 'x':
			return x();
		//還記得我是的\ying,這裡匹配的是y所以丟擲異常
		//到這裡算是找到問題的根源了
		case 'y':
			break;
		case 'z':
			if (inclass)
				break;
			if (create)
				root = new End();
			return -1;
		default:
			return ch;
	}
	throw error("Illegal/unsupported escape sequence");
}

下圖是 int[] temp 對應的陣列
在這裡插入圖片描述

結論

如果要通過以下方式進行正則匹配一定要注意,加轉移字元的時候一定要注意,注意字元後面一定不要跟a-zA-Z0-9否則有可能造成異常的出現。

public static String removeSpeChar(String content, String regex) {
	Pattern p = Pattern.compile(regex);
	Matcher matcher = p.matcher(content);
	return matcher.replaceAll("");
}

所以程式碼修改了一下。

public static String getSpeCharRegex(Connection conn) {
		SpecialCharDao specialCharDao = DaoFactory.getSpecialCharDao();
		List<String> spchars = null;

		try {
			spchars = specialCharDao.getAll(conn);
		} catch (SQLException e) {
			log.error("特殊字元查詢失敗", e);
		}

		StringBuffer sbf = new StringBuffer();
		for (String spchar : spchars) {
			//添加了這麼一句
			//如果字元不是以A-Za-z0-9之間的需要新增轉移字元
			if(!spchar.matches("[A-Za-z0-9]*")){
				sbf.append("\\");
			}
			sbf.append(spchar).append("|");
		}
		return sbf.substring(0, sbf.length() - 1);
	}

JAVA正則解析Pattern.compile(regex)出現java.util.regex.PatternSyntaxException

問題最近線上專案出現了java.util.regex.PatternSyntaxException，專案也沒什麼改動，除了特殊字元表的字符集由於原來是utf8編碼的字符集,不支援4個位元組的字元，修改成了utf8mb4位元組,其餘的也沒什麼改動.異常原因如下異常貼圖

nginx日誌解析：java正則解析

背景：日誌從nginx產生，並實時寫入kafka佇列中，為了便於對海量日誌資料進行離線分析，我們一般將日誌存放到hdfs下，然後通過hive建立外部表使用HQL進行資料統計分析。而要使hive能夠識別日誌資訊，我們必須將日誌內容結構化。將日誌資訊解析成hive能識別的格

Java正則表示式pattern和matches

package com.lks.regex; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * * @author lks * @time 2016年6月6日下午11:02

Java正則表示式Pattern和Matcher的一般用法

一.方法說明: find()方法是部分匹配，在部分匹配時和完全匹配時返回true，匹配不上返回false。如果該匹配的串有組還可

Java正則表達式Pattern和Matcher類

false lines round 表達 -a 嘗試 cas target 大小轉載自--小魚兒是壞蛋（原文鏈接）概述 Pattern類的作用在於編譯正則表達式後創建一個匹配模式. Matcher類使用Pattern實例提供的模式信息對正則表達式進行匹配

java正則表示式中出現空格

在正則表示式中是可以使用空格的，儘管空格可以用 \s表示。在java正則中，我初次遇到帶有空格的正則時可謂是一臉懵B，當時就提出疑問，java中的空格不是可以用\s來表示嗎？隨後我測試了一下，程式碼如下，一目瞭然。 public class TheBlankSpace { publ

java正則表示式解析

“正則表示式”到用時方恨少！學習正則表示式，我覺得還是要循循漸進，由易到難，一點點深入......（本人也在學習中這裡提供個人理解思路，以及一些大神們的獨到講解。。。。。。）一、知道java正則表示式是幹什麼的? 百度百科定義：其實這已經說得很明確了，正則表示式其實就是一

JAVA正則表示式：Pattern類與Matcher類詳解

java.util.regex是一個用正則表示式所訂製的模式來對字串進行匹配工作的類庫包。它包括兩個類：Pattern和Matcher Pattern 一個Pattern是一個正則表示式經編譯後的表現模式。 Matcher 一個Matcher物件是一個狀態機器，它依據Pattern物件做為匹

利用java正則表示式來解析並獲取指定的字串

Java的正則表示式不僅可以用來匹配驗證字串是否符合標準型別，還可以用來解析字串，獲取自己想要得到的資料。在java.util.regex包下提供了系列的類來對字串進行匹配。來看一下下面的例子： public static String parse (String s)

JAVA正則表示式：Pattern類與Matcher類詳解(轉)

java.util.regex是一個用正則表示式所訂製的模式來對字串進行匹配工作的類庫包。它包括兩個類：Pattern和Matcher Pattern 一個Pattern是一個正則表示式經編譯後的表現模式。 Matcher 一個Matcher物件是一個狀態機器，它依據Pattern物件做為匹配模式對字串展開匹

java正則表達式匹配文本中想要的字符串

本地文件則表達式 red mpi col ade cnblogs ges div 需求:獲取一個本地文件中所有符合 $[MAKE_PACKAGE] 格式的字符串,並輸出到另一個文件中. public static void main(String[] args) thr

java正則中的requireEnd和hitEnd

java req rst imp logs 表示 import 導致分析　　 package test; import java.util.regex.Matcher; import java.util.regex.Pattern; public class ma

java正則表達式總結

trac 鏈接地址 fontsize 點擊 post set .net reg 頁面近期用到的正則表達式因為近期在做一個android的新聞client。多次用到了正則表達式。因此總結下。 1.使用正則表達式獲取Rss資源內的文章內容的圖片url 由於在每條新聞瀏覽

關於JAVA正則匹配空白字符的問題(全角空格與半角空格)

轉義空白測試 rgs com text color 如何 clas 今天遇到一個字符串，怎麽匹配空格都不成功！！！我把空格復制到test.properties文件顯示“\u3000” ，這是什麽？這是全角空格！！！查了一下 \s

最全的手機號、郵箱java正則表達式

sem java ava pub matches 正則判斷 java正則 email格式 //判斷手機格式是否正確public static boolean isMobileNO(String mobiles) { Pattern p = Pattern.compi

java正則：忽略大小寫匹配

pac 忽略 void class bsp case println spa .org import java.util.regex.Matcher; import java.util.regex.Pattern; import com.sun.org.apache.x

Java正則表達式學習

間隔 source 適用於 bject i++ 正則 ase canonical ole 因為正則表達式是一個很龐雜的體系，此例僅舉些入門的概念，更多的請參閱相關書籍及自行摸索。 \\ 反斜杠 \t 間隔 (‘\u0009‘) \n 換行 (‘\u000A‘) \r 回車

java正則以什麽開始，以什麽結束

java void color 裏的 find() main bsp regex 一個 public class RegTest { public static void main(String[] args){ String regex

java正則匹配

java 成功 println 字符示例代碼括號 lan string main java正則提取需要用到Matcher類，下面給出案例示例供參考需要提取車牌號中最後一個數字，比如說：蘇A7865提取5，蘇A876X提取6import java.util.regex.M

Java正則表達式校驗

import pri span 表達式校驗適用於 [] pub port 1 package com.study.string; 2 3 import java.util.regex.Matcher; 4 import java.util.regex.Pat

JAVA正則解析Pattern.compile(regex)出現java.util.regex.PatternSyntaxException

問題

異常貼圖

解析

結論

相關推薦