寫程式很難之去除字串的空白字元

阿新 • • 發佈：2019-01-25

在做效能調優時，用JProfiler測試Web應用的效能，發現有個replaceBlank函式佔用了10%的CPU時間，進去看了下，是個簡單的用正則去除XML文件裡空白字串的功能。但是這個簡單功能卻消耗了10%的效能。

在Web應用裡，去掉空白字串，似乎是個簡單的功能，但是真正寫起來，卻也有些麻煩事。總結下。

方式一：正則表示式

有兩種寫法：

s.replaceAll("\\s+", "");
s.replaceAll("\\s", "");

至於具體哪一種比較好，和具體的場景有有關。有連續空白字串的選擇每一種，如果是空白字串都只有一個的話，就選擇第二種。個人傾向於第一種。

正則表示式是比較慢的，比下面的方法要慢3到4倍以上。

方式二：org.springframework.util.StringUtils.trimAllWhitespace

具體的實現程式碼如下：

	public static String trimAllWhitespace(String str) {
		if (!hasLength(str)) {
			return str;
		}
		StringBuilder sb = new StringBuilder(str);
		int index = 0;
		while (sb.length() > index) {
			if (Character.isWhitespace(sb.charAt(index))) {
				sb.deleteCharAt(index);
			}
			else {
				index++;
			}
		}
		return sb.toString();
	}

看起來，沒有什麼問題，但是程式設計師的直覺：deleteCharAt函式是怎麼實現的？應該不會有什麼高效的演算法可以實現這樣的。

果然，實現程式碼如下：

    public AbstractStringBuilder deleteCharAt(int index) {
        if ((index < 0) || (index >= count))
            throw new StringIndexOutOfBoundsException(index);
        System.arraycopy(value, index+1, value, index, count-index-1);
        count--;
        return this;
    }

顯然，過多地呼叫System.arraycopy會有效能問題。

方式三：改為呼叫StringBuilder.append 函式

	static public String myTrimAllWhitespace(String str) {
		if (str != null) {
			int len = str.length();
			if (len > 0) {
				StringBuilder sb = new StringBuilder(len);
				for (int i = 0; i < len; ++i) {
					char c = str.charAt(i);
					if (!Character.isWhitespace(c)) {
						sb.append(c);
					}
				}
				return sb.toString();
			}
		}
		return str;
	}

這個是最開始的思路。實際測試了下，發現大部分情況上，要比方式二效率高。

但是在某些情況，比如"aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa aaaaaaaaaaaaaaaaaaaa"，這種只有一個空白字元的，效率要慢。

方式四：結合二，三，只用System.arraycopy複製部分記憶體

第二種方式，在呼叫deleteAt時，要整個拷貝後面的所有字串，顯然在字串很長的情況下，效率會降低。於是考慮只複製部分記憶體。

用兩種pos來標記哪一部分是連續的非空白字串。

	static public String myTrimAllWhitespace3(String str) {
		if (str != null) {
			int len = str.length();
			if (len > 0) {
				char[] src = str.toCharArray();
				char[] dest = new char[src.length];

				int destPos = 0;
				for (int pos1 = 0, pos2 = 0; pos2 < src.length;) {
					if (Character.isWhitespace(src[pos2])) {
						if (pos1 == pos2) {
							pos1++;
							pos2++;
						} else {
							System.arraycopy(src, pos1, dest, destPos, pos2
									- pos1);
							destPos += (pos2 - pos1);
							pos2++;
							pos1 = pos2;
						}
					} else {
						pos2++;
					}

					if (pos2 == src.length) {
						if (pos1 != pos2) {
							System.arraycopy(src, pos1, dest, destPos, pos2
									- pos1);
							destPos += (pos2 - pos1);
						}
						return new String(dest, 0, destPos);
					}
				}
			}
		}
		return str;
	}

方式五：去掉StringBuilder，直接操作char[]

在寫完方式四，之後，測試發現效率在中間，和方式二，三相比，不好也不壞。似乎找到了一個平衡點。

但是忽然想到，既然在方式四中不直接操作char[]陣列，為何不在方式二也這麼做？於是有了：

	static public String myTrimAllWhitespace2(String str) {
		if (str != null) {
			int len = str.length();
			if (len > 0) {
				char[] dest = new char[len];
				int destPos = 0;
				for (int i = 0; i < len; ++i) {
					char c = str.charAt(i);
					if (!Character.isWhitespace(c)) {
						dest[destPos++] = c;
					}
				}
				return new String(dest, 0, destPos);
			}
		}
		return str;
	}

第六點：Unicode

上面的幾種方式都只能處理大部分的情況，對於部分Unicode字串，可能會有問題。

因為本人對這個比較敏感，最後寫了個Unicode字元的處理：

	static public String myTrimAllWhitespace3(String str) {
		if (str != null) {
			int len = str.length();
			if (len > 0) {
				char[] src = str.toCharArray();
				char[] dest = new char[src.length];

				int destPos = 0;
				for (int pos1 = 0, pos2 = 0; pos2 < src.length;) {
					if (Character.isWhitespace(src[pos2])) {
						if (pos1 == pos2) {
							pos1++;
							pos2++;
						} else {
							System.arraycopy(src, pos1, dest, destPos, pos2
									- pos1);
							destPos += (pos2 - pos1);
							pos2++;
							pos1 = pos2;
						}
					} else {
						pos2++;
					}

					if (pos2 == src.length) {
						if (pos1 != pos2) {
							System.arraycopy(src, pos1, dest, destPos, pos2
									- pos1);
							destPos += (pos2 - pos1);
						}
						return new String(dest, 0, destPos);
					}
				}
			}
		}
		return str;
	}

這個處理Unicode的非常慢。。Java的String類並沒有暴露足夠多的函式來處理Unicode，所以處理起來很蛋疼。

總結：

測試程式碼在：

我的電腦上測試最快的程式碼是方式五里的。

可能在某些特殊情況下，方式四中用System.arraycopy來複制標記兩段記憶體會快點，但這個演算法太複雜了，得不償失。

本人傾向於符合直覺，而且效率線性的演算法。

給Spring提了個path，一開始是方式三的程式碼，但是在某些情況下效率不高，導致週末心神不寧。。於是就有了後面的幾種方式。

一個簡單的功能，直正實現起來卻也不容易，所以我儘量避免寫Util類和方式，因為保證程式碼的質量，效能，不是一件容易的事。

寫程式很難之去除字串的空白字元

在做效能調優時，用JProfiler測試Web應用的效能，發現有個replaceBlank函式佔用了10%的CPU時間，進去看了下，是個簡單的用正則去除XML文件裡空白字串的功能。但是這個簡單功能卻消耗了10%的效能。在Web應用裡，去掉空白字串，似乎是個簡單的功能，但是

程式設計師修神之路--做好分庫分表其實很難之二（繼續送書）

菜菜哥，上次聽你給我講了分庫的情況後，我明白了很多，能再給我講講分表嗎有收穫就好，分表其實有很多情況和分庫類似還有不一樣的情況嗎？有呀，本來資料庫和表是不同層面的東西，肯定有差異那你給講講唄講可以，一杯coffee如何？為什麼分在正式開始之前，菜菜還是要強調一點，你的資料表是否應該

敲代碼非常難之去除字符串的空白字符

builder 平衡點 for cep 算法麻煩 length 拷貝 n) 在做性能調優時，用JProfiler測試Web應用的性能。發現有個replaceBlank函數占用了10%的CPU時間。進去看了下，是個簡單的用正則去除XML文檔裏空白字符串的功能。可是這個簡

小程式跳坑之JSON字串轉換JSON物件

常見的JSON字串轉換有很多，這裡只講我遇到過的小程式中用到的轉換。通常我們在小程式中用到的地方是，請求一個數據表或者請求一個介面，拿到了一堆資料，裡面包含有各種欄位陣列，頭像，圖片，詳情，地址，位置

讀寫分離很難嗎？springboot結合aop簡單就實現了

目錄前言環境部署開始專案注意參考：前言入職新公司到現在也有一個月了，完成了手頭的工作，前幾天終於有時間研究下公司舊專案的程式碼。在研究程式碼的過程中

python 去除字串某個字元

使用python去除字串中的某個字元 s = '12345/.txt' # 先將字串轉化為list tmp = list(s) # 刪除字串中的倒數第5位，在s中就是'/' tmp[-5] = ''

java去除首尾空白字元（帶全形）

@org.junit.Test public void test3() throws IOException { String strCom="　　以禁止女兵穿低腰褲　　"; //定義字串,帶全形的空格 String st

小演算法：給定兩個字串，請編寫程式，確定其中一個字串的字元重新排列後，能否變成另一個字串s首先

（1）題目描述給定兩個字串，請編寫程式，確定其中一個字串的字元重新排列後，能否變成另一個字串。這裡規定大小寫為不同字元，且考慮字串重點空格。給定一個string stringA和一個string stringB，請返回一個bool，代表兩串是否重新排列後可相同。保證

mysql 去除前後空白字元

在資料庫匯入excel中資料時，經常會出現一些空格或者其他特殊字元導致資料無法查詢，我們都知道 trim(field) 可以消除欄位前後的空格，但是如何消除空白的特殊字元呢： update table set field = replace(replace(rep

程式設計師修神之路--做好分庫分表其實很難之一（繼續送書）

菜哥，領導讓我開發新系統了這麼說領導對你還是挺信任的呀~ 必須的，為了設計好這個新系統，資料庫設計我花了好多心思呢做一個系統我覺得不應該從資料庫入手，應該從設計業務模型開始，先不說這個，說說你的資料庫設計的優勢為了高效能我首先設計了分庫分表策略，為以後打下基礎那你的資料量將來會很大嗎？分庫

一名3年工作經驗的程式設計師應該具備的技能（寫得很好，果斷轉）因為和同事有約定再加上LZ自己也喜歡做完一件事之後進行總結，因此有了這篇文章。這篇文章大部分內容都是面向整個程式設計師群體的，當然因為LZ本身是做Java開發的，因此有一部分內容也是專門面向咱們Java程式設計師的。

因為和同事有約定再加上LZ自己也喜歡做完一件事之後進行總結，因此有了這篇文章。這篇文章大部分內容都是面向整個程式設計師群體的，當然因為LZ本身是做Java開發的，因此有一部分內容也是專門面向咱們Java程式設計師的。簡單先說一下，LZ座標杭州，13屆本科畢業，算上年前在阿

寫程式很難之去除字串的空白字元

方式一：正則表示式

方式二：org.springframework.util.StringUtils.trimAllWhitespace

方式三：改為呼叫StringBuilder.append 函式

方式四：結合二，三，只用System.arraycopy複製部分記憶體

方式五：去掉StringBuilder，直接操作char[]

第六點：Unicode

總結：

寫程式很難之去除字串的空白字元

程式設計師修神之路--做好分庫分表其實很難之二（繼續送書）

敲代碼非常難之去除字符串的空白字符

小程式跳坑之JSON字串轉換JSON物件

讀寫分離很難嗎？springboot結合aop簡單就實現了

python 去除字串某個字元

java去除首尾空白字元（帶全形）

小演算法：給定兩個字串，請編寫程式，確定其中一個字串的字元重新排列後，能否變成另一個字串s首先

mysql 去除前後空白字元

程式設計師修神之路--做好分庫分表其實很難之一（繼續送書）

高考數學快速解題之高中數學真的很難嗎？？？

Java 去除字串中的空白字元

轉新型的按鍵掃描程式（轉）長按短按寫的很棒

程式設計師入職螞蟻金服第一天就想離職，網友：出去容易再進很難

看看60萬程式設計師怎麼評論：為什麼很難聘到前端工程師？

”linux學習之路” （感覺寫的很好，更像是網路程式設計學習路線圖）

過年車票很難買？資深Python程式猿表示不服！

想進BAT面試的Java程式設計師看完這個你們還覺得offer很難拿嗎？？？

爬蟲驗證碼很難嗎？自動識別驗證碼程式瞭解一下？

寫程式很難之去除字串的空白字元

方式一：正則表示式

方式二：org.springframework.util.StringUtils.trimAllWhitespace

方式三：改為呼叫StringBuilder.append 函式

方式四：結合二，三，只用System.arraycopy複製部分記憶體

方式五：去掉StringBuilder，直接操作char[]

第六點：Unicode

總結：

相關推薦