String.split(),StringTokenizer,StringUtils.split()的原始碼分析與效能比較

阿新 • • 發佈：2018-12-09

他們都是用來對字串進行切割

String.split()：

從jdk1.4開始，通過正則表示式進行字串的匹配切割，有可能會丟擲 PatternSyntaxException異常，返回的是切割之後的字串陣列。

String 的split 有兩個過載的方法分別是

public String[] split(String regex, int limit) {

public String[] split(String regex) {  如果選擇只有regex這個引數的方法，預設會呼叫limit=0的上面的過載方法。

這倆有啥區別呢？看下limit的文件解釋：

The {@code limit} parameter controls the number of times the
* pattern is applied and therefore affects the length of the resulting
* array.  If the limit  is greater than zero then the pattern
* will be applied at most n-1 times, the array's
* length will be no greater than n, and the array's last entry
* will contain all input beyond the last matched delimiter.  If n
* is non-positive then the pattern will be applied as many times as
* possible and the array can have any length.  If n is zero then
* the pattern will be applied as many times as possible, the array can
* have any length, and trailing empty strings will be discarded.

首先limit的作用是用來控制切割次數的；

如果n>0，會通過這個pattern 對字串切割n-1次

如果n<0，會通過這個pattern 對字串切割儘可能的多次，有多少切多少。

如果n=0，會通過這個pattern 對字串切割儘可能的多次，但是，如果後面都是空字串的話，會拋棄掉

下面我們debug看一下不同limit的值的切割過程：

檢視split原始碼發現，split是根據regex 通過正則來匹配字串的，正則表示式必然涉及到regex的編譯，這其實是很耗時的。

StringUtils.split()

StringUtils的split有四個過載方法：

這個是按照空格進行切割的，如果字串為null的話，返回的是null，如果字串為空的話，返回是空陣列。

public static String[] split(final String str) {
    return split(str, null, -1);
}

* StringUtils.split(null)       = null
* StringUtils.split("")         = []
* StringUtils.split("abc def")  = ["abc", "def"]
* StringUtils.split("abc  def") = ["abc", "def"]
* StringUtils.split(" abc ")    = ["abc"]

這個是按照指定的字元進行切割，separatorChar預設為false ，這個不可以指定因為預設呼叫的私有方法splitWorker中引數separatorChar預設已經指定為為false，separatorChar為false表示相鄰的分隔符，作為一個，如果為true，分隔符將被作為空分割符。

public static String[] split(final String str, final char separatorChar) {
    return splitWorker(str, separatorChar, false);
}

* StringUtils.split(null, *)         = null
* StringUtils.split("", *)           = []
* StringUtils.split("a.b.c", '.')    = ["a", "b", "c"]
* StringUtils.split("a..b.c", '.')   = ["a", "b", "c"]
* StringUtils.split("a:b:c", '.')    = ["a:b:c"]
* StringUtils.split("a b c", ' ')    = ["a", "b", "c"]

這個是按照指定的字串進行切割，separatorChar預設為false ，注意，如果分隔符為null，則分隔符等同於“ ”

public static String[] split(final String str, final String separatorChars) {
    return splitWorker(str, separatorChars, -1, false);
}

* StringUtils.split(null, *)         = null
* StringUtils.split("", *)           = []
* StringUtils.split("abc def", null) = ["abc", "def"]
* StringUtils.split("abc def", " ")  = ["abc", "def"]
* StringUtils.split("abc  def", " ") = ["abc", "def"]
* StringUtils.split("ab:cd:ef", ":") = ["ab", "cd", "ef"]

這個是按照指定的字串進行切割，separatorChar預設為false ，注意，如果分隔符為null，則分隔符等同於“ ”，引數max用於指定返回的array中最多包含幾個元素。

public static String[] split(final String str, final String separatorChars, final int max) {
    return splitWorker(str, separatorChars, max, false);
}

* StringUtils.split(null, *, *)            = null
* StringUtils.split("", *, *)              = []
* StringUtils.split("ab cd ef", null, 0)   = ["ab", "cd", "ef"]
* StringUtils.split("ab   cd ef", null, 0) = ["ab", "cd", "ef"]
* StringUtils.split("ab:cd:ef", ":", 0)    = ["ab", "cd", "ef"]
* StringUtils.split("ab:cd:ef", ":", 2)    = ["ab", "cd:ef"]

StringTokenizer

其實看StringUtils的split的原始碼解釋的時候，發現第一句就是

* <p>Splits the provided text into an array, separators specified.
* This is an alternative to using StringTokenizer.</p>

所以說StringUtils 的split 是 StringTokenizer 的替代品。他們的用法完全可以相互實現。

StringTokenizer 有三個過載方法：

這個是按照預設的分隔符進行切割，預設有" \t\n\r\f"

public StringTokenizer(String str) {
    this(str, " \t\n\r\f", false);
}

這個是按照指定的分隔符delim進行切割

public StringTokenizer(String str, String delim) {
    this(str, delim, false);
}

這個是按照指定的分隔符進行切割，returnDelims 表示是否返回分隔符，並初始化一些引數

public StringTokenizer(String str, String delim, boolean returnDelims) {
    currentPosition = 0;
    newPosition = -1;
    delimsChanged = false;
    this.str = str;
    maxPosition = str.length();
    delimiters = delim;
    retDelims = returnDelims;
    setMaxDelimCodePoint();
}

下面是StringTokenizer 的demo

所以處於效能考慮呢？

肯定要麼使用StringTokenizer 要麼使用StringUtils

但是如果是我，我肯定選擇StringUtils，因為他倆完全可以相互替代，但是StringUtils 方式簡便很多。

String.split(),StringTokenizer,StringUtils.split()的原始碼分析與效能比較

他們都是用來對字串進行切割 String.split()：從jdk1.4開始，通過正則表示式進行字串的匹配切割，有可能會丟擲 PatternSyntaxException異常，返回的是切割之後的字串陣列。 String 的split 有兩個過載的方法分別是

gh0st原始碼分析與遠控的編寫(一)

再過幾天期末考試了，還有好多要複習。。蛋都快碎了。最近在看老狼的gh0st核心程式設計，想了很久要不要寫文章，最後還是覺得很有必要，原因過一會講。先送上老狼的gh0st無加密（lxe格式）視訊下載地址：

gh0st原始碼分析與遠控的編寫(四)

真的很久很久了，距離上一次寫gh0st的文章（http://www.mmcyy.com），過去有大半年了。總算有一個時間，我放下手裡所有的活，能夠繼續把這份努力延續下去。以後對於gh0st的文章，就是一個一個模組的分析。原本gh

gh0st原始碼分析與遠控的編寫(三)

好久不見。距離上次寫gh0st來有好久了，一是期末考試，忙不開，二是後來電腦壞了，幾天沒能上網。昨天總算是把電腦修好了，雖說沒到一切重頭開始的地步，但是也重灌各種東西花了很久。閒下來的時間，我就來繼續分析gh0st的原始碼吧。

gh0st原始碼分析與遠控的編寫(二)

上次說了那麼多，基本上就是一個叫“大局觀”的東西，只有腦子裡有了一個軟體的設計、執行思路，才能把一個一個類寫出來，組合在一起。 Gh0st的作者是一個對程式碼有很好掌控的人，他對程式碼的組合，類之間的關係，面向物件的思想有很深入的理解。而對我們看原始碼的人

redis原始碼分析與思考（十九）——AOF持久化

為了解決持久化檔案很龐大以及會阻塞伺服器的情況，redis提出一種新的持久化方案：AOF持久化。AOF持久化是redis儲存資料的另外一種方式，全稱Append Only File，與RDB持久化不同的是，AOF持久化是隻儲存從客戶端鍵入

redis原始碼分析與思考（十八）——RDB持久化

redis是一個鍵值對的資料庫伺服器，伺服器中包含著若干個非空的資料庫，每個非空資料庫裡又包含著若干個鍵值對。因為redis是一個基於記憶體存貯的資料庫，他將自己所存的資料存於記憶體中，如果不將這些資料及時的儲存在硬碟中，當電腦關機或者進行

redis原始碼分析與思考（十七）——有序集合型別的命令實現(t_zset.c)

有序集合是集合的延伸，它儲存著集合元素的不可重複性，但不同的是，它是有序的，它利用每一個元素的分數來作為有序集合的排序依據，現在列出有序集合的命令：有序集合命令命令對應操作時

redis原始碼分析與思考（十六）——集合型別的命令實現(t_set.c)

集合型別是用來儲存多個字串的，與列表型別不一樣，集合中不允許有重複的元素，也不能以索引的方式來通過下標獲取值，集合中的元素還是無序的。在普通的集合上增刪查改外，集合型別還實現了多個集合的取交集、並集、差集，集合的命令如下表所示：集合命

redis原始碼分析與思考（十五）——雜湊型別的命令實現(t_hash.c)

雜湊型別又叫做字典，在redis中，雜湊型別本身是一個鍵值對，而雜湊型別裡面也存貯著鍵值對，其對應關係是，每個雜湊型別的值對應著一個鍵值對或多對鍵值對，如圖所示：雜湊型別命令命令對應操

redis原始碼分析與思考（十四）——列表型別的命令實現(t_list.c)

列表型別是用來存貯多個字串物件的結構。一個列表可以存貯232-1個元素，可以對列表兩端進行插入(push)、彈出(pop)，還可以獲取指定範圍內的元素列表、獲取指定索引的元素等等，它可以靈活的充當棧和佇列的角色。下面列出列表的命令：列

redis原始碼分析與思考（十三）——字串型別的命令實現(t_string.c)

在對字串操作的命令中，主要有增加刪查該、批處理操作以及編碼的轉換命令，現在列出對字串物件操作的主要常用命令：常用命令表命令對應操作時間複雜度

SpringBoot SpringApplication底層原始碼分析與自動裝配

目錄丟擲問題 @SpringBootApplication註解剖析 SpringApplication類剖析第一步：配置SpringBoot Bean來源第二步：自動推斷SpringBoot的應用型別第三步：推斷SpringBoot的引導類第四

第07章常用類庫API_03_StringBuffer原始碼分析與常用方法

在實際開發當中，我們經常會使用到字串連線的操作，如果用String來操作，則使用“+”號完成字串的連線操作。使用String連線字串，程式碼效能會非常低，應為String的內容不可改變，解決這個問題的方法是使用StringBuffer。 St

redis原始碼分析與思考（三）——字典中鍵的兩種hash演算法

在Redis字典中，得到鍵的hash值顯得尤為重要，因為這個不僅關乎到是否字典能做到負載均衡，以及在效能上優勢是否突出，一個良好的hash演算法在此時就能發揮出巨大的作用。而一個良好的has

《Spark核心原始碼分析與開發實戰》讀書筆記之一

第1章 Spark系統概述 1.1 Spark是什麼 1. Spark比Hadoop快在哪裡（1）Spark使用記憶體計算，而Hadoop使用IO （2）Hadoop的計算是按部就班一步一步進行的，而Spark則是提前生成了DAG，優化了運算路徑 1.2 Sp

Libevent原始碼分析-----與event相關的一些函式和操作

Libevent提供了一些與event相關的操作函式和操作。本文就重點講一下這方面的原始碼。在Libevent中，無論是event還是event_base，都是使用指標而不會使用變數。實際上，如果檢視Libevent不同的版本，就可

redis原始碼分析與思考（八）——物件

談及物件，我們不免會立即聯想到Java、C++等面向物件的語言，而在C中是沒有物件這一說法的，為了方便管理與程式碼整體的優化，redis基於前面幾篇部落格的資料結構自建了一套物件系統。這個系統包含著字串物件、列表物件、雜湊物件、集合物件以及有序集合物件。

redis原始碼分析與思考（十七）——有序集合型別的命令實現(t_set.c)

有序集合是集合的延伸，它儲存著集合元素的不可重複性，但不同的是，它是有序的，它利用每一個元素的分數來作為有序集合的排序依據，現在列出有序集合的命令：有序集合命令命令對應操作時間複

結合原始碼分析==與equals與hashCode

.equals()與== equals是所有類都具有的方法，注意基本八種資料型別是不具備equals方法的，只有他們對應的包裝類才具備。 //Character public boolean equals(Object obj) { if

String.split(),StringTokenizer,StringUtils.split()的原始碼分析與效能比較

相關推薦