從字首樹談到字尾樹

阿新 • • 發佈：2019-01-26

前一陣看的資料結構比較多，剛好放假沒事，把一些我認為重要的寫成部落格記錄下來。

今天主要看的是樹中的兩個比較重要的資料結構

字首樹和字尾樹

這兩個樹的應用特別廣，但是我認為常看課外技術書籍的，部落格的都知道，但是一些專注於課本的同學可能就沒聽說過了。比如我們的課本 - -。

開始吧 ^_^

先說下字首字尾的概念吧。

比如單詞apple。app和appl是單詞的字首，ple和pple是單詞的字尾，字首必須從開頭字元起，結尾不定，字尾必須以末尾字元結尾，起點不限制。

一.字首樹

簡述：又名單詞查詢樹，tries樹，一種多路樹形結構，常用來操作字串（但不限於字串），和hash效率有一拼（二者效率高低是相對的，後面比較）。

性質：不同字串的相同字首只儲存一份。

操作：查詢，插入，刪除。

舉個例子：

假設有這麼幾個單詞

（1）

把它存入一棵字首樹後

（2）

給出的單詞都是a字母開頭的，所以儲存時他們可以共用開頭字母a，接下來b字母有3個，所以它們可以共用一個字母b。

也就是說相同的字首每個字母可以共用一個空間，我有1000個a開頭的字母，那麼它們也只需要一個空間a即可。

比如上圖abdh和abdi這兩個，也只有h和i不用而已。

從（1）（2）圖片我們可以看出字首樹相對來說是非常節省空間的，比如上面兩個圖片，（1）用陣列儲存18個空間，（2）只用了10個空間。（資料量大會忽略指標域所佔空間的）。

除了節省空間外它的查詢效率也是非常高的，只需要O(logL), L是單詞的長度。一般來說我們的單詞長度都不會太長吧，就那常見的來說也就20or30？

1.查詢操作：

上面的圖片只是簡單的例子，如果我們用陣列來實現的話，樹根應該是一個空節點，它有指標域指向單詞的所有開頭字母也就是a-z。

按照字串的每個字元來比較，比如abdi，a符合，然後比較第二個字母是b，繼續比較直到末尾...

查詢操作還是很簡單的。

有個疑問就是上面圖片中有abdh這個單詞，我們怎麼知道有沒有abd或者ab這個單詞呢，畢竟它也在這棵字首樹中。

簡單，我們只需要給每個節點增加一個引用計數即可，比如有1000個a開頭的字母，那麼a的應用計數就是1000，ab開頭的有999個，那麼b的引用計數就是999，

可見b的引用計數小於a，所以存在單詞a，那麼得出結論：

某個字串在字首樹中的結尾字母的引用計數如果大於末節點的下一個節點的引用計數（大1），說明存在此單詞。

2.插入操作：

依次比較經過的每一個字母，如果字母存在，則給字母的引用計數加1，如果該字母不存在，直接從該字母開始到此字串的末尾的每一個字母

連線到這棵字首樹上。

3.刪除操作：

依次比較經過的每一個字母，給所經過的每個字母的引用計數值減1，如果該引用計數值為0的話，則刪除此節點，此節點往後的節點也刪除，

因為必定都屬於這個單詞。

4.重點：字首樹的應用

字首樹還是很好理解，但是它的應用是非常廣的。

<1.字串的快速檢索

前面也說了字典樹的查詢時間複雜度是O(logL)，L是字串的長度。所以效率還是比較高的。

前面說了字典樹的效率和hash表有一拼，這裡來分析下，網上的一部分文章說的都是字典樹的效率比hash表高。我覺得還是相對來看比較好，各有個的特點吧。

hash表，通過hash函式把所有的單詞分別hash成key值，查詢的時候直接通過hash函式即可，都知道hash表的效率是非常高的為O(1)，直接說字典樹的查詢效

率比hash高，難道有比O(1)還快的- -。

hash：

當然對於單詞查詢，如果我們hash函式選取的好，計算量少，且衝突少，那單詞查詢速度肯定是非常快的。那如果hash函式的計算量相對大呢，且衝突律高呢？

這些都是要考慮的因素。且hash表不支援動態查詢，什麼叫動態查詢，當我們要查詢單詞apple時，hash表必須等待使用者把單詞apple輸入完畢才能hash查詢。

當你輸入到appl時肯定不可能hash吧。

字典樹（tries樹）：

對於單詞查詢這種，還是用字典樹比較好，但也是有前提的，空間大小允許，字典樹的空間相比較hash還是比較浪費的，畢竟hash可以用bit陣列。

那麼在空間要求不那麼嚴格的情況下，字典樹的效率不一定比hash若，它支援動態查詢，比如apple，當用戶輸入到appl時，字典樹此刻的查詢位置可以就到達l這個

位置，那麼我在輸入e時光查詢e就可以了（更何況如果我們直接用字母的ASCII作下標肯定會更快）！字典樹它並不用等待你完全輸入完畢後才查詢。

所以效率來講我認為是相對的。

<2.字串排序

從上圖（2）我們很容易看出單詞是排序的，先遍歷字母序在前面的比如abdh，然後abdi。

減少了沒必要的strcmp

這個很好理解。

<3.最長公共字首

abdh和abdi的最長公共字首是abd，遍歷字典樹到字母d時，此時這些單詞的公共字首是abd。

<4.自動匹配字首顯示字尾

我們使用辭典或者是搜尋引擎的時候，輸入appl，後面會自動顯示一堆字首是appl的東東吧。

那麼有可能是通過字典樹實現的，前面也說了字典樹可以找到公共字首，我們只需要把剩餘的字尾遍歷顯示出來即可。^_^

二.字尾樹

簡介：字尾樹，就是把一串字元的所有後綴儲存並且壓縮的字典樹。相對於字典樹來說，字尾樹並不是針對大量字串的，而是針對一個或幾個字串來解決問題，

比如字串的迴文子串，兩個字串的最長公共子串等等，後面應用會說。

性質：一個字串構造了一棵樹，樹中儲存了該字串所有的字尾。

操作：就是建立和應用。

1.建立字尾樹

比如單詞banana，它的所有後綴顯示到下面的。1代表從第一個字元為起點，終點不用說都是字串的末尾。

以上面的字尾，我們建立一顆字尾樹。如下圖，為了方便看到字尾，我沒有合併相同的字首

（3）

前面簡介的時候我們說了，字尾樹是把一個字串所有後綴壓縮並儲存的字典樹。

壓縮一會再說，簡介裡面說了是字典樹，所以我們把字串的所有後綴還是按照字典樹的規則建立，就成了上圖（3）的樣子。

注意還是和字典樹一樣，根節點必須為空。

下面說下更加節省空間的方案，也就是上面提到的壓縮。

（4）

因為有些字尾串可能是單串，並不和其他的共用同一個字首。

比如圖（4）的banana這個字尾串，直接可以用1來表示起點，終點是預設的。

圖（4）的a節點後面有兩個節點標記3和5是右邊字元陣列的下標，對應著a->3-7，a->5-7。因為a是共有的字首。

2.重點說下字尾樹的應用,它能解決大多數字符串的問題

<1.查詢某個字串s1是否在另外一個字串s2中

這個很簡單，如果s1在字串s2中，那麼s1必定是s2中某個字尾串的字首。

理解以下字尾串的字首這個詞，其實每個字尾串也就是起始地點不同而已，字首也就是從開頭開始結尾不定。

字尾串的字首就可以組合成該原先字串的任意子串了。

比如banana，anan是anana這個字尾串的字首。

<2.指定字串s1在字串s2中重複的次數

看圖（3），比如說banana是s1，an是s2，那麼計算an出現的次數實際上就是看an是幾個字尾串的字首。

上圖的a節點是儲存所有起始為a字母的字尾串，我們看a字母后的n字母的引用計數即可。

先說下廣義字尾樹，前面說了字尾樹可以儲存一個或多個字串，當儲存的字串數量大於等於2時就叫做廣義字尾樹。

<3.兩個字串S1，S2的最長公共部分（廣義字尾樹）

建立一棵廣義字尾樹，如下圖（5）

（5）

$和#是為了區分字串的。

我們為每個字尾串末尾單獨新增一個空間儲存區分字串的符號。

那麼怎麼找s1和s2串最長的公共部分？

遍歷每個字尾串，如果其引用計數為1則直接跳過，因為不可能有兩個子串存放在這裡，當引用計數>1時，往下遍歷，直到分叉分別記錄子串的符號，

如果不同，說明他們是不同字串的，記錄已經匹配的值即可，若相同繼續下一次遍歷。

上圖的ana部分，到ana時，子串$結束，然後繼續向下，子串anab以#結束，那麼匹配了ana。

<4.最長迴文串（廣義字尾樹）

把要求的最長迴文串的字串s1和它的反向（逆）字串s2建立一棵廣義字尾樹。

迴文串有一個定義就是正反相同，也就是正著和反著可以重和在一起，那麼我們直接看這棵廣義字尾樹的共同字首即可，每個banana的子串和ananab的子串重合的部分

都是迴文串，我們只需要找到最長的即可。比如上面的anana，從後面不同的標記可以看出兩個字串的某個字尾都有這個字首，能完美重合到一起。即它是迴文串。

記錄Max，每次找到一個迴文串比較即可。

字首樹( 又名：TRIE樹、單詞查詢樹、字典樹) 和字尾樹(Suffix樹)

概念字首樹：將海量字串儲存在一棵樹中。字尾樹：將一個字串分解成一棵樹。字首樹節點的結構體： struct trieNode { bool isEnd;//是否可以作為字串的終結節點 trieNode *child[26]; } 字首樹：

字典樹-字首樹和字尾樹

1 引言今天主要看的是樹中的兩個比較重要的資料結構——字首樹和字尾樹。在此之前，先來看兩個問題。（參考部落格：從Trie樹（字典樹）談到字尾樹） 1.1 問題１一個文字檔案，大約有一萬行，每行一個詞，要求統計出其中最頻繁出現的前10個詞，請給出思想，給出

Trie樹和字尾樹講解及應用

在pongba的討論組上看到一道Amazon的面試題：找出給定字串裡的最長迴文。例子：輸入XMADAMYX。則輸出MADAM。這道題的流行解法是用字尾樹（Suffix Tree)。這坨資料結構最酷的地方是用它能高效解決一大票複雜的字串程式設計問題： 1.在文

字典樹，字尾樹

Trie樹定義Trie樹，即字典樹，又稱單詞查詢樹或鍵樹，是一種樹形結構，是一種雜湊樹的變種。典型應用是用於統計和排序大量的字串（但不僅限於字串），所以經常被搜尋引擎系統用於文字詞頻統計。它的優點是：最大限度地減少無謂的字串比較，查詢效率比雜湊表高。Trie的核心思想是空間換

從字首樹談到字尾樹

前一陣看的資料結構比較多，剛好放假沒事，把一些我認為重要的寫成部落格記錄下來。今天主要看的是樹中的兩個比較重要的資料結構字首樹和字尾樹這兩個樹的應用特別廣，但是我認為常看課外技術書籍的，部落格的都知道，但是一些專注於課本的同學可能就沒聽說過了。比如我們的課本 - -。

從Trie樹（字典樹）談到字尾樹

引言常關注本blog的讀者朋友想必看過此篇文章：從 B樹、B+樹、B*樹談到R 樹，這次，咱們來講另外兩種樹：Tire樹與字尾樹。不過，在此之前，先來看兩個問題。第一個問題：一個文字檔案，大約有一萬行，每行一個詞，要求統計出其中最頻繁出現的前10個詞，請

從Trie樹（字典樹）談到字尾樹（10.28修訂）

從Trie樹（字典樹）談到字尾樹說明：本文基本上是“整理”性質，致謝文末的參考文獻。引言常關注本blog的讀者朋友想必看過此篇文章：這次，咱們來講另外兩種樹：Tire樹與字尾樹。不過，在此之前，先來看兩個問題。第一個問題：一個文字檔

從B樹、B+樹、B*樹談到R 樹

pid class OS clas track popu gpo AI detail 地址：https://blog.csdn.net/v_JULY_v/article/details/6530142/ 從B樹、B+樹、B*樹談到R 樹

從MySQL Bug#67718淺談B+樹索引的分裂優化（轉）

原文連結：http://hedengcheng.com/?p=525 問題背景今天，看到Twitter的DBA團隊釋出了其最新的MySQL分支：Changes in Twitter MySQL 5.5.28.t9，此分支最重要的一個改進，就是修復了MySQL 的Bug #67718：In

從B樹 B 樹 B 樹談到R 樹

Unfortunately, the literature on B-trees is not uniform in its use of terms relating to B-Trees. (Folk & Zoellick 1992, p. 362) Bayer & McCreig

從B 樹、B+ 樹、B* 樹談到R 樹 ---從磁碟讀取考慮

用度定義的B樹針對上面的5點，再闡述下：B樹中每一個結點能包含的關鍵字（如之前上面的D H和Q T X）數有一個上界和下界。這個下界可以用一個稱作B樹的最小度數（演算法導論中文版上譯作度數，最小度數即內節點中節點最小孩子數目）m（m>=2）表示。每個非根的內結點至多有m個子

從B樹談到資料庫的索引實現原理

4、如果沒有顯式指定，則MySQL系統會自動選擇一個可以唯一標識資料記錄的列作為主鍵，如果不存在這種列，則MySQL自動為InnoDB表生成一個隱含欄位作為主鍵，這個欄位長度為6個位元組，型別為長整形

[ACM] hdu 5147 Sequence II （樹狀陣列，字首和，字尾和）

Sequence II Problem Description Long long ago, there is a sequence A with length n. All numbers in this sequence is no smaller than 1

從B 樹、B+ 樹、B* 樹談到R 樹

B樹的定義，從下文中，你將看到，或者是用階，或者是用度，如下段文字所述： Unfortunately, the literature on B-trees is not uniform in its use of terms relating to B-Trees. (Folk & Z

淺談 trie樹及事實上現

空間換時間字符串 arc com post pre 1.5 dsm back 定義：又稱字典樹，單詞查找樹或者前綴樹，是一種用於高速檢索的多叉樹結構。如英文字母的字典樹是一個26叉樹，數字的字典樹是一個10叉樹。核心思想：是空間換時間.利用字符串的公共前綴來

淺談線段樹

wid image print d+ 特殊 -c 區間修改更新 close 數據結構——線段樹 O、引例 A.給出n個數，n<=100，和m個詢問，每次詢問區間[l，r]的和，並輸出。一種回答：這也太簡單了，O（n）枚舉搜索就行了。

數據結構 - 從二叉搜索樹說到AVL樹（一）之二叉搜索樹的操作與詳解（Java）

判斷 right 不為 exist avl 輸入位置 bubuko get 　　二叉搜索樹（Binary Search Tree），簡稱BST，顧名思義，一顆可以用於搜索的二叉樹。BST在數據結構中占有很重要的地位，一些高級樹結構都是其的變種，例如AVL樹、紅黑樹等，因此

pku1743字尾樹組-4

http://poj.org/problem?id=1743 題意：給定n個數字，求著n個數字的一個“子串”，保證這個子串在原陣列中出現了至少2次，且這兩次不不出現重疊（而且這兩個子串不是完全相同，而是可以有一定的“跳躍”，比如1 2 3 4與7 8 9 10，前一個串的每個都元素加

zoj3395字尾樹組-2

http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=3971 題意：求一個數組中重複出現至少m次的最長字串。。。分析：二分答案進行判斷即可。。對每個判斷的長度，只需要看連續在這段裡面的heigh

pku3415字尾樹組-5

http://poj.org/problem?id=3415 題意：給定k和兩個串A,B，求長度不小於k的A和B的相同字串的對數。。。如1 xx xx總對數有A1-B1 A1-B2 A2-B1 A2-B2 A1A2-B1B2總共有5對。。。分析：這是字尾樹組挺

從字首樹談到字尾樹

相關推薦