Leetcode演算法——30、尋找所有詞語拼接而成的子串

阿新 • • 發佈：2018-11-08

給定一個字串s、一個數組words，裡面每個元素都是一個詞語，所有詞的長度相等。

在s中尋找所有子串的索引，子串需要是words中每個詞首尾拼接而成，詞之間沒有其他字元插入，詞的拼接順序沒有要求。

示例：

Example 1:
Input:
  s = "barfoothefoobarman",
  words = ["foo","bar"]
Output: [0,9]
Explanation: Substrings starting at index 0 and 9 are "barfoor" and "foobar" respectively.
The output order does not matter, returning [9,0] is fine too.

Example 2:
Input:
  s = "wordgoodstudentgoodword",
  words = ["word","student"]
Output: []

思路

1、暴力法

由於每個詞長度相等，因此每次取出子串的長度是固定的，而且很容易計算出所有詞語拼接起來的長度。假設所有詞拼接起來的長度為 len。

定義一個指標，從左往右遍歷s，每次遍歷都判斷當前指標開始往後的長度為 len 的子串是否符合要求：

對子串按照詞語長度進行切分，分成候選詞語，候選詞語的個數為陣列 words 的詞語個數。
對於每一個候選詞語，都與陣列 words 中的詞語進行匹配，如果正好可以一一匹配上，則說明符合要求。

小技巧：

可以將words中的每個詞的個數提前統計出來，每次匹配上一個，個數-1，直至所有的詞的個數都變為0，則說明匹配成功。

2、改進版

當某個分詞匹配不上words時，所有包含這個分詞的子串肯定都是不符合要求的，可以迅速忽略掉。

比如一個子串 ‘aaabbbccc’，被切分成了3個候選詞語 ‘aaa’,‘bbb’,‘ccc’，然後依次與words中的詞語進行匹配，結果發現words中並沒有 ‘ccc’ 這個詞語，於是這個子串匹配失敗。

但是我們還可以獲得一個資訊，就是當指標繼續向右移動3次，需要判斷 ‘bbbcccddd’ 這個子串是否符合要求時，
我們可以迅速知道肯定是不符合要求的，因為這個子串也會切分出 ‘ccc’ 這個詞語。

關鍵點在於，是指標向右移動 3 次之後的子串可以迅速判斷不符合要求，這個 3 便是每個詞語的長度。

因此，從當前指標開始，到匹配不上的候選詞語的起始位置結束，這之間的子串，按照詞語長度進行切割，得到每個詞語的起始位置，以這些位置開頭的子串都不符合條件，可以迅速略過。

python實現

import copy
import re

def findSubstring(s, words):
    """
    :type s: str
    :type words: List[str]
    :rtype: List[int]
    暴力法。
    """
    if not s or not words:
        return []
    
    l_word = len(words[0]) # 每個詞的長度
    l_total = l_word * len(words) # 所有詞拼接起來的長度
    
    if len(s) < l_total: # s長度小於所有詞拼接起來的長度
        return []
    
    # 統計words中的詞頻
    word_count_dict = dict()
    for word in words:
        if word in word_count_dict:
            word_count_dict[word] += 1
        else:
            word_count_dict[word] = 1
    
    # 遍歷s
    result = []
    for i in range(0, len(s) - l_total + 1):
        cur_dict = copy.copy(word_count_dict)
        split_list = re.findall(f'.{{{l_word}}}', s[i:i+l_total]) # 按詞長度切割子串
        for split_word in split_list:
            if split_word in cur_dict: # 可以匹配上words中的某個詞
                if cur_dict[split_word] > 1: # 次數-1
                    cur_dict[split_word] -= 1
                else:
                    cur_dict.pop(split_word)
                # 如果詞典為空，則說明全部匹配了一遍
                if not cur_dict:
                    result.append(i)
            else: # 匹配不上，說明當前子串不合格
                break
    return result

def findSubstring2(s, words):
    """
    :type s: str
    :type words: List[str]
    :rtype: List[int]
    改進版。
    當某個分詞匹配不上words時，所有包含這個分詞的子串肯定都是不符合要求的，可以迅速忽略掉。
    """
    if not s or not words:
        return []
    
    l_word = len(words[0]) # 每個詞的長度
    l_total = l_word * len(words) # 所有詞拼接起來的長度
    
    if len(s) < l_total: # s長度小於所有詞拼接起來的長度
        return []
    
    # 統計words中的詞頻
    word_count_dict = dict()
    for word in words:
        if word in word_count_dict:
            word_count_dict[word] += 1
        else:
            word_count_dict[word] = 1
    
    # 遍歷s
    result = []
    ignore_idx_set = set() # 肯定不符合要求的索引
    for i in range(0, len(s) - l_total + 1):
        if i in ignore_idx_set:
            continue
        cur_dict = copy.copy(word_count_dict)
        for j in range(0, len(words)): # 每次遍歷子串的一個分詞
            split_word_start = i + j*l_word # 分詞的起始索引
            split_word = s[split_word_start : split_word_start + l_word] # 子串的第j個分詞
            if split_word in cur_dict: # 可以匹配上words中的某個詞
                if cur_dict[split_word] == 0: # 次數已經用盡，說明此詞是多餘的，子串不符合要求
                    break
                cur_dict[split_word] -= 1
                if j == len(words) - 1: # 已經遍歷完最後一個分詞，說明子串符合要求
                    result.append(i)
            else: # 分詞不存在於words中，則所有包含這個分詞的子串都肯定不符合要求
                k = i + l_word # 包含這個分詞的子串的起始位置
                while(k <= split_word_start):
                    ignore_idx_set.add(k)
                    k += l_word
                break
    return result

if '__main__' == __name__:
    s = "wordgoodgoodgoodbestword"
    words = ["word","good","best","good"]
    print(findSubstring2(s, words))

Leetcode演算法——30、尋找所有詞語拼接而成的子串

給定一個字串s、一個數組words，裡面每個元素都是一個詞語，所有詞的長度相等。在s中尋找所有子串的索引，子串需要是words中每個詞首尾拼接而成，詞之間沒有其他字元插入，詞的拼接順序沒有要求。示例： Example 1: Input: s = "barfoothef

Leetcode演算法——41、尋找缺失的正數

給定一個亂序的整數陣列，找到最小的缺失的正整數。示例： Example 1: Input: [1,2,0] Output: 3 Example 2: Input: [3,4,-1,1] Output: 2 Example 3: Input: [7,8,9,11,12] Ou

Leetcode演算法——35、查詢可插入位置

給定一個升序陣列和一個目標值，返回目標值的索引。如果不存在，返回目標值按照順序應該插入到的位置。假設陣列中沒有重複元素。示例： Example 1: Input: [1,3,5,6], 5 Output: 2 Example 2: Input: [1,3,5,6],

Leetcode演算法——34、有序陣列查詢元素的首尾位置

給定一個升序整數陣列，找到一個目標值的起始和結束位置。如果目標值不存在，則返回 [-1,-1]。示例： Example 1: Input: nums = [5,7,7,8,8,10], target = 8 Output: [3,4] Example 2: Input:

Leetcode演算法——33、查詢有序旋轉陣列

給定一個數組，這個陣列是由一個升序陣列進行左旋或右旋若干次得到的。比如，[0,1,2,4,5,6,7] 可能會變為 [4,5,6,7,0,1,2] 給定一個目標值，去陣列中查詢這個值。如果找到，則返回索引，否則返回-1。可以假設陣列中沒有重複值。示例： Exampl

Leetcode演算法——32、最長有效括號字串

給定一個字串，只包含’(‘和’)’。要求找到最長的有效的子串。 Example 1: Input: “(()” Output: 2 Explanation: The longest valid parentheses substring is “()” Example 2:

Leetcode演算法——31、下一個序列

給定一個序列，按照字典序，輸出下一個序列，使得到的新陣列的字典序恰好大於原陣列。如果不存在這樣的排列，就將原陣列從小到大排序。替換必須就地進行，不要分配額外的記憶體。示例： 1,2,3 → 1,3,2 3,2,1 → 1,2,3 1,1,5 → 1,5,1 思路

Leetcode演算法——40、組合之和II

給定一個數組 candidates 和一個目標數 target，找到 candidates 中所有可以使數字之和等於 target 的組合。陣列中的每個元素只可以使用一次。備註：陣列的元素和目標值都是正數。答案中不能有重複組合。 Example 1: Input: c

Leetcode演算法——39、組合之和

給定一個無重複元素的陣列 candidates 和一個目標數 target，找到 candidates 中所有可以使數字之和等於 target 的組合。 candidates 中的數字可以無限制重複被選取。備註：陣列的元素和目標值都是正數。答案中不能有重複組合。示例：

Leetcode演算法——38、數數並說

數數並說序列是一個整數序列，第二項起每一項的值為對前一項的記數，其前五項如下： 1 11 21 1211 111221 1 讀作 “1個1”，即 11 11 讀作 “兩個1”，即 21 21 讀作 “一個2，一個1”，即 1211 給定一

Leetcode演算法——37、求解數獨

編寫程式，來求解一個數獨問題。一個數獨的答案必須滿足以下規則： 1-9的每個數字都必須在每一行中都只出現一次 1-9的每個數字都必須在每一列中都只出現一次 1-9的每個數字都必須在每一個3*3的小方塊中都只出現一次空格子用.表示。思路

Leetcode演算法——36、判斷有效數獨

判斷一個 9*9 的數獨面板是否是有效的。如果已經被填充的數字滿足以下條件，則說明是有效的：每一行只能包含無重複數字1-9 每一列只能包含無重複數字1-9 每一個 3*3 的子面板只能包含無重複數字1-9 備註：一個有效的數獨面板（

Leetcode演算法——49、字串分組（group anagrams）

給定一個字串陣列，將所有字串分組，每一組的字串包含的字元相同但是順序不同。示例：輸入: ["eat", "tea", "tan", "ate", "nat", "bat"], 輸出: [ ["ate","eat","tea"], ["nat","tan"], ["bat

Leetcode演算法——48、全排列II

給定一系列數字，可能會包含重複數字，返回所有可能的唯一的排列。示例： Input: [1,1,2] Output: [ [1,1,2], [1,2,1], [2,1,1] ] 思路本題與上一題 Leetcode演算法——46、全排列很相似，不同之處在於

Leetcode演算法——46、全排列

給定一個無重複整數陣列，返回所有可能的排列。示例： Input: [1,2,3] Output: [ [1,2,3], [1,3,2], [2,1,3], [2,3,1], [3,1,2], [3,2,1] ] 思路 1、字典序法使用字典

Leetcode演算法——45、跳躍遊戲II

給定一個非負整數的陣列，每一個元素表示從當前位置開始跳躍一次的最大長度。你一開始站在第一個索引的位置。你的目標是用最少的跳躍次數到達最後一個索引位置。輸出跳躍次數。備註：假設肯定可以跳到最後一個位置。示例： Input: [2,3,1,1,4] Output

Leetcode演算法——55、跳躍遊戲

給定一個非負整數的陣列，每一個元素表示從當前位置開始跳躍一次的最大長度。你一開始站在第一個索引的位置。判斷你是否可以跳躍到最後一個索引位置。示例： Example 1: Input: [2,3,1,1,4] Output: true Explanation: Jum

Leetcode演算法——44、正則式匹配

給定一個輸入字串 s 和一個模式字串 p，實現正則匹配，支援’?‘和’*’。規則： ‘?’ 可以匹配任何單個字元 ‘*’ 可以匹配任何字元的序列（包括空序列）需要匹配整個輸入字串 s，不能部分匹配。備註：字串 s 只會包含小寫 a

Leetcode演算法——43、字串相乘

給定兩個非負整數字符串 num1 和 num2，返回兩個數的乘積字串。備註：兩個整數字符串的長度都 < 110。兩個數都只包含數字 0-9。兩個數都不以0開頭，除非整個字串就是0. 不能使用任何內建的大整數庫，不能將輸入字串直接轉為整數。

Leetcode演算法——42、雨水容量

給定n個非負整數，代表一個高程地圖，每個整數表示一個擋板，擋板高度為整數值，擋板寬度均為1（即擋板都是緊挨的，之間沒有縫隙）。計算下雨之後，整體可以儲存多少水。示例：輸入：height = [0,1,0,2,1,0,1,3,2,1,2,1] 輸出：6 解釋：高度圖如下：

Leetcode演算法——30、尋找所有詞語拼接而成的子串

思路

1、暴力法

2、改進版

python實現

相關推薦