计算最多k次包含某些字符的不同子字符串(1)

📌 相关文章

📜 计算最多k次包含某些字符的不同子字符串(1)

📅 最后修改于: 2023-12-03 14:57:31.450000 🧑 作者: Mango

计算最多k次包含某些字符的不同子字符串

在字符串处理中，经常会遇到计算包含某些字符的不同子字符串的数量的问题，特别是当需要设置一些限制条件，如最多出现k次等。下面介绍一种基于动态规划思想的解法。

解法

状态定义

定义一个二维数组$dp[i][j]$，表示在以第$i$个字符结尾且包含字符集合$j$的不同子字符串的数量。

状态转移

若字符$s_i$未出现在字符集合$j$中，则$dp[i][j]$等于$dp[i-1][j]$；
若字符$s_i$出现在字符集合$j$中，则$dp[i][j]$等于$dp[i-1][j]$加上以字符$s_i$结尾且包含字符集合$j$的不同子字符串的数量。这里可以使用类似滑动窗口的技巧，用另外一个变量$cnt_j$记录$j$中字符出现的次数，然后用$i$减去该字符上一次出现的位置$p$作差即可计算以字符$s_i$结尾且包含字符集合$j$的不同子字符串的数量，即为$i-p-cnt_j+1$，其中$c$为字符集合$j$中字符的总数。

$$ dp[i][j] =\left{ \begin{aligned} dp[i-1][j], & s_i \notin j \ dp[i-1][j]+i-p-c+1, & s_i \in j, cnt_j < k \end{aligned} \right. $$

初始状态

由于当$i=1$时不存在前驱状态，因此需要设置一个初始状态。此处将$dp[1][s_1]$置为1，其他为0，其中$s_1$为字符串的第一个字符。

求解结果

最终的答案即为$dp[n][0\text{至}2^L-1]$的和，其中$L$为字符集合的大小，$n$为字符串的长度。

代码实现

下面是Python3版本的实现代码：

def count_substrings(s: str, k: int, char_set: str) -> int:
    n = len(s)
    L = len(char_set)
    # 将字符集合转化为位掩码
    char_mask = {char_set[i]: 1 << i for i in range(L)}
    # 记录每个字符上一次出现的位置和出现次数
    last_pos = {char_set[i]: -1 for i in range(L)}
    cnt = 0
    dp = [[0] * (1 << L) for _ in range(n + 1)]
    # 设置初始状态
    dp[1][char_mask[s[0]]] = 1
    for i in range(2, n + 1):
        # 先复制上一行的状态
        for j in range(1 << L):
            dp[i][j] = dp[i - 1][j]
        # 计算新的状态
        if s[i - 1] in char_set:
            mask = char_mask[s[i - 1]]
            p = last_pos[s[i - 1]]
            cnt += 1
            if cnt > k:
                # 若字符出现次数超过k，则将最早出现的字符位置后面的状态置为0
                for j in range(1 << L):
                    dp[p + 1][j & ~mask] = 0
            # 更新状态
            for j in range(1 << L):
                if j & mask:
                    continue
                dp[i][j | mask] += i - p - bin(j).count('1')
            last_pos[s[i - 1]] = i - 1
    # 统计结果
    res = 0
    for j in range(1 << L):
        if bin(j).count('1') <= k:
            res += dp[n][j]
    return res

函数的输入参数为字符串$s$、整数$k$和字符集合$char_set$，输出$s$中最多出现$k$次且包含字符集合$char_set$的不同子字符串的数量。

总结

本文介绍了一种计算最多k次包含某些字符的不同子字符串的数量的解法，并给出了Python3版本的实现。这种解法复杂度为$O(n2^L)$，其中$L$为字符集合的大小，空间复杂度为$O(n2^L)$，可以在较短的时间内处理长度为几千的字符串。