472. 连接词 : 序列 DP(字符串哈希优化)应用题

简介: 472. 连接词 : 序列 DP(字符串哈希优化)应用题

网络异常,图片无法展示
|

题目描述



这是 LeetCode 上的 472. 连接词 ,难度为 困难


Tag : 「字符串哈希」、「序列 DP」


给你一个 不含重复 单词的字符串数组 words ,请你找出并返回 words 中的所有 连接词 。


连接词 定义为:一个完全由给定数组中的至少两个较短单词组成的字符串。


示例 1:


输入:words = ["cat","cats","catsdogcats","dog","dogcatsdog","hippopotamuses","rat","ratcatdogcat"]
输出:["catsdogcats","dogcatsdog","ratcatdogcat"]
解释:"catsdogcats" 由 "cats", "dog" 和 "cats" 组成; 
     "dogcatsdog" 由 "dog", "cats" 和 "dog" 组成; 
     "ratcatdogcat" 由 "rat", "cat", "dog" 和 "cat" 组成。
复制代码


示例 2:


输入:words = ["cat","dog","catdog"]
输出:["catdog"]
复制代码


提示:


  • 1 <= words.length <= 10^41<=words.length<=104
  • 0 <= words[i].length <= 10000<=words[i].length<=1000
  • words[i]words[i] 仅由小写字母组成
  • 0 <= sum(words[i].length) <= 10^50<=sum(words[i].length)<=105


序列 DP + 字符串哈希



给定数组 wordswords,先考虑如何判断某个 s = words[i]s=words[i] 是否为「连接词」。


为了方便,我们称组成 s 的每个连接部分为 item


举个 🌰,例如 s = abc,其可能的 item 组合为 abc


判断单个字符串是否为连接词可使用动态规划求解:定义 f[i]f[i] 为考虑 s 的前 ii 个字符(令下标从 11 开始),能够切分出的最大 item 数的个数。


这里之所以采用「记录 f[i]f[i] 为最大分割 item 数(int 类型动规数组)」,而不是「记录 f[i]f[i] 为是否可由多个 item 组成(bool 类型动规数组)」,是因为每个 s = words[i]s=words[i] 至少可由自身组成,采用 bool 记录状态的话,最终 f[n]f[n] 必然为 True,需要额外处理最后一个状态,干脆记录最大分割数量好了。此时如果 s 为「连接词」必然有 f[n] > 1f[n]>1


不失一般性的考虑 f[i]f[i] 该如何转移:假设 f[i]f[i] 可由 f[j]f[j] 转移而来(其中 j < ij<i),那么能够转移的充要条件为 f[j] != 0f[j]!=0 且子串 s[(j + 1)..i]s[(j+1)..i]wordswords 出现过


其中枚举 iijj 的复杂度已经去到 O(n^2)O(n2) 了,如果常规通过 HashMap 等数据结构判断某个字符串是否存在,执行哈希函数时需要对字符进行遍历,整体复杂度去到了 O(n^3)O(n3),会 TLE


我们通过「字符串哈希」方式来优化判断某个子串是否存在于 wordswords 中。


具体的,在判断每个 s = words[i]s=words[i] 是否为为连接词前,先对 wordswords 进行遍历,预处理每个 words[i]words[i] 的哈希值,并存入 HashSet 中,这样我们将「判断某个子串是否存在于 wordswords」的问题转化为「判断某个数值是否存在于 Set 当中」。


又由于 我们在计算某个子串 s 的哈希值时,是从前往后处理每一位的 s[i]s[i],因此在转移 f[i]f[i] 时,我们期望能够从前往后处理子串,这是常规的从 [0, i - 1][0,i1] 范围内找可转移点 f[j]f[j] 无法做到的


所以 我们调整转移逻辑为:从 f[i]f[i] 出发,枚举范围 [i + 1, n][i+1,n],找到可由 f[i]f[i] 所能更新的状态 f[j]f[j],并尝试使用 f[i]f[i] 来更新 f[j]f[j]。转移方程为:


f[j] = \max(f[j], f[i] + 1)f[j]=max(f[j],f[i]+1)


当然,能够转移的前提条件为 f[i]f[i] 为有效值,且子串 s[(i + 1), j]s[(i+1),j]wordswords 出现过。


一些细节:为了方便,我们定义 f[i] = -1f[i]=1 为无效状态;


另外由于字符串哈希会产生哈希碰撞,这里在计算哈希值的时候,修改了一下哈希计算方式(额外增加了一个 OFFSET),当时的目的是想在电脑没电前 AC,而另一个更加稳妥的方式是使用双哈希,或是干脆记录某个哈希值对应了哪些字符串。


代码:


class Solution {
    Set<Long> set = new HashSet<>();
    int P = 131, OFFSET = 128;
    public List<String> findAllConcatenatedWordsInADict(String[] words) {
        for (String s : words) {
            long hash = 0;
            for (char c : s.toCharArray()) hash = hash * P + (c - 'a') + OFFSET;
            set.add(hash);
        }
        List<String> ans = new ArrayList<>();
        for (String s : words) {
            if (check(s)) ans.add(s);
        }
        return ans;
    }
    boolean check(String s) {
        int n = s.length();
        int[] f = new int[n + 1];
        Arrays.fill(f, -1);
        f[0] = 0;
        for (int i = 0; i <= n; i++) {
            if (f[i] == -1) continue;
            long cur = 0;
            for (int j = i + 1; j <= n; j++) {
                cur = cur * P + (s.charAt(j - 1) - 'a') + OFFSET;
                if (set.contains(cur)) f[j] = Math.max(f[j], f[i] + 1);
            }
            if (f[n] > 1) return true;
        }
        return false;
    }
}
复制代码


  • 时间复杂度:令 nnwordswords 数组长度,N = \sum_{i = 0}^{n - 1}words[i].lengthN=i=0n1words[i].length,根据数据范围 NN 最大为 1e51e5。预处理出 Set 的复杂度为 O(N)O(N);会对所有 words[i]words[i] 执行 check 操作,复杂度为 O((words[i].length)^2)O((words[i].length)2),总的计算量最大值为 O(N^2)O(N2),由于存在剪枝,实际上达不到该计算量
  • 空间复杂度:O(n + \max(words[i].length))O(n+max(words[i].length))


最后



这是我们「刷穿 LeetCode」系列文章的第 No.472 篇,系列开始于 2021/01/01,截止于起始日 LeetCode 上共有 1916 道题目,部分是有锁题,我们将先把所有不带锁的题目刷完。


在这个系列文章里面,除了讲解解题思路以外,还会尽可能给出最为简洁的代码。如果涉及通解还会相应的代码模板。


为了方便各位同学能够电脑上进行调试和提交代码,我建立了相关的仓库:github.com/SharingSour…


在仓库地址里,你可以看到系列文章的题解链接、系列文章的相应代码、LeetCode 原题链接和其他优选题解。

相关文章
|
1天前
|
弹性计算 关系型数据库 微服务
基于 Docker 与 Kubernetes(K3s)的微服务:阿里云生产环境扩容实践
在微服务架构中,如何实现“稳定扩容”与“成本可控”是企业面临的核心挑战。本文结合 Python FastAPI 微服务实战,详解如何基于阿里云基础设施,利用 Docker 封装服务、K3s 实现容器编排,构建生产级微服务架构。内容涵盖容器构建、集群部署、自动扩缩容、可观测性等关键环节,适配阿里云资源特性与服务生态,助力企业打造低成本、高可靠、易扩展的微服务解决方案。
1052 0
|
10天前
|
人工智能 运维 安全
|
1天前
|
弹性计算 Kubernetes jenkins
如何在 ECS/EKS 集群中有效使用 Jenkins
本文探讨了如何将 Jenkins 与 AWS ECS 和 EKS 集群集成,以构建高效、灵活且具备自动扩缩容能力的 CI/CD 流水线,提升软件交付效率并优化资源成本。
239 0
|
8天前
|
人工智能 异构计算
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
|
8天前
|
人工智能 测试技术 API
智能体(AI Agent)搭建全攻略:从概念到实践的终极指南
在人工智能浪潮中,智能体(AI Agent)正成为变革性技术。它们具备自主决策、环境感知、任务执行等能力,广泛应用于日常任务与商业流程。本文详解智能体概念、架构及七步搭建指南,助你打造专属智能体,迎接智能自动化新时代。
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
B站开源IndexTTS2,用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推动零样本语音合成在实际场景中的落地能力,B站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
717 23