LeetCode 187. Repeated DNA Sequences

简介: 所有 DNA 由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。编写一个函数来查找 DNA 分子中所有出现超多一次的10个字母长的序列(子串)。

v2-7b84ac3346ec6747bd25e1d46892381f_1440w.jpg

Description



All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACGAATTCCG". When studying DNA, it is sometimes useful to identify repeated sequences within the DNA.


Write a function to find all the 10-letter-long sequences (substrings) that occur more than once in a DNA molecule.


Example:


Input: s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"

Output: ["AAAAACCCCC", "CCCCCAAAAA"]


描述



所有 DNA 由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。


编写一个函数来查找 DNA 分子中所有出现超多一次的10个字母长的序列(子串)。


示例:

输入: s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"

输出: ["AAAAACCCCC", "CCCCCAAAAA"]


思路



  • 题意是以10个字符构成每一个子串,寻找在字符串中出现了不止了一次的子字符串.
  • 我们使用两个哈希set,wordset用于存储已经找到的子字符串,res用于存储已经出现的结果.我们以10个字符串为窗口,如果当前子字符串已经出现过在wordset中,我们就把他添加到res中,如果没有就添加到wordset中,最后我们返回list类型的res.


# -*- coding: utf-8 -*-
# @Author:             何睿
# @Create Date:        2019-01-18 19:56:00
# @Last Modified by:   何睿
# @Last Modified time: 2019-01-18 20:10:34
class Solution:
    def findRepeatedDnaSequences(self, s):
        """
        :type s: str
        :rtype: List[str]
        """
        # wordset哈希set存储已经出现过的子字符串
        # res用于存储结果中的子字符串
        wordset, res, count = set(),set(), len(s)
        i = 0
        # 每一个窗口的长度为10
        while i + 10 <= count:
            # 如果当前字符串已经出现过,就把当前字符串添加到结果字符串中
            if s[i:i + 10] in wordset:
                res.add(s[i:i + 10])
            else:
                # 如果没有出现过,就添加到记录中
                wordset.add(s[i:i + 10])
            i += 1
        # 返回需要list类型
        return list(res)


源代码文件在这里.


目录
相关文章
|
5月前
|
算法 vr&ar 图形学
☆打卡算法☆LeetCode 187. 重复的DNA序列 算法解析
☆打卡算法☆LeetCode 187. 重复的DNA序列 算法解析
|
5月前
leetcode-187:重复的DNA序列
leetcode-187:重复的DNA序列
49 0
|
算法 C++
​LeetCode刷题实战187:重复的DNA序列
算法的重要性,我就不多说了吧,想去大厂,就必须要经过基础知识和业务逻辑面试+算法面试。所以,为了提高大家的算法能力,这个公众号后续每天带大家做一道算法题,题目就从LeetCode上面选 !
137 0
[LeetCode] Repeated DNA Sequences
This link has a great discussion about this problem. You may refer to it if you like. In fact, the idea and code in this passage is from the former link.
801 0
[LeetCode] Repeated DNA Sequences
All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: “ACGAATTCCG”. When studying DNA, it is sometimes useful to identify repeated sequences within the
834 0
|
28天前
|
Unix Shell Linux
LeetCode刷题 Shell编程四则 | 194. 转置文件 192. 统计词频 193. 有效电话号码 195. 第十行
本文提供了几个Linux shell脚本编程问题的解决方案,包括转置文件内容、统计词频、验证有效电话号码和提取文件的第十行,每个问题都给出了至少一种实现方法。
LeetCode刷题 Shell编程四则 | 194. 转置文件 192. 统计词频 193. 有效电话号码 195. 第十行
|
2月前
|
Python
【Leetcode刷题Python】剑指 Offer 32 - III. 从上到下打印二叉树 III
本文介绍了两种Python实现方法,用于按照之字形顺序打印二叉树的层次遍历结果,实现了在奇数层正序、偶数层反序打印节点的功能。
50 6
|
2月前
|
搜索推荐 索引 Python
【Leetcode刷题Python】牛客. 数组中未出现的最小正整数
本文介绍了牛客网题目"数组中未出现的最小正整数"的解法,提供了一种满足O(n)时间复杂度和O(1)空间复杂度要求的原地排序算法,并给出了Python实现代码。
99 2
|
28天前
|
数据采集 负载均衡 安全
LeetCode刷题 多线程编程九则 | 1188. 设计有限阻塞队列 1242. 多线程网页爬虫 1279. 红绿灯路口
本文提供了多个多线程编程问题的解决方案,包括设计有限阻塞队列、多线程网页爬虫、红绿灯路口等,每个问题都给出了至少一种实现方法,涵盖了互斥锁、条件变量、信号量等线程同步机制的使用。
LeetCode刷题 多线程编程九则 | 1188. 设计有限阻塞队列 1242. 多线程网页爬虫 1279. 红绿灯路口
|
2月前
|
索引 Python
【Leetcode刷题Python】从列表list中创建一颗二叉树
本文介绍了如何使用Python递归函数从列表中创建二叉树,其中每个节点的左右子节点索引分别是当前节点索引的2倍加1和2倍加2。
47 7