我在考虑比较两个字符串的更快方法。检查Python集合(哈希表)中是否存在值具有固定时间。这是否意味着在集合中查找字符串也具有恒定的时间?
print('tya' == 'tya') #O(n)
mySet = set()
mySet.add('tya')
if 'tya' in mySet: #O(1) <-- ???
print('True')
在更一般的情况下,这是否意味着我可以在线性时间内在字符串中找到子字符串???
def NaiveFind(largeString, subString):
mySet = set()
mySet.add(subString)
index = -1
start = 0
end = len(subString)
while(end < len(largeString)): #O(n-m)
windowFromLarge = largeString[start:end]
if(windowFromLarge in mySet): #O(1) <------- LINEAR ???
#if(windowFromLarge == subString): #O(m)
return start
start += 1
end += 1
return index
你说
检查Python集合(哈希表)中是否存在值具有固定时间。
但这是一种普遍的过分简化,是因为人们没有意识到自己正在这样做,或者因为每次都说出实际的行为会花费更长的时间。
假设哈希冲突不会失控,那么检查Python集中是否存在值需要平均情况下恒定数量的哈希运算和相等比较。它不会自动使哈希操作和相等比较保持恒定的时间。
您的NaiveFind算法不是线性时间,因为您忽略了哈希计算的成本(也因为字符串切片需要在CPython中进行复制)。在拉宾,卡普算法采用你的想法,其中散列是的改良版本滚动散列来避免这个问题。Rabin-Karp算法是平均情况线性时间,只要哈希冲突不会失控即可。还有像Knuth-Morris-Pratt这样的算法可以保证线性时间,而像Boyer-Moore这样的算法在通常情况下可以比线性时间更好。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。