我有一些文本需要生成按空间分割的标记。 此外,我需要删除所有的标点符号,因为我需要删除双括号[[…。 我将把每个令牌作为键放在字典上,它将具有一个值列表。 我尝试了regex来删除这些双花括号模式,如果…,但我找不到一个有效的解决方案。目前我有:
tokenDic = dict()
splittedWords = re.findall(r'\[\[\s*([^][]*?)]]', docs[doc], re.IGNORECASE)
tokenStr = splittedWords.split()
for token in tokenStr:
tokenDic[token].append(value);
我将非常感谢任何帮助:) 谢谢 问题来源StackOverflow 地址:/questions/59379798/python2-tokenization-and-add-to-dictonary
要删除[[]]里面的所有东西,你可以使用re.sub,你已经有了正确的regex,那么就这样做吧。
x = [[hello]]w&o%r*ld^$
y = re.sub("\[\[\s*([^][]*?)]]","",x)
z = re.sub("[^a-zA-Z\s]","",y)
print(z)
这个打印“世界”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。