开发者社区> 问答> 正文

勾股定理2并加入到字典中

我有一些文本需要生成按空间分割的标记。 此外,我需要删除所有的标点符号,因为我需要删除双括号[[…。 我将把每个令牌作为键放在字典上,它将具有一个值列表。 我尝试了regex来删除这些双花括号模式,如果…,但我找不到一个有效的解决方案。目前我有:

tokenDic = dict()
splittedWords =  re.findall(r'\[\[\s*([^][]*?)]]',  docs[doc], re.IGNORECASE) 
tokenStr = splittedWords.split()

for token in tokenStr:
    tokenDic[token].append(value);

我将非常感谢任何帮助:) 谢谢 问题来源StackOverflow 地址:/questions/59379798/python2-tokenization-and-add-to-dictonary

展开
收起
kun坤 2019-12-29 21:41:07 340 0
1 条回答
写回答
取消 提交回答
  • 要删除[[]]里面的所有东西,你可以使用re.sub,你已经有了正确的regex,那么就这样做吧。

     x = [[hello]]w&o%r*ld^$
     y = re.sub("\[\[\s*([^][]*?)]]","",x)
     z = re.sub("[^a-zA-Z\s]","",y)
     print(z)
    

    这个打印“世界”

    2019-12-29 21:41:13
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载