开发者社区 问答 正文

Python 数据挖掘中,SimHash算法的思想是什么呢?

已解决

Python 数据挖掘中,SimHash算法的思想是什么呢?

展开
收起
gxx1 2022-07-24 18:35:32 2754 分享
分享
版权
举报
1 条回答
写回答
取消 提交回答
  • 推荐回答

    算法思想是:simhash算法的主要思想是降维,将高维的特征向量映射成一个低维的特征向量,通过两个向量的Hamming Distance来确定文章是否重复或者高度近似。     

    Google采用这种算法来解决万亿级别的网页的去重任务

    2022-07-24 18:52:20 举报
    赞同 评论

    评论

    全部评论 (0)

    登录后可评论