开发者社区 问答 正文

两两比较问题

假设我有50000个文档,需要两两比较其相似度,因为每个比较大概需要1-2秒,所以我想用hadoop进行分布式计算,但是不知道怎么写。各位见笑了。

假定比较相似度的函数为:float sim(String text1, String text2)

请问mapreduce要如何写?多谢。

展开
收起
lifubang 2017-07-06 17:54:31 3314 分享 版权
1 条回答
写回答
取消 提交回答
  • 阿里云高级技术专家

    你真的要两两比较吗?50000个文档两两比较共有1249975000次比较,即使你有100台机器并发跑,也需要145天呐!

    2019-07-17 21:22:22
    赞同 展开评论
问答分类:
问答地址: