开发者社区> 问答> 正文

两两比较问题

假设我有50000个文档,需要两两比较其相似度,因为每个比较大概需要1-2秒,所以我想用hadoop进行分布式计算,但是不知道怎么写。各位见笑了。

假定比较相似度的函数为:float sim(String text1, String text2)

请问mapreduce要如何写?多谢。

展开
收起
lifubang 2017-07-06 17:54:31 3249 0
1 条回答
写回答
取消 提交回答
  • 阿里云高级技术专家

    你真的要两两比较吗?50000个文档两两比较共有1249975000次比较,即使你有100台机器并发跑,也需要145天呐!

    2019-07-17 21:22:22
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载