两两比较问题-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

两两比较问题

lifubang 2017-07-06 17:54:31 1250

假设我有50000个文档,需要两两比较其相似度,因为每个比较大概需要1-2秒,所以我想用hadoop进行分布式计算,但是不知道怎么写。各位见笑了。

假定比较相似度的函数为:float sim(String text1, String text2)

请问mapreduce要如何写?多谢。

分布式计算 Hadoop
分享到
取消 提交回答
全部回答(1)
  • 好慢
    2019-07-17 21:22:22

    你真的要两两比较吗?50000个文档两两比较共有1249975000次比较,即使你有100台机器并发跑,也需要145天呐!

    0 0
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题