开发者社区> 问答> 正文

spark foreach调用restful接口同步数据效率太差

通过编写 spark程序,读取数据库形成RDD,然后对RDD进行foreach操作,在内部实现方法中对遍历的元素通过调用restful接口同步第三方的数据到本地数据库,将程序 提交到 spark集群后,1000条 数据需要耗时 500秒才可以同步完,效率太差 ,加了spark.default.parallelism也没用,感觉是单线程一样,没有多线程并发执行。上千万数据需要同步,求问各位大神如何解决此问题,有什么好的方案吗?

展开
收起
louis.li 2018-05-06 19:15:45 4067 0
1 条回答
写回答
取消 提交回答
  • 长期从事大数据系统与产品研发。

    如果瓶颈在httpserver端,spark加并发解决不了,要具体问题具体分析。

    2019-07-17 22:07:51
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载

相关实验场景

更多