CarbonData集群模式体验
官方提供了一个快速上手的 Quick-Start ,不过是采用spark-shell local模式的。我这里在实际集群环境做了下测试,并且记录了下过程,希望对大家有所帮助。
阿里云大数据+AI技术沙龙上海站回顾 | 揭秘TPC-DS 榜单第一名背后的强大引擎
11月16日的大数据+AI沙龙上海站取得圆满成功! EMR 团队在国内运营最大的 Spark 社区,为了更好地传播和分享业界最新技术和最佳实践,现在联合开源社区同行,打造一个纯粹的技术交流线下沙龙《大数据 + AI》,定期为大家做公益分享。本次分享,揭秘TPC-DS 榜单第一名背后的强大引擎,探索Pyboot如何打通大数据生态,一同学习业内最新的存储方案和机器学习平台。
【云栖大会】再谈开源大数据
本论坛第一次聚集阿里Hadoop、Spark、Hbase、Jtorm各领域的技术专家,讲述Hadoop生态的过去现在未来及阿里在Hadoop大生态领域的实践与探索。本论坛还发布了阿里云E-MapReduce交互式产品。
【Spark Summit East 2017】在生产环境中的大规模数据应用中使用SparkR
本讲义出自Heiko Korndorf在Spark Summit East 2017上的演讲,R语言是一个广受平台数据科学家欢迎的应用于许多不同的领域的模型分析创建的语言,但是当这些应用程序从科学实验室迁移到大型企业的生产环境就出现了一系列新的挑战,而独立于R的Spark则是非常强大的通用计算平台,通过引入SparkR使得在生产环境下使用数据科学应用成为了可能,本次演讲将会分享两个将数据科学应用引入真实生产环境的案例。