在SPARK SUMMIT 2017上,Berni Schiefer IBM, Spark Technology Center分享了题为《PRACTICAL LARGE SCALE EXPERIENCES WITH SPARK 2.1 MACHINE LEARNING》,就IBM如何利用SparkML,我们的实验环境,硬件和基准/工作量,关注可扩展性探索领域等方面的内容做了深入的分析。
https://yq.aliyun.com/download/2259?spm=a2c4e.11154804.0.0.1da06a79oC9KEQ
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在SPARK SUMMIT 2017上,Berni Schiefer来自IBM Spark Technology Center的分享聚焦于使用Spark 2.1进行大规模机器学习的实践经验和深入分析。虽然我无法直接访问或提供外部链接的下载内容,但我可以基于阿里云产品和大数据处理能力,为您提供一些相关的信息和建议,帮助您更好地理解如何利用类似的技术和资源。
E-MapReduce服务:阿里云提供了E-MapReduce服务,它是一个基于Apache Hadoop和Apache Spark的大数据处理服务。用户可以在阿里云上轻松部署和管理Hadoop、Spark、HBase、Hive等开源大数据组件,非常适合进行大规模的数据处理和机器学习任务。通过E-MapReduce,您可以直接利用Spark MLlib库进行分布式机器学习作业。
MaxCompute(原名ODPS)与PAI:对于需要更大规模数据处理和更高级机器学习功能的场景,阿里云的MaxCompute是一个适合海量数据存储和计算的服务平台,而其上的机器学习平台PAI(Platform of Artificial Intelligence)提供了丰富的机器学习算法和模型训练能力,支持从数据处理到模型部署的全链路服务。这为那些寻求像IBM分享中所述的可扩展性探索提供了强大的基础设施支持。
硬件和基准测试:虽然具体硬件配置和基准测试结果可能因环境和需求而异,但阿里云提供了多种规格的ECS(Elastic Compute Service)实例,包括GPU实例,专为机器学习和深度学习工作负载设计,能够满足不同规模和复杂度的计算需求。同时,阿里云也提供了性能测试和优化工具,帮助用户评估和调整其Spark作业的性能。
实验环境搭建:在阿里云上,用户可以通过快速创建ECS实例或使用E-MapReduce服务来搭建自己的Spark实验环境。结合阿里云的OSS(Object Storage Service)用于数据存储,以及DataWorks进行数据集成和调度,可以迅速构建起一个完整的数据处理和机器学习实验平台。
关注领域:如同IBM分享中提到的关注点,阿里云同样重视Spark在机器学习领域的可扩展性和效率提升。无论是金融风控、推荐系统还是智能客服等领域,阿里云都提供了相应的解决方案和服务,帮助企业高效地运用Spark进行数据分析和模型训练。
综上所述,虽然不能直接提供该演讲的下载,但阿里云提供的服务和产品能够有效支持用户在大数据处理和机器学习方面的需求,实现类似于IBM分享中的大规模实践经验。