在Hadhoop summit 2016上,esearch Engineer, Treasure Data Makoto YUI和Research Engineer, NTT Takashi Yamamuro分享了题为《Hivemall: Scalable machine learning library for Apache Hive/Spark/Pig》,就介绍Hivemall,Hivemall on Spark等方面的内容做了深入的分析。
https://yq.aliyun.com/download/1941?spm=a2c4e.11154804.0.0.75676a79msBCum
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在Hadoop Summit 2016上,Treasure Data的搜索引擎工程师Makoto YUI与NTT的研究工程师Takashi Yamamuro共同分享了一场题为《Hivemall: 可扩展的Apache Hive/Spark/Pig机器学习库》的演讲。该演讲深入探讨了Hivemall这一项目,它是一个旨在提升大数据处理中机器学习能力的库,特别针对Apache Hive、Spark及Pig环境进行了优化。
Hivemall是一个开源的机器学习库,设计用于大规模数据集上的可扩展性学习任务。它直接集成在Apache Hive中,使得数据科学家和工程师能够在熟悉的SQL-like环境中执行复杂的机器学习操作,而无需深入学习额外的编程模型或工具。通过利用Hive的查询能力,用户可以轻松地对海量数据应用分类、回归、聚类、协同过滤等多种机器学习算法。
随着大数据处理需求的不断增长,Hivemall也扩展了其支持范围,与Apache Spark集成,进一步提升了计算性能和灵活性。在Spark环境下,Hivemall能够利用Spark的分布式计算框架来加速机器学习任务的执行,尤其是在迭代计算和内存数据处理方面表现更佳。这种结合不仅保持了Hivemall易用性高的特点,还充分利用了Spark的高效资源管理和并行处理能力,适合于需要高性能实时或批处理分析的场景。
Hivemall适用于多种应用场景,包括但不限于推荐系统、客户细分、异常检测、预测分析等,在电商、广告投放、金融风控等领域有广泛的应用潜力。
虽然没有直接提供具体的文档链接,但用户可以通过访问Hivemall的官方GitHub仓库获取安装指南、文档和示例代码,开始在自己的Hadoop、Spark或Hive集群上部署和使用Hivemall。
请注意,具体的技术细节、最新进展和最佳实践可能随时间更新,请参考Hivemall的官方资源获取最新信息。
此回答基于知识库中的参考资料概述了Hivemall的核心概念、与Spark的集成价值及其在大数据机器学习领域的应用,旨在为用户提供一个全面且结构化的理解框架。
此处提及的知识点来源于行业会议分享概要,具体实现细节和最新进展建议直接查阅Hivemall官方资料。