Cloudera正在重建机器学习方法

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 作者:Derrick Harris 翻译:岳辰       校对: 陈洁(转载请保留)   摘要:Cloudera目前正在进行一个名叫Oryx的开源项目,旨在将机器学习的方法代入Hadoop,而这个早些时候Apache Mahout做过类似的尝试都以失败告终。

作者:Derrick Harris
翻译:岳辰       校对: 陈洁(转载请保留)

 

摘要:Cloudera目前正在进行一个名叫Oryx的开源项目,旨在将机器学习的方法代入Hadoop,而这个早些时候Apache Mahout做过类似的尝试都以失败告终。

 

当Hadoop软件的卖方Cloudera在去年收购一家总部在伦敦的公司Myrrix时,他们并没有大肆宣传。他们也没有将之后公司在机器学习技术方面的成就带入公众的视线里。而公司的技术以及她的创始人,Sean Owen,却很可能成为一笔非常可观的资产。


在公司里头衔为数据科学师的Owen,目前正致力于开发一个名叫Oryx的开源机器学习项目。(Oryx原意为一种非洲羚羊,而Cloudera另一款产品Impala原意也是一种非洲羚羊。)Oryx项目的目标是能帮助Hadoop用户建立机器学习模型,这样用户就能通过利用这些模型实时查询并输出结果,比如过滤垃圾邮件或者向用户推荐有用的信息等。最好Oryx还能支持边读数据边自我更新的模型。
Owen将这称之为Hadoop传统的探索性数据分析与运算分析之间的差异。他说:“旦我能对我们网站上面的诈骗问题进行建模,我就一定能做出什么来。我们不仅能在Hadoop进行大数据建模,还可以大规模应用这些模型。


作为在Hadoop上建立机器学习模型的传统途径的Apache Mahout,被Owen称为“已走到穷途末路”。它目前处在仅能进行批量处理的第一代MapReduce的瓶颈,这就需要用户进行大量的操作同时也需要合适的工作系统。Owen说:“Myrrix其实就是我希望Mahout所成为的样子。”他补充道,“如果当初Mahout能做得很好的话,他们就不会在这寻求Myrrix了。其实Oryx中90%的代码都来自于Myrrix,剩下的才是由Cloudera完成的。”

 

一个既开源又简易的推荐系统,谁想试试?
与建立一整套机器学习算法库不同,Owen真正想做的只是四个核心问题:回归,分类,聚类以及协同筛选(也就是推荐系统)。Owen说上述四个问题中当下最热门的当属最后一个协同筛选的问题,于是他与一些Cloudera的一些顾客一起在使用Oryx写推荐系统。事实上,80%的Oryx使用者都在试图建立推荐系统。


将Oryx变成一个建立推荐系统的标准化工具会使得这个项目变得非常热门。尽管推荐系统对于一些热门网站如Netflix以及Amazon等都已是家常便饭,但是建立推荐系统标准化的开源工具缺少的可怜。


虽说这不是一场竞赛,但是其他的公司目前也在试图将推荐系统标准化。举例来说,云计算的新兴公司Mortar Data目前正与15家其他拥有顶级数据分析师的公司联手建立标准化推荐系统。这个项目于去年启动,它希望通过改善开源推荐系统的框架来带来更好的实用性。而其他一些公司如Expert Labs虽不打算将推荐系统开源化,但也试图通过人工智能API来搭建自动推荐系统。

 

仍只是一个实验项目,还非产品
Owen认为,所有的Cloudera用户(以及大多数Hadoop用户)最终都会想要使用操作性强的机器学习系统,并不仅仅限于系统给予推荐。而Oryx就能成为一款帮助大家实现这个愿望的工具。不过他也说道:“现阶段,这仍还是实验项目阶段。”


举个例子来说,目前Owen还在Apache Spark项目上花大量时间,因为他想通过重写Oryx来使得Spark成为首要的处理框架而非MapReduce。“其实如果从机器学习的角度看,Spark绝对是更有趣,”他说道:“所以我宁愿把精力多放在Spark上。”


Owen 并不是一个人在战斗。就像我们刚才说的,Spark正在成为下一代大数据应用的一个越来越热的的选择。Cloudera和Hortonworks也都把Spark当作Hadoop未来的一个重要组成部分。Cloudera的首席执行官Tom Reilly将会在三月份和其他很多大数据公司的首席执行官,数据分析师以及首席信息官们一起,在结构数据会议上探讨Hadoop平台的未来(包括Spark在其中的作用), 以及机器学习在商业和社会学上的实际应用。


不过,虽说前景良好,Owen并不认为Oryx能很快出现在Cloudera,Hadoop的生产线上。“顾客想要的是良好的建议,服务以及培训,这都需要把Oryx变成一款软件,”他说,而现在:“我们离着目标还很远。”


“就目前对大多数Hadoop的消费者而言,说拥抱数据科学还为时尚早,”他补充道:“更不用说那些操作性强的即时机器学习方法了。”


原文发布时间为:2014-03-08


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
机器学习/深度学习 数据采集 算法
量子机器学习入门:三种数据编码方法对比与应用
在量子机器学习中,数据编码方式决定了量子模型如何理解和处理信息。本文详解角度编码、振幅编码与基础编码三种方法,分析其原理、实现及适用场景,帮助读者选择最适合的编码策略,提升量子模型性能。
213 8
|
10月前
|
机器学习/深度学习 存储 设计模式
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
本文探讨了数据基础设施设计中常见的一个问题:数据仓库或数据湖仓中的表格缺乏构建高性能机器学习模型所需的历史记录,导致模型性能受限。为解决这一问题,文章介绍了缓慢变化维度(SCD)技术,特别是Type II类型的应用。通过SCD,可以有效追踪维度表的历史变更,确保模型训练数据包含完整的时序信息,从而提升预测准确性。文章还从数据工程师、数据科学家和产品经理的不同视角提供了实施建议,强调历史数据追踪对提升模型性能和业务洞察的重要性,并建议采用渐进式策略逐步引入SCD设计模式。
379 8
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
|
12月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
1142 6
|
机器学习/深度学习 数据采集 算法
Java 大视界 -- Java 大数据机器学习模型在金融衍生品定价中的创新方法与实践(166)
本文围绕 Java 大数据机器学习模型在金融衍生品定价中的应用展开,分析定价现状与挑战,阐述技术原理与应用,结合真实案例与代码给出实操方案,助力提升金融衍生品定价的准确性与效率。
Java 大视界 -- Java 大数据机器学习模型在金融衍生品定价中的创新方法与实践(166)
|
10月前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
1748 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
11月前
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
606 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
|
12月前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
400 6
|
机器学习/深度学习 数据采集 数据挖掘
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
因果推断方法为特征工程提供了一个更深层次的框架,使我们能够区分真正的因果关系和简单的统计相关性。这种方法在需要理解干预效果的领域尤为重要,如经济学、医学和市场营销。
408 1
特征工程在营销组合建模中的应用:基于因果推断的机器学习方法优化渠道效应估计
|
12月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
749 1
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
214 2

热门文章

最新文章