引领“大数据技术风暴” 机器学习正当下

简介:

Ovum(咨询顾问公司)的分析师Tony Baer分享了他对于云端机器学习工具,物联网驱动流分析和Hadoop的一些观点。这些技术在2016年备受人们关注,2017年这种趋势将会延续。

技术的实际应用前景才是推动技术进步的根本,特别是今年的一些主流技术。Ovum分析师Tony Baer深知这一点,当他在2017年的Ovum report预测大数据发展趋势时,主要依据就是今年的技术应用情况。

Baer得出了如下结论,机器学习项目,物联网(IoT)和实时流媒体分析,这些技术在2016获得了广泛关注,在未来一年,他们依然将引领技术趋势。在一次采访中,他深入讨论了这些话题,他认为,基于云技术的Hadoop系统的发展,特别是在流分析领域,用例和技术可能是会形成一个完美的集合,引领“技术风暴”,他说。

您认为,机器学习将是2017大数据分析的最大搅局者。不过,机器学习项目是否仅限于那些大型公司,其使用范围是否更为广泛?

Tony Baer:它的应用范围很广。许多情况下,企业和消费者已经开始使用内嵌机器学习的服务了,他们只是没有意识到而已。但是,数据科学家能够自主编写并使用机器学习算法,能够进行内部开发的企业数量是有限的,所以机器学习在企业中的发展依然是受限的。现在已经可有用于机器学习的算法库,所以你不必再从头编写算法。

最近出现了新兴的协作工具,旨在建立数据科学家和数据工程师或者业务人员之间的联系。你可能看到使用工具的企业数量日渐增多,但这些也仅限于在那些拥有大量资源的企业,这类企业一般都是使用Hadoop的先锋。

有时似乎人们没有意识到机器学习项目需要一个学习阶段,这可能是最费时的,充满了试验和错误的阶段。

Baer:对的。几年前,数据科学是热门话题。每个人都希望被称为“数据科学家”,并希望把这个职位印在他们的名片上。现在,新兴的东西是机器学习,所有数据科学家都想和它搭上关系。

他们可能忘记了重要一步:你必须首先学习数据科学。这不是机器学习的同义词。它是科学的同义词,因为你需要不断地测试假设。它需要用科学方法分析阻碍并解决问题。它需要很大的耐心和毅力。

机器学习的频谱范围涉及很广,从单终端异常检测集群到集群深层的深度学习和认知(计算)都有机器学习的应用。但是,在继续使用机器学习之前,你需要掌握数据科学,包括高级模式识别和许多不同方法.。

短期内,机器学习主要通过打包到应用程序来产生影响,如供应链优化,智能电网,威胁和欺诈检测软件等。它将嵌入这些应用程序。机器学习的主要影响力依然是通过包含它的应用产生的。

你提到的机器学习的用户类似于Hadoop的用户。那项技术花了一段时间才能真正推广开来。现在,似乎成了云的束缚。你认为Hadoop迁移到云中的速度会很快吗?

Baer: 我所谓的Hadoop是一个多元的操作系统。这是关于混合和匹配的问题,这使得它很难被解释,并可能对市场造成一定程度的混淆。现在在云中,它甚至更难解释。因为当你进入Amazon云,你可能不会使用到Hadoop分布式文件系统,而会使用S3(即Amazon Simple Storage Service)。

Hadoop不是为云而生的,但它与云的结合将是不可避免的趋势。大约一年前,15%到20%的新工作负载将流向云端。现在,这个比例已经变成三分之一。我预计,未来12到18个月内,这个数字将达到50%。

数据流与复杂事件处理(CEP)具有相似性的,重点在于“复杂”。我们这些天在处理不同的事件,大多事件是类似于手机活动和点击流。但这样的情况真的有所不同吗?

Baer:复杂的事件处理是问题的一个解决方案。除了一些专门的案例,比如金融服务,其中的边缘处理是他们工作一部分,也是他们竞争的一部分。但是现在,我们有了较为完美的解决方案。

这是因为基础设施变得更加方便和廉价,特别是随着云的出现。在有CEP的情况下,当你需要处理的事件不是很多时,意义并不大。但是,当你可以像我们现在这样扩大基础设施的规模时,它就称为了一个可行的解决方案。物联网正在这么做。

使用物联网并取得实际的价值,这种用例确实存在。物联网正在增加实时流分析的必要性。例如包括任何事物的物理运动,无论是供应链,网络优化或智能城市等。或者例如,在工作领域的资产管理和车队管理。所有这些用例是有形的,实际上都具有明确的商业价值。

我们有更多的智能设备,这些设备在产生真正的信息。就是这些信息在驱动着流分析,这是开源技术和专有技术的混合体。CEP的处理十分昂贵,有一些工具是专有的,需要非常专业的技能。有了开源技术,学习和实验的障碍就减少了。当所有这些事情正在发生时,那将是一场完美的“技术风暴”。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
存储 人工智能 大数据
云栖2025|阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级
阿里云在云栖大会发布“湖流一体”数智平台,推出DLF-3.0全模态湖仓、实时计算Flink版升级及EMR系列新品,融合实时化、多模态、智能化技术,打造AI时代高效开放的数据底座,赋能企业数字化转型。
751 0
|
4月前
|
数据采集 人工智能 分布式计算
ODPS在AI时代的发展战略与技术演进分析报告
ODPS(现MaxCompute)历经十五年发展,从分布式计算平台演进为AI时代的数据基础设施,以超大规模处理、多模态融合与Data+AI协同为核心竞争力,支撑大模型训练与实时分析等前沿场景,助力企业实现数据驱动与智能化转型。
421 4
|
2月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
4月前
|
SQL 分布式计算 大数据
我与ODPS的十年技术共生之路
ODPS十年相伴,从初识的分布式计算到共生进化,突破架构边界,推动数据价值深挖。其湖仓一体、隐私计算与Serverless能力,助力企业降本增效,赋能政务与商业场景,成为数字化转型的“数字神经系统”。
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用(229)
本文深入探讨Java大数据与机器学习在自然语言生成(NLG)中的可控性研究,分析当前生成模型面临的“失控”挑战,如数据噪声、标注偏差及黑盒模型信任问题,提出Java技术在数据清洗、异构框架融合与生态工具链中的关键作用。通过条件注入、强化学习与模型融合等策略,实现文本生成的精准控制,并结合网易新闻与蚂蚁集团的实战案例,展示Java在提升生成效率与合规性方面的卓越能力,为金融、法律等强监管领域提供技术参考。
|
4月前
|
存储 人工智能 算法
Java 大视界 -- Java 大数据在智能医疗影像数据压缩与传输优化中的技术应用(227)
本文探讨 Java 大数据在智能医疗影像压缩与传输中的关键技术应用,分析其如何解决医疗影像数据存储、传输与压缩三大难题,并结合实际案例展示技术落地效果。
|
4月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据机器学习模型在生物信息学基因功能预测中的优化与应用(223)
本文探讨了Java大数据与机器学习模型在生物信息学中基因功能预测的优化与应用。通过高效的数据处理能力和智能算法,提升基因功能预测的准确性与效率,助力医学与农业发展。
|
4月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据在智能物流运输车辆智能调度与路径优化中的技术实现(218)
本文深入探讨了Java大数据技术在智能物流运输中车辆调度与路径优化的应用。通过遗传算法实现车辆资源的智能调度,结合实时路况数据和强化学习算法进行动态路径优化,有效提升了物流效率与客户满意度。以京东物流和顺丰速运的实际案例为支撑,展示了Java大数据在解决行业痛点问题中的强大能力,为物流行业的智能化转型提供了切实可行的技术方案。
|
4月前
|
机器学习/深度学习 搜索推荐 数据可视化
Java 大视界 -- Java 大数据机器学习模型在电商用户流失预测与留存策略制定中的应用(217)
本文探讨 Java 大数据与机器学习在电商用户流失预测与留存策略中的应用。通过构建高精度预测模型与动态分层策略,助力企业提前识别流失用户、精准触达,实现用户留存率与商业价值双提升,为电商应对用户流失提供技术新思路。
|
4月前
|
机器学习/深度学习 存储 分布式计算
Java 大视界 --Java 大数据机器学习模型在金融风险压力测试中的应用与验证(211)
本文探讨了Java大数据与机器学习模型在金融风险压力测试中的创新应用。通过多源数据采集、模型构建与优化,结合随机森林、LSTM等算法,实现信用风险动态评估、市场极端场景模拟与操作风险预警。案例分析展示了花旗银行与蚂蚁集团的智能风控实践,验证了技术在提升风险识别效率与降低金融风险损失方面的显著成效。

热门文章

最新文章