突破流计算极限挑战后,阿里将发力图计算及大规模机器学习

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介:

近日,体系结构顶级会议ASPLOS首次在中国举办,阿里巴巴副总裁、阿里云首席科学家周靖人发表主旨演讲,介绍了阿里巴巴云的大数据和AI计算平台,以及其中广泛的产品和服务。同时透露阿里接下来将在图计算和大规模机器学习领域进一步发力。

image


随着物联网传感器、移动应用和在线服务的普及和广泛应用,越来越多的数据以流的形式源源不断的产生。基于数据流的实时分析变得越来越重要,例如实时化的商业决策依赖高时效性的报表,在线服务优化需要动态捕捉用户行为等。

这一系列应用的背后离不开大规模流计算平台的支撑。从系统架构角度,海量数据流输入需要大规模集群,7x24不间断地连续计算,同时满足高吞吐和低延时。大规模集群中各种软、硬件故障和网络异常,以及输入流量和数据的动态变化等,都会给流计算带来极大的挑战。

阿里大数据平台在2016年双十一支撑了每秒近1亿日志事件的计算峰值,在6小时内成功处理了100PB的数据,在这一方面经验颇丰。

阿里在流计算方面突破

演讲中,周靖人以容错为例介绍了阿里系统设计中的一些关键技术。所谓容错,就是当计算结点发生故障时,由于数据流的连续性,对上下游都会产生影响,同时计算状态也会丢失。相比离线计算,复杂的系统依赖使得如何自动恢复流计算过程中的错误,成为关键挑战。

周靖人介绍说,业界和开源的流计算系统,往往以单一容错策略为基础来设计系统,如输入重算、全局快照和mini-batch。而真实场景中的大规模流计算应用,往往由多个相互关联但对计算吞吐和延时要求不尽相同的部分组合而成。

例如某个高吞吐的输入流和按小时更新的数据集合之间的关联计算。由此对不同部分的容错需求就需要相应采用不同的策略,而如何在同一系统设计中允许组合不同的策略,是问题的关键。阿里在这方面做了很多创新的工作,例如在上下游之间建立虚拟管道抽象,将容错设计和正确性分析与系统实现、优化机制解耦。不但降低了系统的复杂性,还允许系统根据场景,灵活实现和组合多种策略,应对大规模集群中各种复杂情况。

图计算3大挑战

据周靖人介绍,图计算是阿里关注的重要技术之一,可以将电商平台、用户产品、支付宝账户等大量信息作为节点来建模处理,基于此可以产生很丰富的分析场景,当前图计算已经在阿里搜索推荐、反作弊、知识图谱等领域大规模应用。

靖人指出,由于实体模型中,存在许多关系以及数十亿的结点和边,并且以很快的速度动态更新,实时并发更新图数据的同时进行复杂的图分析是留给工业界和学术界的课题。具体来说存在3个方向的挑战。

  • 挑战1:图可视化,即如何有效地将图背后的特征和信息展现出来,更好地与人交互,辅助推理、分析和决策。
  • 挑战2:模式匹配,根据业务的特征,在复杂关系网络中定义并识别核心模式,并在大规模图中实现快速匹配。常用的场景有反欺诈、风险控制和ID映射等等。
  • 挑战3:处理快速变化的图,也就是当图节点和边动态更新下的图计算问题。

此外,如何将图计算和机器学习结合,利用人的在线行为模式来进一步提高推荐、搜索等效果,也是阿里技术人员正在解决的难题。

周靖人认为,阿里机器学习的优势来源于对亿万数据样本和特征的高效利用,阿里的服务器架构就是为了处理如此庞大的模型和数以亿计的参数而开发的。“目前阿里大规模机器学习平台,可以统一支持深度学习模型训练以及模型更新,此外我们也建设了CPU、GPU、FPGA异构计算平台,可以针对不同业务特点做机器学习的计算优化”。

目前,阿里正在和知名高校在图计算和大规模机器学习领域搭建合作平台,希望和学界一起推动这些领域研究的快速发展。这也是阿里此前公布的“NASA”计划中的重要技术布局之一。

原文链接

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
7月前
|
人工智能 分布式计算 算法框架/工具
揭开阿里巴巴PAI的神秘面纱:引领人工智能计算的新篇章
揭开阿里巴巴PAI的神秘面纱:引领人工智能计算的新篇章 随着人工智能技术的飞速发展,越来越多的企业开始关注并投入到AI的研究和应用中。阿里巴巴作为全球领先的科技公司,也在AI领域做出了卓越的贡献。今天,就让我们一起来揭开阿里巴巴PAI的神秘面纱,了解这个强大的AI平台如何引领人工智能计算的新篇章。 PAI,全称阿里巴巴公共AI平台,是一个集数据准备、模型开发与训练、模型部署于一体的综合性AI平台。PAI的业务架构分为五层,从基础设施层到业务层,涵盖了AI计算的全过程。
533 2
|
2月前
|
机器学习/深度学习 程序员
【机器学习】朴素贝叶斯原理------迅速了解常见概率的计算
【机器学习】朴素贝叶斯原理------迅速了解常见概率的计算
|
4月前
|
机器学习/深度学习 资源调度 分布式计算
阿里PAI-ChatLearn:大规模 Alignment高效训练框架正式开源
PAI-ChatLearn现已全面开源,助力用户快速、高效的Alignment训练体验。借助ChatLearn,用户可全身心投入于模型设计与效果优化,无需分心于底层技术细节。ChatLearn将承担起资源调度、数据传输、参数同步、分布式运行管理以及确保系统高效稳定运作的重任,为用户提供一站式解决方案。
|
4月前
|
机器学习/深度学习 运维
【阿里天池-医学影像报告异常检测】4 机器学习模型调参
本文提供了对医学影像报告异常检测任务中使用的机器学习模型(如XGBoost和LightGBM)进行参数调整的方法,并分享了特征提取和模型调优的最佳实践。
62 13
|
4月前
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】3 机器学习模型训练及集成学习Baseline开源
本文介绍了一个基于XGBoost、LightGBM和逻辑回归的集成学习模型,用于医学影像报告异常检测任务,并公开了达到0.83+准确率的基线代码。
77 9
|
4月前
|
机器学习/深度学习 人工智能 编解码
【机器学习】阿里Qwen-VL:基于FastAPI私有化部署你的第一个AI多模态大模型
【机器学习】阿里Qwen-VL:基于FastAPI私有化部署你的第一个AI多模态大模型
810 0
|
6月前
|
机器学习/深度学习 调度 云计算
大规模机器学习的计算资源管理
【6月更文挑战第3天】在机器学习中,计算资源是关键所在,相当于驱动模型运行的“燃料”。有效管理计算资源涉及了解硬件性能、合理分配资源及采用优化策略,如任务调度。Python 示例展示了如何使用 multiprocessing 进行并行处理。随着云计算的发展,更多工具帮助我们扩展和管理计算资源。机器学习的计算资源管理是一场持续的探索游戏,旨在实现高效运行和创新成果。准备好投身这个激动人心的领域了吗?
83 1
|
6月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
368 0
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
PAI底层支持多种计算框架
PAI底层支持多种计算框架:
132 0
|
7月前
|
算法
*PAI与静息心率紧密相关,因为静息心率是计算PAI值的重要参数之一
【4月更文挑战第12天】*PAI与静息心率紧密相关,因为静息心率是计算PAI值的重要参数之一
87 3
下一篇
DataWorks