ACM SIGKDD 主席裴健:AI 要想有突破,「计算-数据-智能」平台和生态建设是关键

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 我们面临的最大挑战同时也是最大的机会将是如何用最新的人工智能技术把握不确定性、管理不确定性、经营不确定性。

雷锋网 AI 科技评论按:裴健博士是国际著名的数据科学、数据挖掘和数据管理领域的专家,专长于通过数据战略制定、数据资产管理、数据资源整合和数据产品设计把数据和技术转化为业务能力和效益。其论著被学术界引用八万四千多次,是加拿大信息和电子技术领域被引用最多十位的学者之一。此外,他还是国际计算机学会 ACM 和国际电气电子工程师学会 IEEE 的会士,国际计算机学会知识发现专委会 ACM SIGKDD 主席。

今日上午,裴健博士在 2019 中国国际大数据产业博览会上发表题为《计算-数据-智能平台与生态化,推动智能社会与智能经济发展》的演讲,雷锋网(公众号:雷锋网) AI 科技评论将之整理如下。

TB1lNCLaqWs3KVjSZFxXXaWUXXa.png

雷锋网 AI 科技评论在演讲基础上进行了修订,并做了不改变原意的整理与编辑:

众所周知,高度智能是人类独有的标志之一,人类的历史就是智能发展的历史。无论是人类的祖先走出非洲,开疆拓土,还是现代人类发展科技,创造新的奇迹,人类的历史是从未知到已知的历史,知识的进步是把不确定转变为确定的过程。

人类对飞行原理的认识就是一个很好的例子。人类很早就有对自由翱翔天空的渴望。通过各种观察研究和实验,人类逐步认识飞行原理,降低了飞行中的不确定性。1783 年,两位法国人乘坐孟格菲热气球实现了人类首次载人航空,升到了 100 米空中,飞行了 12 公里。热气球没有操纵装置,只能随风漂流,热气球飞行有很大的不确定性,甚至不时还要付出生命的代价。人类进一步探索未知世界,发明了飞艇和固定翼飞机,极大地降低了飞行中的不确定性,提高的可控性和可靠性。现在,民用飞机已经成为最安全的交通工具。

什么是智能?维基百科上说,「智力或智能是指生物一般性的精神能力。这个能力包括以下几点:推理、理解、计划、解决问题、抽象思维、表达意念以及语言和学习的能力。」物理学家迈格斯·泰格马克说,「智能是完成复杂目标的能力。」我个人认为,从人类历史和知识发展的角度出发,智能可以简要地概括为管理、控制和减少不确定性的能力。智能有两大基石:计算和数据。通过广义的计算,智能实现推理信息、提炼知识。通过数据,智能才能观察获取信息,存储知识。二者相辅相成,缺一不可。

在不同阶段、不同应用场景中,计算、数据和智能的发展各有侧重,并不均衡。人类很早就认识到系统和规模性积累和存储数据和知识的重要性。1200 多年前,人类已经建立了最古老的图书馆—摩洛哥卡鲁因大学图书馆。在计算机科学发展早起,算法和计算的研究占据了主导地位。而人工智能的研究应用当下的炙手可热。

产业界充分认识到计算-数据-智能三者的重要性。云计算是基础设施。2018 年全球云计算规模逾 800 亿美元,比 2017 年增长 46.5%。大数据是核心资源。2019 年中国大数据核心产业规模有望突破 7200 亿元人民币。人工智能是创新能力。2018 年全球人工智能核心产业市场规模 555.7 亿美元,2020 年我国将超万亿人民币。云计算、大数据和人工智能产业已经成为当前发展最快,最具有活力的朝阳产业。

TB1E8mLarys3KVjSZFnXXXFzpXa.png

人工智能的核心价值是通过有效的预测来驾驭不确定性。这对企业、社会和我们的生活将产生根本性的影响。我们面临的最大挑战同时也是最大的机会将是如何用最新的人工智能技术把握不确定性、管理不确定性、经营不确定性。

以医学为例,人工智能技术将通过逐步提高基础环节的预测准确率,降低药物使用、手术治疗等的不确定性,从而提高医疗效果,减少副作用和无效的尝试,提高病患者的体验和生活质量,降低医疗成本。新的挑战和机会是如何使得医疗不确定性的降低普惠全球每一个人,而不是仅仅是少数人受益,如何使得降低医疗不确定性的技术被用在向善的地方,避免加剧贫富分化。

面对驾驭不确定性的挑战,企业及其生态要作出根本性的改变。一直以来,企业和生态都以实现既定目标为本,要力出一孔完成从上到下制定的业务指标,最好还能独立地创造价值。但是,人工智能技术的迅猛发展要求企业对不确定性的出现及其带来的挑战和机会保持最大的敏感性,迅速响应。这就迫使企业进行根本性重构,以更灵活、更松散、更界限模糊、更自下而上的方式应对随时随来自各个维度的不确定性。与以往不同,所有的重构必须包含计算和数据这两大基石。

很多企业已经认识到计算、数据和智能技术的重要性,并努力应对。但是,一个痛点是目前市场上的产品和服务往往是以云计算、大数据和人工智能工具包这三个维度提供的,需要企业自行集成组合。这让很多中小企业言苦不堪言,也不利于业务和模式的创新。因此,我们倡导一个共生协同平台和生态,实现计算-数据-智能融合,用户只需要聚焦业务和模式创新。

让我以两个例子来解释一下。产业供应链连接供给和需求,涉及创意、设计、研发、原材料采购、生产制造、营销、仓储、货运交付、售后服务……等等许多环节。很多企业深耕产业供应链,做了大量的工作,包括各个环节的自动化和优化。大家能感受到的一个痛点是,我们缺乏一个按客户、原材料、部件、产能、渠道、销售场景、仓库、……等一系列产业供应链核心基本要素组织起来的联邦式的全供应链信息平台,把云计算基础设施、产业供应链大数据和人工智能基础服务和工具的技术细节以包容的和多元化的方式包装起来,以业务为口径,支持用户便捷地开展智能供应链服务、业务和创新。只有在这样的平台上,我们才能更好地打通供应链的多个环节,创新短链和反向链商业模式,更好地连接供需,提高供应链效率。

TB1JH1qXkxz61VjSZFtXXaDSVXa.png

再举一个例子。智能城市美好人居令人向往。很多政府部门和企业在这个领域的各个细分方向辛勤耕耘,例如,有的着力于以智能技术提高交通效率,有的运用智能技术巩固城市安全。下一步,我们需要把城市人居的智能服务、数据和底层计算平台打通,建立更加包容、更加多元化的一个平台,以人、地点位置、物资、服务、产业……等城市人居基本要素为组织的平台,支持智能城市服务、业务和创新。在这样一个平台上,就有可能进行很多大跨度的创新,如把教育培训、安居就业和交通联系起来,营造更合理的产业圈,降低交通成本,营造更加绿色的人居环境。

推进计算-数据-智能平台和生态化具有重要的意义。首先,这是政府全面管理和服务的一个重要抓手。只有全面了解数据、算法以及执行算法的计算资源,政府才能对如搜索、推荐等的人工智能应用实行全面监督管理,才能对全面支持和服务人工智能的技术和应用业务创新。其次,企业要自我颠覆发展,积极应对不确定性的挑战,就必须集成计算-数据-智能,内外融合,实现业务和组织变革。最后,从社会的角度出发,只有建立开放互联、共生协同、互为主体的计算-数据-智能平台和生态,才能有效实行企业间和企业与用户间的相互监督。

推进计算-数据-智能平台和生态建设,我们需要面对一系列挑战。首先,现有平台多数以单主体为核心。如何把这样的平台和生态转变为互为主体的共生协同平台和生态?其次,目前的平台大多聚焦一个行业垂直领域。如何转变为非线性跨领域综合平台?第三,如何打通融合计算、数据和智能服务,孵化孵化新商业模式、新技术应用场景和新关键技术?

我冒昧地提出三点建议。

首先,我们要破壁。我们要鼓励计算-数据-智能产业跨地区跨行业发展,企业跨平台开放、集成和融合数据和智能服务,鼓励数据交易和智能数据创新,严格监管封闭式平台和生态的运营。这对于建立更加广泛包容的电商平台和产业供应链平台至关重要。像贵州这样的大数据产业基地在这方面大有作为,非常重要。

其次,很多创新平台和生态开始的时候很小,缺乏现有的模式和相应的规章制度。最近讨论得比较多的社会互助平台就是一个例子。对于这样的创新平台和生态,我们要鼓励探索新模式,允许快速试错,小步快跑建立相关管理规范。

最后,人工智能的发展不能以牺牲大众隐私和社会安全为代价。我们要保证人工智能技术向善。要及时立法,规范政府监管机构和公众对计算-数据-智能技术和业务的知情权,保护大众隐私和社会安全。

谢谢大家。

雷锋网 AI 科技评论

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
7天前
|
存储 人工智能 算法
【AI系统】计算与调度
本文探讨了计算与调度的概念,特别是在神经网络和图像处理中的应用。通过分离算法定义和计算组织,Halide 等工具能够显著提升图像处理程序的性能,同时保持代码的简洁性和可维护性。文章详细介绍了计算与调度的基本概念、调度树的构建与约束,以及如何通过调度变换优化计算性能。此外,还讨论了自动调优方法在大规模调度空间中的应用,展示了如何通过探索和预测找到最优的调度方案。
26 0
|
7天前
|
数据采集 存储 人工智能
代理IP与AI自我进化:探索未来智能的新边界
在AI快速发展的今天,数据获取成为制约其进步的关键因素。代理IP技术通过匿名性和灵活性,帮助AI突破地域限制、绕过反爬虫机制,提升数据质量和模型训练效率,促进AI自我进化。本文通过实例和代码,探讨了代理IP在AI发展中的作用及潜在价值,强调了合理使用代理IP的重要性。
12 1
|
5天前
|
存储 人工智能 算法
【AI系统】计算图的优化策略
本文深入探讨了计算图的优化策略,包括算子替换、数据类型转换、存储优化等,旨在提升模型性能和资源利用效率。特别介绍了Flash Attention算法,通过分块计算和重算策略优化Transformer模型的注意力机制,显著减少了内存访问次数,提升了计算效率。此外,文章还讨论了内存优化技术,如Inplace operation和Memory sharing,进一步减少内存消耗,提高计算性能。
57 34
【AI系统】计算图的优化策略
|
2天前
|
机器学习/深度学习 人工智能 UED
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
OOTDiffusion是一款开源的AI虚拟试衣工具,能够智能适配不同性别和体型,自动调整衣物尺寸和形状,生成自然贴合的试穿效果。该工具支持半身和全身试穿模式,操作简单,适合服装电商、时尚行业从业者及AI试穿技术爱好者使用。
63 27
OOTDiffusion:开源AI虚拟试衣工具,智能适配性别和体型自动调整衣物
|
2天前
|
机器学习/深度学习 Web App开发 人工智能
Amurex:开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息
Amurex是一款开源的AI会议助手,提供实时建议、智能摘要、快速回顾关键信息等功能,帮助用户提升会议效率。本文将详细介绍Amurex的功能、技术原理以及如何运行和使用该工具。
43 18
Amurex:开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息
|
3天前
|
存储 机器学习/深度学习 人工智能
【AI系统】完全分片数据并行 FSDP
本文深入探讨了AI框架中针对权重数据、优化器数据和梯度数据的分布式并行实现,特别是在PyTorch框架下的具体方案。文章首先回顾了通用数据并行和分布式数据并行的概念,重点讨论了同步与异步数据并行的差异。接着,文章详细介绍了如何在PyTorch中实现弹性数据并行,特别是完全分片数据并行(FSDP)的机制,包括其如何通过分片模型状态和剩余状态来减少内存消耗,提高训练效率。此外,文章还探讨了混合精度训练、损失缩放和内存消耗估算等关键技术,为理解和实施高效的分布式训练提供了全面的指导。
21 9
【AI系统】完全分片数据并行 FSDP
|
4天前
|
机器学习/深度学习 人工智能 PyTorch
【AI系统】数据并行
数据并行是一种在分布式AI系统中广泛应用的技术,通过将数据集划分成多个子集并在不同计算节点上并行处理,以提高计算效率和速度。在大规模机器学习和深度学习训练中,数据并行可以显著加快模型训练速度,减少训练时间,提升模型性能。每个计算节点接收完整的模型副本,但处理不同的数据子集,从而分摊计算任务,提高处理速度和效率。数据并行按同步方式可分为同步数据并行和异步数据并行,按实现方式包括数据并行、分布式数据并行、完全分片的数据并行等。其中,分布式数据并行(DDP)是当前应用最广泛的并行算法之一,通过高效的梯度聚合和参数同步机制,确保模型一致性,适用于大型NPU集群和AI系统。
41 7
【AI系统】数据并行
|
4天前
|
机器学习/深度学习 人工智能 前端开发
【AI系统】计算图的控制流实现
计算图作为有向无环图(DAG),能够抽象神经网络模型,但在编程中遇到控制流语句(如if、else、while、for)时,如何表示成为难题。引入控制流后,开发者可构建更复杂的模型结构,但部署含控制流的模型至不支持Python的设备上较为困难。目前,PyTorch仅支持Python控制流,而TensorFlow通过引入控制流原语来解决此问题。计算图的动态与静态实现各有优劣,动态图易于调试,静态图利于优化。
22 5
【AI系统】计算图的控制流实现
|
4天前
|
机器学习/深度学习 存储 人工智能
【AI系统】计算图与自动微分
自动求导利用链式法则计算雅可比矩阵,从结果节点逆向追溯计算路径,适用于神经网络训练中损失值对网络参数的梯度计算。AI框架中,自动微分与反向传播紧密相连,通过构建计算图实现高效梯度计算,支持动态和静态计算图两种模式。动态图如PyTorch,适合灵活调试;静态图如TensorFlow,利于性能优化。
26 6
【AI系统】计算图与自动微分
|
4天前
|
机器学习/深度学习 人工智能 算法
【AI系统】计算图挑战与未来
当前主流AI框架采用计算图抽象神经网络计算,以张量和算子为核心元素,有效表达模型计算逻辑。计算图不仅简化数据流动,支持内存优化和算子调度,还促进了自动微分功能的实现,区分静态图和动态图两种形式。未来,计算图将在图神经网络、大数据融合、推理部署及科学计算等领域持续演进,适应更复杂的计算需求。
32 5
【AI系统】计算图挑战与未来