飞天技术观丨开放的Autonomous Cloud,开启AI崭新时代

简介: 面向智能时代,阿里云将通过从底层算力到AI平台再到模型服务的全栈技术创新,升级云计算体系,打造一朵AI时代最开放的云。2023年,AI和云计算也终于走在一起,融合出更有生命力的广阔空间。

云栖战略参考 2023版头_副本.png

《云栖战略参考》由阿里云与钛媒体联合策划,呈现云计算与人工智能领域的最新技术战略观点与业务实践探索,希望这些内容能让您有所启发。

文/周靖人「阿里云首席技术官」

1958年中国第一台小型计算机研发成功,1987年中国第一封电子邮件诞生,1994年中国第一次接入国际互联网......这些标志性事件意味着中国计算机、互联网产业进入到了一个快速发展的时代。阿里云正是诞生于这样一个科技创新的浪潮中,经过数年磨练。

今天,我们处在一个数据爆炸、计算能力飞速提升的时代。在这个时代,算力成为社会发展科技创新的重要动力。阿里云也依靠多年演进、积累的技术能力和AI基础设施,为各行各业的模型训练、模型服务的需求提供坚实的支撑,助力各行各业一起在智能化时代里定义无限的未来。

8.png

全面升级,做好AI时代的基础设施

阿里云在成立之初就认为“数据中心是一台计算机”,这句话在AI时代有更深层次的含义,被进一步论证。当前,单个芯片的计算能力有大幅度的提升,但大模型的提升不是靠单一芯片完成,是靠成千上万的芯片完成。实现分布式的超大规模的训练,是云计算把成千上万的计算模块有效融合成一个计算引擎,组建成更强大的计算机,突破单一芯片性能瓶颈,帮助模型训练以及为更广阔的人工智能提供创新的支持。

这次技术变革中一个非常重要的特点是:想要取得领先地位,必须既懂AI又懂云计算,两者是紧密联系相辅相成的,缺一不可。有算法的能力但是缺少云计算的支持,就会很难发展起来;同样,只有云计算却没有进行AI时代的全面升级,也会最终面临淘汰。

阿里云的云计算基础能力并没有止步于过去已有的沉淀,而是螺旋上升地在AI时代进一步探索和夯实。

大模型是2023年AGI变革的技术核心,基础模型的质量则很大程度决定了AI应用的前景。训练大模型是囊括了算力底座、网络、存储、大数据、AI框架、AI模型等复杂技术的系统性工程,只有强大的云计算才能训练出高质量的大模型。为此,阿里云全线产品为支撑AI的发展、开发进行了技术升级。

为了保证大模型训练的稳定互联和高效并行计算,阿里云全新升级了人工智能平台PAI(Platform for AI)。

大模型训练方面,要求成千上万片GPU要实现高速互联、复杂的训练算法要有效并行、以高效算力调度实现计算和通讯的平衡、容错与快速故障恢复。PAI灵骏超高性能分布式模型训练平台具有高吞吐、低延时的网络,同时通过分布式调度、分布式编译,能在超大规模分布式训练上做到线性加速比96%。在容错方面,通过Tracepoint技术实时做封装级的故障检测、恢复,真正意义上帮助模型开发者、AI应用开发者有效地完成各种挑战性任务。

在模型推理层面也面临诸多挑战,例如算力性价比影响应用规模、延时敏感应用依赖就近推理服务、用量波动需要弹性伸缩和高可用服务。这一系列的问题无形之中由云计算的核心能力来逐一解决,包括推理能力、分布全球的数据中心布局,以及弹性计算的支持。

灵积平台可以做到低延时的模型推理和相关的服务。一方面,通过一系列的优化来降低模型服务的延迟;另一方面,在不影响模型效果的前提下,不断降低模型服务的成本。同时,运用稳定的弹性能力实现自动扩缩容,不断优化模型的性价比。

人工智能平台PAI作为中国大模型的公共AI算力底座,正承载着众多大模型企业、高校、科研机构的创新,参与到他们业务体系的成功中。

除了通义大模型,中国一半大模型公司跑在阿里云上,百川智能、智谱AI、零一万物、昆仑万维、vivo、复旦大学等大批头部企业及机构均在PAI上训练大模型。

未来,随着大模型技术与云计算本身的融合,云也可以像车一样能够自动驾驶,大幅提升开发者使用云的体验。

阿里云正在进行云产品的全面AI升级,走向Autonomous Cloud。通过把云的管理、运维、开发等各方面实现智能化,真正做到自动管理、自动运维、自动开发,成为“自动驾驶的云”。

在智能系统优化方面,利用AI实现更智能地调整各种性能参数,保障整个系统一直处于最优状态;在AI辅助开发方面,通过在各开发平台引入AI,帮助开发者提升AI的开发效率;在智能运维管理方面,借助AI实现更及时、更精准的系统运维;在智能客服方面,通过引入语言大模型,打造智能对话机器人、智能外呼机器人,更有效地服务企业和开发者。

阿里云上已有超过30款云产品接入了大模型能力,例如阿里云大数据治理平台DataWorks新增了全新的交互形态——DataWorks Copilot,用户只需用自然语言输入即可生成SQL,并自动执行相应的数据ETL操作,整体开发与分析可提效30%以上,堪比“自动驾驶”。

更好的大模型,加速应用的创新

当下,千行百业都想借助大模型实现业务模式的变革,但大模型使用的高门槛把大部分人挡在了技术浪潮之外。不论是定制专属大模型,还是基于大模型构建创新应用,都有很高的人才、技术、资金要求。

在Model as a Service的理念下,整个模型生态对人工智能产业的落地是至关重要的,每一环都是当前需要解决的一个重要方向。

模型生态中,除了底层基础模型,还会衍生出各种各样更加理解行业知识的行业模型,不同行业有不同的思维方式,如何把思维、应用的方式融入进去,是模型在行业落地的关键,不可避免地要做到很多知识增强和微调工作。

因此,通义模型大家族进行了全面升级——在底层基础模型之上,发布了一系列产业模型,目标是通过一系列的模型家族升级,真正意义上帮助大家解决各种各样的问题和挑战,推进模型的落地应用。

首先,基础模型层面,语言大模型通义千问来自阿里云多年的技术积累,从今年4月份第一次发布以来受到了广大开发者以及社会的关注,整个模型和产品也是在不停地迭代,不停地突破和创新。10月31日,在2023云栖大会上通义千问2.0发布,升级为千亿参数的模型,在业界各种评测指标上全面达到国际先进水平。此外,文生图基础大模型通义万相自7月份发布以来也受到了广泛关注,这款人工智能艺术创作大模型至今已经生成了超过1000万张图片。

为推动大模型更易在千行百业落地,阿里云基于通义千问基础大模型“打样”了8个行业大模型,包括通义听悟、通义晓蜜、通义星尘、通义灵码、通义点金、通义智文、通义法睿、通义仁心。

通义听悟作为工作学习的AI助手,在会议交流、教学培训、调研访谈、音视频理解与问答等场景下把多媒态的体验、语音的体验、自然语言的相关总结能力有机地结合在一起。“听悟”有两个含义,一个是“听”,能够听得懂;第二个是“悟”,能够理解讲话过程中的相关内容。它不仅能记录,还可以区分对话人、提炼要点、无缝转换成外语。过去两个多月,已经有累计超过100万的用户使用了听悟,每天处理音视频个数超5万,每日处理小时数超3万。个性化角色创作平台通义星尘,可以把人的个性引入到日常对话里,创造虚拟人,用于游戏、陪伴、教学服务等多样化应用场景。智能编码助手“通义灵码”,基于通义大模型,经过海量优秀开源代码数据与研发知识训练,提供代码智能生成,研发智能问答能力。通义晓蜜是一款助力企业服务向智能化与多模态转型的产品,它可以承担客户服务,也能提升客服效率、实现坐席赋能。

通义点金是一款智能投研助手产品,通过多样化海量金融数据训练、引入多智能体决策协助、多源实时数据接入,能够更加有效地分析复杂问题,成为有效帮助使用者的投资小助手。此外,还有用于文献阅读的通义智文、提供法律咨询及文书生成等服务的通义法睿,以及提供医药领域咨询问答的通义仁心等。

以上所有基础模型、应用模型的能力,都可以通过多种接入方式调用,各行各业的开发者、合作伙伴、企业级的客户都能真正意义上将AI模型能力集成在自己的业务系统里,更有效地去解决实际的业务问题。

在AI场景的落地里面,企业还会面临一系列挑战。例如如何在一个安全的环境里面,让模型和企业自身的数据以及自身的知识体系有效地融合?企业的应用也非常复杂,会存在各种各样的调用形式,那如何有效地解决集成问题?

为此,阿里云推出了一站式大模型应用开发平台——阿里云百炼。

9.png

该平台集成了国内外主流优质大模型,提供模型选型、微调训练、安全套件、模型部署等服务和全链路的应用开发工具,为用户简化了底层算力部署、模型预训练、工具开发等复杂工作。开发者可在5分钟内开发一款大模型应用,几小时即可“炼”出一个企业专属模型,开发者可把更多精力专注于应用创新。

通过与企业的知识体系有效地连接,“百炼”能够真正编排适合当前业务场景的应用系统,有效解决企业模型落地的重要需求、技术难题。

目前,央视网、朗新科技、亚信科技等企业已率先在阿里云百炼上开发专属模型和应用。例如朗新科技在云上训练出电力专属大模型,开发“电力账单解读智能助手”“电力行业政策解析/数据分析助手”,为客户接待提效50%、投诉降低70%;基于百炼,亚信打造了一款伴读助手,满足了阅读和知识整理的需求。

用坚定的开放,共促AI生态的繁荣

阿里巴巴集团董事会主席蔡崇信在云栖大会期间表示,阿里云要做“AI时代最开放的一朵云”。不开放就没有生态,没有生态就没有未来。

开放也是阿里云创始人王坚博士留下的基因。相较业内普遍使用的“公有云”叫法,王坚博士更倾向于称之为“公共云”。这符合他对于云计算就像水电煤的直觉判断,他认为,“就像电一样,每分钟、每秒钟都在用,但你不会感觉到它的存在了,云计算也是这样的公共服务”。

秉持着“服务好各种各样的开发者”的初心,阿里云最核心要做的就是建设一套“开放的技术体系”,把最核心的AI基础设施开放给开发者使用,同时积极参与模型社区的建设和繁荣。

10.png

在AI时代,开发者有各种各样的画像。

拥有技术实力和前瞻性想法的大模型初创公司,如百川智能和相关科研机构,希望利用阿里云世界级水平的AI基础设施,有效获得超大规模的模型训练。而这绝对不是一个简单的GPU芯片的堆积,其中涉及网络、存储、调度和容错等方面问题。如何在这样一个AI竞争的时代里,能够快速迭代,这是制胜的关键。也就是说,谁有最强有力的AI基础设施,就会在这样一场AI竞争里面脱颖而出。

还有一些开发者基于某种原因,不做模型而更关注业务系统和应用,希望直接使用已经训练后的模型。所以具备二次开发能力的开发者,就可以直接使用已训练好的开源的通义千问基础模型,进行模型的微调和改进。而针对企业级客户,百炼会以产品化的形式,帮助开发者做模型的二次开发。

当然也存在许多开发者希望从零开始建模型,阿里云就将魔搭社区所有开源的模型进行开放,让开发者在这之上自由发挥、创造。

最后还有一类只关注模型使用的开发者,他们希望只需要通过API的方式接入大模型,不做额外的调整就能使用完整模型。阿里云就为这些开发者提供更多开放接口和行业模型供其使用,同时也在魔搭社区上提供第三方模型,让开发者以API的方式快速对接到自己的业务系统。

在2022年云栖大会上,魔搭模型社区正式发布。短短一年,魔搭社区已经发展成为中国最大的AI模型社区,这里有2400多个高质量模型、300万活跃用户,达到了1.2亿模型下载量。

11.png

在这个社区中,包括创业公司、研究机构、学校等各界组织,都非常积极地贡献自己的模型。今天,魔搭社区已经成为开源平台上一个重要渠道,比如大模型公司都把魔搭社区作为模型发布的一个重要阵地。早在一两年之前,我和智谱科技首席科学家、清华大学教授唐杰聊起要做“魔搭”的时候,唐杰说一定会把模型放在这里,但没有想到一年以后魔搭社区能够有上亿的模型下载量。除了模型,魔搭社区也提供了非常丰富的数据集,帮助大家实现模型创造、创新。

同时,阿里云也在为广大的开发者提供免费算力。截至目前,阿里云已经提供了累计3000万GPU小时的免费算力,能够让社会各界在阿里云上创造自己的模型,去尝试各种模型。同时,通过创空间大家分享自己模型使用的体验,共同营造AI的生态,帮助整个产业快速发展。

2023年8月到12月,通义千问陆续进行了18亿、70亿、140亿、720亿参数规模的开源,通义千问也成为了业界首个“全尺寸开源”的大模型。

Qwen-72B在10个权威基准测评创下开源模型最优成绩,成为业界最强开源大模型,性能甚至超越开源标杆Llama 2-70B和大部分商用闭源模型,填补了中国LLM开源领域的空白。如果说,Qwen-72B“向上摸高”,抬升了开源大模型的尺寸和性能天花板,那么12月同时开源的Qwen-1.8B就是“向下探底”,成为尺寸最小的中国开源大模型,推理2K长度文本内容仅需3G显存,可在消费级终端部署。

用户可在魔搭社区直接体验Qwen系列模型效果,也可通过灵积调用模型API,或基于阿里云百炼平台定制大模型应用。

开源生态对促进中国大模型的技术进步与应用落地至关重要,通义千问将持续投入开源,希望成为“AI时代最开放的大模型”,与伙伴们共同促进大模型生态建设。

作为一朵开放的云,阿里云针对所有企业、各种各样的开发者,保持开放的心态,在不同层面提供开放的产品技术支持,服务企业和开发者快速在自己熟悉的领域实现创新突破。创新也是无处不在的,大模型的能力只有赋予开发者和合作伙伴,让他们发挥自己的创造力,AI的产业才能得到突飞猛进的发展。

目录
打赏
0
0
0
0
21
分享
相关文章
AI驱动的幼儿跌倒检测——视频安全系统的技术解析
幼儿跌倒检测系统基于AI视频技术,融合人体姿态识别与实时报警功能,为幼儿园安全管理提供智能化解决方案。系统通过YOLOv9、OpenPose等算法实现高精度跌倒检测(准确率达98%),结合LSTM时间序列分析减少误报,支持目标分类区分幼儿与成人,并具备事件存储、实时通知及开源部署优势。其高效、灵活、隐私合规的特点显著提升安全管理效率,助力优化园所运营。
AI驱动的幼儿跌倒检测——视频安全系统的技术解析
开源AI守护后厨——餐饮厨房视频安全系统的技术解析
餐饮厨房视频安全系统是一套融合开源AI技术与视频监控的智能化解决方案,涵盖实时检测、行为监测、数据分析、公众透明化及反馈闭环五大模块。系统通过YOLOv8、ResNet等算法实现后厨卫生与操作规范的精准监控,识别率达97%,问题响应时间缩短至秒级。同时支持后厨直播与监管对接,提升消费者信任和管理效率。其灵活开源的特点,为食品行业安全管理提供了高效、透明的新路径,未来可扩展至食品加工等领域。
AI大模型进阶系列(01)看懂AI大模型的主流技术 | AI对普通人的本质影响是什么
本文分享了作者在AI领域的创作心得与技术见解,涵盖从获奖经历到大模型核心技术的深入解析。内容包括大模型推理过程、LLM类型、prompt工程参数配置及最佳实践,以及RAG技术和模型微调的对比分析。同时探讨了AI对社会和个人的影响,特别是在deepseek出现后带来的技术革新与应用前景。适合希望了解AI大模型技术及其实际应用的读者学习参考。
Java程序员在AI时代必会的技术:Spring AI
在AI时代,Java程序员需掌握Spring AI技术以提升竞争力。Spring AI是Spring框架在AI领域的延伸,支持自然语言处理、机器学习集成与自动化决策等场景。它简化开发流程,无缝集成Spring生态,并提供对多种AI服务(如OpenAI、阿里云通义千问)的支持。本文介绍Spring AI核心概念、应用场景及开发步骤,含代码示例,助你快速入门并构建智能化应用,把握AI时代的机遇。
探讨 AI 驱动自适应数据采集技术
在当今互联网环境下,网页结构动态变化日益复杂,传统数据采集技术面临巨大挑战。本文探讨了基于AI算法的自适应数据采集方法,结合爬虫代理、Cookie与User-Agent设置等关键技术,应对动态页面变更。通过Python示例代码,展示如何稳定抓取目标网站数据,并分析该技术的优势、挑战及实际应用注意事项,为未来数据采集提供了新思路。
133 44
AI 驱动下的阿里云基础设施:技术创新与产品演进
本文整理自阿里云智能集团副总裁、阿里云弹性计算产品线与存储产品线负责人吴结生在“2025 AI势能大会”上的演讲,重点介绍了阿里云在AI基础设施领域的技术创新与产品演进。内容涵盖CIPU架构、盘古存储系统、高性能网络HPN等关键技术,以及第九代英特尔企业实例、ESSD同城冗余云盘等新产品发布。同时,文章详细阐述了灵骏集群的优化措施和可观测能力的提升,展示阿里云如何通过持续创新为AI负载提供强大支持,助力企业在AI时代实现智能化转型。
AI 驱动下的阿里云基础设施:技术创新与产品演进
中国AI编码工具崛起:技术突围、生态重构与开发者新范式
中国AI编码工具如通义灵码、百度Comate等,正从西方产品的主导中突围。通过大模型精调、中文友好型理解及云原生赋能,构建差异化优势。这些工具不仅提升效率,还推动中国软件产业从使用者向标准制定者转变。然而,技术原创性、生态碎片化和开发者信任危机仍是挑战。未来目标不是取代现有工具,而是定义适合中国开发者的智能编码新范式。
67 23
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。
153 13
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
数字化转型需要的技术:生成式AI时代的全栈能力图谱
本文探讨生成式AI推动下的数字化转型技术需求转变,从技术本质、实施路径、伦理规制三方面解构核心要素。技术本质从工具理性进化到能力体系,需建立模型思维、多模态交互和自主进化能力。实施路径分为认知重构、实验验证与迭代优化三个阶段。同时,文章介绍生成式人工智能认证(GAI认证)的战略价值,强调其在能力基准建立、技术合作及创新生态接入中的作用。最后,文章分析组织能力进化与未来技术前沿,如认知智能、具身智能和群体智能的演进方向,为企业提供全面的技术赋能与战略转型指导。
AI驱动的开源治理——社会综合治理智慧化系统的技术突破
通过AI识别与智能监控精准捕捉不文明行为,生成证据链并分级预警,识别精度达98%;跨部门联动平台打破信息孤岛,实现多部门高效协作,事件处置时间缩短至5分钟;多场景适配的开源架构支持景区、校园等多样化需求,灵活部署边缘计算优化性能。试点成效显著,大幅提升治理效能。
50 14
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等