AI战略丨拓展智能边界,大模型体系全面升级

简介: 阿里云在基础模型体系和生态、模型工程化落地路径、端云协同解决方案等多维度上都在快速迭代。

image.png
在 AI 时代,除了 AI 基础设施的创新,大模型能力的持续升级、应用创新和生态系统的建设同样至关重要。基于此,阿里云构建了以模型为中心的架构,并在“模型即服务”(MaaS)层面提供了强大的能力支持。

过去一年,整个通义模型大家族得到了全方位的发展,构建了“全尺寸、全模态、多场景”的模型体系,从大语言到视频生成到多模态模型,大模型的能力边界仍在不断扩展,在数学、代码及推理等能力上持续攀升。模型应用也正更进一步结合场景,把模型的能力发挥出来。通义与海内外的开源社区、生态伙伴、开发者共建生态网络,截至 2025 年 2 月底,Qwen 系列衍生模型总数超过 10 万个,超越 Llama 成为世界上最大的生成式语言模型族群。

此外,阿里云一直在探索将大模型能力部署在端侧。在多个权威评测集中,Qwen-1.8B 性能远远超过了此前同规模的模型,推理所需最小的显存不到 1.5 GB,可在手机等消费级终端部署。过去一年,通义大模型基于端云架构已服务汽车、手机、PC、电视、教育硬件、穿戴硬件等千行百态智能终端,加速数字世界与物理世界的深度融合。

百炼平台能够在助力模型能力真正结合在业务场景中发挥作用,同时魔搭社区也在不断推动整个行业的演进。

开源与商业化、基础模型与工程化落地、技术创新与产业生态......阿里云没有做选择题,而是兼收并蓄,去构建一个 AI 与云的商业循环。

夯实根基:基础模型持续升级

基础模型的能力是参数规模、训练数据质量和架构创新维度综合作用的结果,作为智能系统的核心,其多模态理解、逻辑推理、知识泛化等核心能力直接决定了应用场景的上限。优秀的基础模型可使应用开发效率成倍提升,衍生出繁荣的模型生态。

作为业内最早布局大模型技术的科技公司之一,阿里云在持续提升基础模型的智能水平。

2023 年 4 月,阿里云发布大语言模型通义千问,如今通义大模型家族已全面涵盖语言、图像、视频、音频等全模态,性能均跻身世界第一梯队。

通义旗舰模型 Qwen-Max 在 2025 年 1 月 29 日再次升级。Qwen2.5-Max 在知识(测试大学水平知识的 MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力的(LiveBench)以及人类偏好对齐(Arena-Hard)等主流权威基准测试上,展现出全球领先的模型性能。通义团队分别对 Qwen2.5- Max 的指令(Instruct)模型版本和基座(base) 模型版本性能进行了评估测试。指令模型是所有人可直接对话体验到的模型版本,在 Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond 及 MMLU-Pro 等基准测试中,Qwen2.5-Max 比肩 Claude-3.5-Sonnet,并几乎全面超越了 GPT-4o、 DeepSeek-V3 及 Llama-3.1-405B。

截屏2025-03-24 16.19.24.png

与此同时,作为国内最早也是全球唯一一家积极研发先进 AI 模型并且全方位开源的云计算厂商,通义模型率先实现“全尺寸、全模态、多场景”开源,已成为受企业和开发者欢迎的大模型之一。2 月 10 日全球最大 AI 开源社区 Huggingface 发布的最新的开源大模型榜单中,排名前十的开源大模型都是基于阿里通义千问 (Qwen)开源模型二次训练的衍生模型。

开源模型不仅降低了企业的使用门槛,更为模型创新提供了重要基础。企业可以基于开源底座进行领域适配和能力扩展,显著降低研发成本和时间周期。截至 2025 年 2 月底,Qwen 系列衍生模型总数超过 10 万个。

尽管当前 DeepSeek 爆火进一步刷新了全球对开源大模型认知,但在一年多以前,开源并不是共识:OpenAI 没有完全开源,Meta 的大模型效果也差闭源模型一代,业界普遍认为开源效果落后闭源模型效果将成为常态。

但阿里云一直在坚定践行开源路线,从 2023 年 8 月起相继开源 Qwen、Qwen1.5、Qwen2、Qwen2.5 四代模型。2024 年云栖大会上,阿里云发布了通义千问新一代开源模型 Qwen2.5,涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型,每个尺寸都有基础版本、指令跟随版本、量化版本,总计上架 100 多个模型。

Qwen2.5 全系列模型都在 18T Tokens 数据上进行预训练,相比 Qwen2,整体性能提升 18% 以上,拥有更多的知识、更强的编程和数学能力。

Qwen2.5 支持 128K 的上下文长度,可生成最多 8K 内容。拥有强大的多语言能力,支持 29 种以上语言。模型能够响应多样化的系统提示,实现角色扮演和聊天机器人等任务。在指令跟随、理解结构化数据(如表格)、生成结构化输出等方面 Qwen2.5 都进步明显。

语言模型方面,Qwen2.5 开源了 7 个尺寸,0.5B、1.5B、3B、7B、14B、32B、72B,在同等参数赛道都创造了业界最佳成绩。尺寸设定充分考虑下游场景的不同需求,3B 是适配手机等端侧设备的黄金尺寸;32B 是最受开发者期待的“性价比之王”,在性能和功耗之间获得最佳平衡,Qwen2.5-32B 的整体表现超越了 Qwen2-72B;72B 是 Qwen-2.5 系列的旗舰模型,其指令跟随版本 Qwen2.5-72B-Instruct 在多项国际权威测评中表现出色,在多个核心任务上,以不到 1/5 的参数超越了拥有 4050 亿巨量参数的 Llama3.1- 405B。

据 DeepSeek 透露,在 DeepSeek-R1 推理模型官方开源的 6 个蒸馏小模型中,有 4 个是基于 Qwen 构建的,分别是 1.5B、7B、14B 和 32B,不仅在性能上超过更大尺寸的同类模型,更实现了低成本本地化部署。

3 月 6 日,阿里巴巴发布并开源全新的推理模型通义千问 QwQ-32B。通过大规模强化学习,通义千问 QwQ-32B 在数学、代码及通用能力上实现质的飞跃,整体性能比肩 DeepSeek-R1,同时,通义千问 QwQ-32B 还大幅降低了部署使用成本,在消费级显卡上也能实现本地部署——既能提供极强的推理能力,又能满足更低的资源消耗需求,非常适合快速响应或对数据安全要求高的应用场景。

多模态模型方面,2025 年 1 月 28 日开源的第三代视觉模型 Qwen2.5-VL,推出 3B、7B 和 72B 三个尺寸版本。其中,旗舰版 Qwen2.5-VL-72B 在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT-4o 与 Claude3.5。此前,通义团队曾开源 Qwen-VL 及 Qwen2-VL 两代模型,支持开发者在手机、汽车、教育、金融、天文等不同场景进行 AI 探索。

新的 Qwen2.5-VL 能够更准确地解析图像内容,突破性地支持超 1 小时的视频理解,无需微调就可变身为一个能操控手机和电脑的 AI 视觉智能体(Visual Agents),实现多步骤复杂操作。开发者基于 Qwen2.5-VL 也能快速简单开发属于自己的 AI 智能体,完成更多自动化处理和分析任务。

同时,还推出大规模音频语言模型 Qwen-Audio,语音聊天部分融合了语音识别和自然语言理解,不需要多个模型进行衔接,实现了端到端大模型,可以识别音乐、情绪、环境声音等。

2025 年 1 月 9 日,视觉生成大模型通义万相也再次迎来重磅升级,推出万相 2.1 视频生成模型。VBench 榜单显示,通义万相在运动幅度、多对象生成、空间关系等关键能力上拿下最高分,并以总分 84.7% 的成绩斩获第一。

精准理解和模拟物理世界是当下视频生成模型的核心难题,现有模型生成的视频在大幅运动、物理复杂场景表现较差,容易生成肢体扭曲、违背物理定律的视频。针对这一难题,通义万相团队采用自研高效的 VAE 和 DiT 架构,有效增强时空上下文关系建模能力。

加速落地:更好用的模型服务

要把模型应用到企业级场景中,在落地过程中其实还有一系列的挑战。好的模型服务要真正做到灵活、高效、易用,为开发者完全屏蔽大模型构建的复杂性,比如无需关心模型背后的 GPU 的资源、如何拉起模型...... 只需要通过简单的 API 接口,就可以随心所欲调用各种模型。

这正是阿里云百炼所要解决的问题:一方面为企业提供最优质的模型服务,同时也理解企业级的需求,帮助企业去搭建更多基于大模型的应用。基于这样的初心,百炼平台在模型服务能力和产品易用性上持续提升。

在集成多模态能力方面,百炼集成了包含文本生成、图片生成、视觉理解、视频生成、语音识别、语音合成等多场景模型,具备灵活、高效、易用的模型 API 与 SDK,屏蔽了云资源、一方及三方模型使用的复杂度,可直接调用。

在增强工作流与智能体的流程编排能力方面,支持高度自定义 SOP 流程执行,提供 Multi-Agent+Workflow 智能决策的混合应用编排。工作流应用将复杂任务拆解为若干子任务,以提高工作流程可控性,用户可以通过拖拽节点来创建自定义的任务流程。智能体编排应用支持多智能体协作的流程式 AI 应用,使用户能够编排多个智能体的执行逻辑,也可以使多个智能体自动规划和执行任务,比如“综合调研报告”场景中,会组建一个报告撰写团队,包括负责写作意图识别、大纲书写、总结摘要、智能绘图、事件研判、段落撰写、文笔润色等任务的智能体;“软件开发团队”场景中,会组建一个智能体开发团队,包括负责需求分析、系统设计、编码实现、测试调试、文档编写等任务的智能体。

在精细化运营工具、辅助观测与优化应用效果方面,提供应用全链路可观测可分析平台,支持模型效果评价与干预,可以显著提升应用效果。

此外,模型开源是推动人工智能技术发展的关键途径,能有效降低个人和企业获取和使用人工智能技术的门槛和成本,从而构建繁荣的 AI 创新生态系统。汇集了海量开源模型的开源社区也正成为 AI 开发者学习、分享经验和交流成果的重要平台。

在阿里云整个模型生态中很重要的一环,是其推出并与包括开发者、初创企业在内的众多伙伴合力建设的魔搭社区。作为最早提出模型即服务(MaaS)理念的企业,阿里云一直把大模型生态繁荣作为首要目标。目前,魔搭社区已经成为中国最大的模型社区,拥有超过 1100 万用户,与行业合作伙伴贡献了超过 5 万款模型。未来,阿里云希望继续跟大家一起,持续推动魔搭社区的健康发展。

释放能力:模型应用更新

为了把模型能力更有效地释放出来,通义模型家族有一系列模型应用帮助开发者和企业实现更有效地利用 AI。

2024 年被普遍认为是大模型应用落地的元年,大企业在研产供销服全面探索,中小企业则选择典型场景进行重点突破。得益于数据就绪度高、任务结构化强、容错空间大、经济效益显著等优势,编程、客服等成为大模型率先落地的典型场景。

面向编程场景,通义灵码推出的全新 AI 程序员,同时具备架构师、开发工程师、测试工程师等多种岗位技能,能自主完成任务拆解、代码编写、缺陷修复、测试等开发工作,最快分钟级完成应用开发,提升数十倍开发效率。编程助手通义灵码发布仅 14 个月,下载量超 900 万,编写代码超 15 亿行。

2025 年 1 月 8 日,通义灵码再次升级,成为全球首个同时支持 VS Code、JetBrains IDEs 开发工具的 AI 程序员,可通过对话协作的方式辅助开发者完成复杂的编码任务。

在能力升级方面,此次通义灵码 AI 程序员首次引入多文件代码修改能力。开发者可通过 AI 程序员自动完成多文件级编码任务,如需求实现、问题修复、批量生成单元测试等。在单元测试生成时,可以针对当前代码变更、单个或多个代码文件批量生成单元测试。开发者输入被测内容,AI 程序员即可自动生成测试计划、测试用例,进行编译、运行及自动修复,大幅提升测试用例覆盖度和质量,降低开发者编写单元测试用例的成本。

同时,此次升级通义灵码 AI 程序员还新增了多种开发能力,如上下文感知、意图理解、反思迭代、工具使用等,开发者可在 AI 程序员协作下完成更多复杂的编码任务。在开发者和 AI 程序员的协作过程中,双方将以多轮对话的方式逐步完成编码任务,并且会产生多个快照版本,开发者可任意切换、回退。

通义灵码 AI 程序员还可打破开发者编程语言的边界,Java 开发者也能使用 Python、JavaScript 等多种语言,快速编写网页、小工具、小游戏。以从 0 到 1 开发一个具有用户登录、数据管理功能及美化的前端页面为例,过去纯人工开发需要前端及后端工程师配合,至少需要耗费半天时间,现在使用通义灵码 AI 程序员,一名程序员仅需 10 分钟就能完成整个开发过程,大幅提升业务开发效率。

目前,通义灵码已经入职中华财险、哈啰集团、长安汽车等公司,累计生成代码超 10 亿行,是国内最受欢迎的辅助编程工具。

在办公及学习场景,实时记录(听悟)和阅读助手(智文)均已集成在通义 APP 和 Web 端,实时记录可以通过语音转文字进行实时录音转写,基于音色分辨不同发言人,智能总结生成纪要与脑图,语音识别准确率高于 98%;阅读助手可以处理复杂文件,最大可以支持 1000 万字 100M 超长文档,本次新增支持长窗口多语言翻译,通过速读进行全文翻译和文档回答。

拓展边界:大模型的端侧应用

相比于云端部署,端侧部署可以显著降低延迟,实现数据的本地化处理,并提供个性化的用户体验。然而,由于边缘设备的计算能力和存储资源有限,如何在保证性能的前提下,实现大语言模型的高效部署,成为了一个关键问题。

阿里云一直在探索将大模型能力部署在端侧。过去一年,通义大模型基于端云架构已服务汽车、手机、PC、电视、教育硬件、穿戴硬件等千行百态智能终端,实现 AI 能力进化。

在这背后,是通义提供大模型端云架构,通过异构算力适配、多源模型供给、端云平台协同、全链路安全保障,全面支撑千行百态智能终端各类 AI 应用。

异构算力适配层面,阿里云与各大芯片公司紧密合作,全面支持主流端侧算力芯片平台,有效地利用 CPU、GPU、NPU 进行模型推理加速,在有限的硬件性能下提供更好的推理服务。以智能手机为例,阿里云与联发科联合宣布了端云协同技术,成功将“通义千问”大模型部署在 SoC 上,首次实现了在手机芯片端对大模型的深度适配。

在模型供给层面,通义系列全尺寸的大语言模型,从 0.5B 到千亿参数,从端侧到云侧都有覆盖,在模型类别层面,有大语言模型、图像模型、语音模型等。

在云端协同层面,通过百炼平台可以快速搭建,实现多 Agent,以及用户不同功能在云端的协同处理。

在安全层面,阿里云提供了全链路的安全解决方案,一是 Prompt 进入和返回结果之间全链路加密,保证用户隐私不泄露;二是所有用户数据,包括日志数据、多模态训练数据留在用户 VPC,确保用户控制数据权限。

端云混合AI可充分利用终端设备的算力,在运营成本、用户信息安全、实时性以及个性化用户体验等方面具备显著优势。

这个项目中通义大模型落地到终端的产品化过程有三个阶段。

首先,模型“瘦身”。通过量化、参数剪枝和知识蒸馏等多种技术手段减小模型体积。量化是将模型的浮点数参数转化为更高效的低位宽整数形式,减少存储和计算资源的需求;参数剪枝则是通过移除非核心参数来缩减模型规模;知识蒸馏是利用一个小型但高效的模型模仿复杂大模型的行为,既能实现模型的轻量化,又能保持其性能。

其次,适配优化。量化后的模型虽然体积缩小,但可能会出现性能损失。所以还需要各种优化调整,进一步提升模型性能,确保其在手机上的高效运行。

最后,产品工程。经过优化后的大模型,还需要进一步提升其潜能,逐步增强模型能力,更好地适应终端应用的具体需求。

端云协同充分融合了云计算与边缘计算的优势,具备低延迟、隐私保护、离线能力、节省带宽和实时处理的优势。

除了端云协同,阿里云还在进行全新探索。智能终端大模型交互引擎通义 Mobile-Agent 正式推出。

通过输入一句指令,AI 就可以作为智能中枢,根据指令在手机上自动规划和操作各种 APP,操作场景包括但不限于导航、购物、组织电话会议、更改系统设置,其准确程度如同人类在操作手机一般,通过 Mobile-Agent,用户将拥有一个手机端的超级智能助理,通过指令就可以使用手机端已授权 APP 完成任务。

即使是具有挑战性的多 APP 切换场景,Mobile-Agent 也能得心应手。凭借智能体对操作历史的记忆,Mobile-Agent 可以实现信息在 APP 之间的传递和加工。

其技术亮点包括:纯视觉解决方案,仅需感知截屏内容即可生成操作,不依赖 APP 的 UI 布局文件或系统底层代码;操作场景不受限,可以在手机桌面或 APP 内部进行操作,从而完成更复杂的操作内容;视觉感知工具定位,使用文字识别和图标识别模块用于定位需要操作的区域;即插即用,无需任何探索和训练过程。

2024 年 7 月,新版本 Mobile-Agent-v2 推出,有几大改进亮点:继续采用纯视觉方案、多智能体协作架构、增强的任务拆解能力、跨应用操作能力以及多语言支持。

同年 9 月,阿里云宣布与英伟达、斑马智行一起合作,把这项技术成功落在了汽车智能座舱场景中,提供座舱屏幕感知、复杂任务规划以及座舱应用 UI 的操作决策能力,大大扩展座舱智能助理的能力边界。

结语

可以看到,随着完整的基础模型体系和生态、模型工程化落地路径、端云协同解决方案等多维度技术迭代,阿里云正全速推动拓宽 AI 能力边界,迎接智实融合的未来。

相关文章
|
4天前
|
人工智能 测试技术 计算机视觉
让AI看懂3小时长视频!Eagle 2.5:英伟达推出8B视觉语言模型,长视频理解能力碾压72B大模型
Eagle 2.5是英伟达推出的8B参数视觉语言模型,通过创新训练策略在长视频和高分辨率图像理解任务中超越更大规模模型,支持512帧视频输入和多样化多模态任务。
74 10
让AI看懂3小时长视频!Eagle 2.5:英伟达推出8B视觉语言模型,长视频理解能力碾压72B大模型
|
5天前
|
人工智能 运维 JavaScript
当AI学会了自我升级,天网还会远吗?
文章通过一个模拟侦探游戏的例子展示了AI如何通过“自我升级”和动态执行代码的能力来解决复杂问题。
当AI学会了自我升级,天网还会远吗?
|
5天前
|
人工智能 自然语言处理 运维
让AI读懂K线图!ChatTS-14B:字节开源的时间序列理解和推理大模型,自然语言提问秒解趋势密码!
ChatTS-14B是字节跳动开源的时间序列专用大模型,基于Qwen2.5-14B微调优化,通过合成数据对齐技术显著提升分析能力,支持自然语言交互完成预测推理等复杂任务。
45 1
让AI读懂K线图!ChatTS-14B:字节开源的时间序列理解和推理大模型,自然语言提问秒解趋势密码!
|
4天前
|
机器学习/深度学习 人工智能 自动驾驶
让AI看懂图像每个像素!英伟达推出多模态大模型 DAM-3B:图像视频局部描述精度提升300%
英伟达推出的DAM-3B多模态大语言模型,通过创新的焦点提示技术和局部视觉骨干网络,实现了对图像和视频中特定区域的精准描述生成,为内容创作和智能交互领域带来全新可能。
78 0
让AI看懂图像每个像素!英伟达推出多模态大模型 DAM-3B:图像视频局部描述精度提升300%
|
5天前
|
开发框架 人工智能 Java
破茧成蝶:传统J2EE应用无缝升级AI原生
本文探讨了技术挑战和解决方案,还提供了具体的实施步骤,旨在帮助企业顺利实现从传统应用到智能应用的过渡。
破茧成蝶:传统J2EE应用无缝升级AI原生
|
5天前
|
人工智能 自然语言处理 安全
90.9K star!一键部署AI聊天界面,这个开源项目让大模型交互更简单!
"像使用微信一样操作大模型!Open WebUI 让AI对话从未如此简单"
|
5天前
|
人工智能 达摩院 搜索推荐
通义大模型:解码中国AI的"通"与"义"
“通义”取自中国传统文化中“通晓大义”,寓意技术与人文的结合。作为阿里巴巴旗下的超大规模语言模型,通义在知识蒸馏、动态稀疏激活和文化感知模块上实现三大突破,大幅提升效率与适切性。其已在医疗、司法、文化传播等领域落地,如辅助病历处理、法律文书生成及文物解说等。测试显示,通义在中文诗歌创作、商业报告生成等方面表现优异。同时,开放的开发者生态已吸引5万+创新者。未来,通义将探索长期记忆、自我反思及多智能体协作,向AGI迈进,成为智能本质的载体。其对中文语境情感的精准把握,更是中国AI“通情达义”的典范。
57 22
|
5天前
|
人工智能 自然语言处理 达摩院
通义大模型:中国AI领域的新里程碑
本文介绍了阿里巴巴达摩院研发的“通义大模型”系列,该模型在2025年已成为AI领域的重要里程碑。通义大模型拥有超大规模参数、多模态融合、高效训练框架和中文优化等技术特点,在智能客服、内容创作、教育和企业服务等多个场景实现应用。未来,它将在多模态能力、小样本学习、安全性及应用场景拓展等方面持续突破,推动中国AI技术进步与行业智能化转型。
143 17
|
1天前
|
存储 人工智能 安全
阿里云双项入选首批智算一体化权威评估 以AI Stack加速政企智能化升级 ——万卡智算集群服务推进方阵(ICCPA)第三期沙龙在京举办
2024年4月9日,中国信通院主办的智算集群服务沙龙第三期在京召开。阿里云凭借领先的AI技术能力,成为首批通过《面向大模型的智算一体化解决方案》评估的云厂商,并入选行业应用案例。会上,阿里云AI Stack赋能政企大模型高效落地,提供软硬一体推理优化框架,支持主流开源模型快速适配,助力企业构建高性能私有化AI服务,已在政务、金融等领域广泛应用。
|
5天前
|
人工智能 自然语言处理 安全
下一篇
oss创建bucket