AI战略丨拓展智能边界,大模型体系全面升级

简介: 阿里云在基础模型体系和生态、模型工程化落地路径、端云协同解决方案等多维度上都在快速迭代。

image.png
在 AI 时代,除了 AI 基础设施的创新,大模型能力的持续升级、应用创新和生态系统的建设同样至关重要。基于此,阿里云构建了以模型为中心的架构,并在“模型即服务”(MaaS)层面提供了强大的能力支持。

过去一年,整个通义模型大家族得到了全方位的发展,构建了“全尺寸、全模态、多场景”的模型体系,从大语言到视频生成到多模态模型,大模型的能力边界仍在不断扩展,在数学、代码及推理等能力上持续攀升。模型应用也正更进一步结合场景,把模型的能力发挥出来。通义与海内外的开源社区、生态伙伴、开发者共建生态网络,截至 2025 年 2 月底,Qwen 系列衍生模型总数超过 10 万个,超越 Llama 成为世界上最大的生成式语言模型族群。

此外,阿里云一直在探索将大模型能力部署在端侧。在多个权威评测集中,Qwen-1.8B 性能远远超过了此前同规模的模型,推理所需最小的显存不到 1.5 GB,可在手机等消费级终端部署。过去一年,通义大模型基于端云架构已服务汽车、手机、PC、电视、教育硬件、穿戴硬件等千行百态智能终端,加速数字世界与物理世界的深度融合。

百炼平台能够在助力模型能力真正结合在业务场景中发挥作用,同时魔搭社区也在不断推动整个行业的演进。

开源与商业化、基础模型与工程化落地、技术创新与产业生态......阿里云没有做选择题,而是兼收并蓄,去构建一个 AI 与云的商业循环。

夯实根基:基础模型持续升级

基础模型的能力是参数规模、训练数据质量和架构创新维度综合作用的结果,作为智能系统的核心,其多模态理解、逻辑推理、知识泛化等核心能力直接决定了应用场景的上限。优秀的基础模型可使应用开发效率成倍提升,衍生出繁荣的模型生态。

作为业内最早布局大模型技术的科技公司之一,阿里云在持续提升基础模型的智能水平。

2023 年 4 月,阿里云发布大语言模型通义千问,如今通义大模型家族已全面涵盖语言、图像、视频、音频等全模态,性能均跻身世界第一梯队。

通义旗舰模型 Qwen-Max 在 2025 年 1 月 29 日再次升级。Qwen2.5-Max 在知识(测试大学水平知识的 MMLU-Pro)、编程(LiveCodeBench)、全面评估综合能力的(LiveBench)以及人类偏好对齐(Arena-Hard)等主流权威基准测试上,展现出全球领先的模型性能。通义团队分别对 Qwen2.5- Max 的指令(Instruct)模型版本和基座(base) 模型版本性能进行了评估测试。指令模型是所有人可直接对话体验到的模型版本,在 Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond 及 MMLU-Pro 等基准测试中,Qwen2.5-Max 比肩 Claude-3.5-Sonnet,并几乎全面超越了 GPT-4o、 DeepSeek-V3 及 Llama-3.1-405B。

截屏2025-03-24 16.19.24.png

与此同时,作为国内最早也是全球唯一一家积极研发先进 AI 模型并且全方位开源的云计算厂商,通义模型率先实现“全尺寸、全模态、多场景”开源,已成为受企业和开发者欢迎的大模型之一。2 月 10 日全球最大 AI 开源社区 Huggingface 发布的最新的开源大模型榜单中,排名前十的开源大模型都是基于阿里通义千问 (Qwen)开源模型二次训练的衍生模型。

开源模型不仅降低了企业的使用门槛,更为模型创新提供了重要基础。企业可以基于开源底座进行领域适配和能力扩展,显著降低研发成本和时间周期。截至 2025 年 2 月底,Qwen 系列衍生模型总数超过 10 万个。

尽管当前 DeepSeek 爆火进一步刷新了全球对开源大模型认知,但在一年多以前,开源并不是共识:OpenAI 没有完全开源,Meta 的大模型效果也差闭源模型一代,业界普遍认为开源效果落后闭源模型效果将成为常态。

但阿里云一直在坚定践行开源路线,从 2023 年 8 月起相继开源 Qwen、Qwen1.5、Qwen2、Qwen2.5 四代模型。2024 年云栖大会上,阿里云发布了通义千问新一代开源模型 Qwen2.5,涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型,每个尺寸都有基础版本、指令跟随版本、量化版本,总计上架 100 多个模型。

Qwen2.5 全系列模型都在 18T Tokens 数据上进行预训练,相比 Qwen2,整体性能提升 18% 以上,拥有更多的知识、更强的编程和数学能力。

Qwen2.5 支持 128K 的上下文长度,可生成最多 8K 内容。拥有强大的多语言能力,支持 29 种以上语言。模型能够响应多样化的系统提示,实现角色扮演和聊天机器人等任务。在指令跟随、理解结构化数据(如表格)、生成结构化输出等方面 Qwen2.5 都进步明显。

语言模型方面,Qwen2.5 开源了 7 个尺寸,0.5B、1.5B、3B、7B、14B、32B、72B,在同等参数赛道都创造了业界最佳成绩。尺寸设定充分考虑下游场景的不同需求,3B 是适配手机等端侧设备的黄金尺寸;32B 是最受开发者期待的“性价比之王”,在性能和功耗之间获得最佳平衡,Qwen2.5-32B 的整体表现超越了 Qwen2-72B;72B 是 Qwen-2.5 系列的旗舰模型,其指令跟随版本 Qwen2.5-72B-Instruct 在多项国际权威测评中表现出色,在多个核心任务上,以不到 1/5 的参数超越了拥有 4050 亿巨量参数的 Llama3.1- 405B。

据 DeepSeek 透露,在 DeepSeek-R1 推理模型官方开源的 6 个蒸馏小模型中,有 4 个是基于 Qwen 构建的,分别是 1.5B、7B、14B 和 32B,不仅在性能上超过更大尺寸的同类模型,更实现了低成本本地化部署。

3 月 6 日,阿里巴巴发布并开源全新的推理模型通义千问 QwQ-32B。通过大规模强化学习,通义千问 QwQ-32B 在数学、代码及通用能力上实现质的飞跃,整体性能比肩 DeepSeek-R1,同时,通义千问 QwQ-32B 还大幅降低了部署使用成本,在消费级显卡上也能实现本地部署——既能提供极强的推理能力,又能满足更低的资源消耗需求,非常适合快速响应或对数据安全要求高的应用场景。

多模态模型方面,2025 年 1 月 28 日开源的第三代视觉模型 Qwen2.5-VL,推出 3B、7B 和 72B 三个尺寸版本。其中,旗舰版 Qwen2.5-VL-72B 在 13 项权威评测中夺得视觉理解冠军,全面超越 GPT-4o 与 Claude3.5。此前,通义团队曾开源 Qwen-VL 及 Qwen2-VL 两代模型,支持开发者在手机、汽车、教育、金融、天文等不同场景进行 AI 探索。

新的 Qwen2.5-VL 能够更准确地解析图像内容,突破性地支持超 1 小时的视频理解,无需微调就可变身为一个能操控手机和电脑的 AI 视觉智能体(Visual Agents),实现多步骤复杂操作。开发者基于 Qwen2.5-VL 也能快速简单开发属于自己的 AI 智能体,完成更多自动化处理和分析任务。

同时,还推出大规模音频语言模型 Qwen-Audio,语音聊天部分融合了语音识别和自然语言理解,不需要多个模型进行衔接,实现了端到端大模型,可以识别音乐、情绪、环境声音等。

2025 年 1 月 9 日,视觉生成大模型通义万相也再次迎来重磅升级,推出万相 2.1 视频生成模型。VBench 榜单显示,通义万相在运动幅度、多对象生成、空间关系等关键能力上拿下最高分,并以总分 84.7% 的成绩斩获第一。

精准理解和模拟物理世界是当下视频生成模型的核心难题,现有模型生成的视频在大幅运动、物理复杂场景表现较差,容易生成肢体扭曲、违背物理定律的视频。针对这一难题,通义万相团队采用自研高效的 VAE 和 DiT 架构,有效增强时空上下文关系建模能力。

加速落地:更好用的模型服务

要把模型应用到企业级场景中,在落地过程中其实还有一系列的挑战。好的模型服务要真正做到灵活、高效、易用,为开发者完全屏蔽大模型构建的复杂性,比如无需关心模型背后的 GPU 的资源、如何拉起模型...... 只需要通过简单的 API 接口,就可以随心所欲调用各种模型。

这正是阿里云百炼所要解决的问题:一方面为企业提供最优质的模型服务,同时也理解企业级的需求,帮助企业去搭建更多基于大模型的应用。基于这样的初心,百炼平台在模型服务能力和产品易用性上持续提升。

在集成多模态能力方面,百炼集成了包含文本生成、图片生成、视觉理解、视频生成、语音识别、语音合成等多场景模型,具备灵活、高效、易用的模型 API 与 SDK,屏蔽了云资源、一方及三方模型使用的复杂度,可直接调用。

在增强工作流与智能体的流程编排能力方面,支持高度自定义 SOP 流程执行,提供 Multi-Agent+Workflow 智能决策的混合应用编排。工作流应用将复杂任务拆解为若干子任务,以提高工作流程可控性,用户可以通过拖拽节点来创建自定义的任务流程。智能体编排应用支持多智能体协作的流程式 AI 应用,使用户能够编排多个智能体的执行逻辑,也可以使多个智能体自动规划和执行任务,比如“综合调研报告”场景中,会组建一个报告撰写团队,包括负责写作意图识别、大纲书写、总结摘要、智能绘图、事件研判、段落撰写、文笔润色等任务的智能体;“软件开发团队”场景中,会组建一个智能体开发团队,包括负责需求分析、系统设计、编码实现、测试调试、文档编写等任务的智能体。

在精细化运营工具、辅助观测与优化应用效果方面,提供应用全链路可观测可分析平台,支持模型效果评价与干预,可以显著提升应用效果。

此外,模型开源是推动人工智能技术发展的关键途径,能有效降低个人和企业获取和使用人工智能技术的门槛和成本,从而构建繁荣的 AI 创新生态系统。汇集了海量开源模型的开源社区也正成为 AI 开发者学习、分享经验和交流成果的重要平台。

在阿里云整个模型生态中很重要的一环,是其推出并与包括开发者、初创企业在内的众多伙伴合力建设的魔搭社区。作为最早提出模型即服务(MaaS)理念的企业,阿里云一直把大模型生态繁荣作为首要目标。目前,魔搭社区已经成为中国最大的模型社区,拥有超过 1100 万用户,与行业合作伙伴贡献了超过 5 万款模型。未来,阿里云希望继续跟大家一起,持续推动魔搭社区的健康发展。

释放能力:模型应用更新

为了把模型能力更有效地释放出来,通义模型家族有一系列模型应用帮助开发者和企业实现更有效地利用 AI。

2024 年被普遍认为是大模型应用落地的元年,大企业在研产供销服全面探索,中小企业则选择典型场景进行重点突破。得益于数据就绪度高、任务结构化强、容错空间大、经济效益显著等优势,编程、客服等成为大模型率先落地的典型场景。

面向编程场景,通义灵码推出的全新 AI 程序员,同时具备架构师、开发工程师、测试工程师等多种岗位技能,能自主完成任务拆解、代码编写、缺陷修复、测试等开发工作,最快分钟级完成应用开发,提升数十倍开发效率。编程助手通义灵码发布仅 14 个月,下载量超 900 万,编写代码超 15 亿行。

2025 年 1 月 8 日,通义灵码再次升级,成为全球首个同时支持 VS Code、JetBrains IDEs 开发工具的 AI 程序员,可通过对话协作的方式辅助开发者完成复杂的编码任务。

在能力升级方面,此次通义灵码 AI 程序员首次引入多文件代码修改能力。开发者可通过 AI 程序员自动完成多文件级编码任务,如需求实现、问题修复、批量生成单元测试等。在单元测试生成时,可以针对当前代码变更、单个或多个代码文件批量生成单元测试。开发者输入被测内容,AI 程序员即可自动生成测试计划、测试用例,进行编译、运行及自动修复,大幅提升测试用例覆盖度和质量,降低开发者编写单元测试用例的成本。

同时,此次升级通义灵码 AI 程序员还新增了多种开发能力,如上下文感知、意图理解、反思迭代、工具使用等,开发者可在 AI 程序员协作下完成更多复杂的编码任务。在开发者和 AI 程序员的协作过程中,双方将以多轮对话的方式逐步完成编码任务,并且会产生多个快照版本,开发者可任意切换、回退。

通义灵码 AI 程序员还可打破开发者编程语言的边界,Java 开发者也能使用 Python、JavaScript 等多种语言,快速编写网页、小工具、小游戏。以从 0 到 1 开发一个具有用户登录、数据管理功能及美化的前端页面为例,过去纯人工开发需要前端及后端工程师配合,至少需要耗费半天时间,现在使用通义灵码 AI 程序员,一名程序员仅需 10 分钟就能完成整个开发过程,大幅提升业务开发效率。

目前,通义灵码已经入职中华财险、哈啰集团、长安汽车等公司,累计生成代码超 10 亿行,是国内最受欢迎的辅助编程工具。

在办公及学习场景,实时记录(听悟)和阅读助手(智文)均已集成在通义 APP 和 Web 端,实时记录可以通过语音转文字进行实时录音转写,基于音色分辨不同发言人,智能总结生成纪要与脑图,语音识别准确率高于 98%;阅读助手可以处理复杂文件,最大可以支持 1000 万字 100M 超长文档,本次新增支持长窗口多语言翻译,通过速读进行全文翻译和文档回答。

拓展边界:大模型的端侧应用

相比于云端部署,端侧部署可以显著降低延迟,实现数据的本地化处理,并提供个性化的用户体验。然而,由于边缘设备的计算能力和存储资源有限,如何在保证性能的前提下,实现大语言模型的高效部署,成为了一个关键问题。

阿里云一直在探索将大模型能力部署在端侧。过去一年,通义大模型基于端云架构已服务汽车、手机、PC、电视、教育硬件、穿戴硬件等千行百态智能终端,实现 AI 能力进化。

在这背后,是通义提供大模型端云架构,通过异构算力适配、多源模型供给、端云平台协同、全链路安全保障,全面支撑千行百态智能终端各类 AI 应用。

异构算力适配层面,阿里云与各大芯片公司紧密合作,全面支持主流端侧算力芯片平台,有效地利用 CPU、GPU、NPU 进行模型推理加速,在有限的硬件性能下提供更好的推理服务。以智能手机为例,阿里云与联发科联合宣布了端云协同技术,成功将“通义千问”大模型部署在 SoC 上,首次实现了在手机芯片端对大模型的深度适配。

在模型供给层面,通义系列全尺寸的大语言模型,从 0.5B 到千亿参数,从端侧到云侧都有覆盖,在模型类别层面,有大语言模型、图像模型、语音模型等。

在云端协同层面,通过百炼平台可以快速搭建,实现多 Agent,以及用户不同功能在云端的协同处理。

在安全层面,阿里云提供了全链路的安全解决方案,一是 Prompt 进入和返回结果之间全链路加密,保证用户隐私不泄露;二是所有用户数据,包括日志数据、多模态训练数据留在用户 VPC,确保用户控制数据权限。

端云混合AI可充分利用终端设备的算力,在运营成本、用户信息安全、实时性以及个性化用户体验等方面具备显著优势。

这个项目中通义大模型落地到终端的产品化过程有三个阶段。

首先,模型“瘦身”。通过量化、参数剪枝和知识蒸馏等多种技术手段减小模型体积。量化是将模型的浮点数参数转化为更高效的低位宽整数形式,减少存储和计算资源的需求;参数剪枝则是通过移除非核心参数来缩减模型规模;知识蒸馏是利用一个小型但高效的模型模仿复杂大模型的行为,既能实现模型的轻量化,又能保持其性能。

其次,适配优化。量化后的模型虽然体积缩小,但可能会出现性能损失。所以还需要各种优化调整,进一步提升模型性能,确保其在手机上的高效运行。

最后,产品工程。经过优化后的大模型,还需要进一步提升其潜能,逐步增强模型能力,更好地适应终端应用的具体需求。

端云协同充分融合了云计算与边缘计算的优势,具备低延迟、隐私保护、离线能力、节省带宽和实时处理的优势。

除了端云协同,阿里云还在进行全新探索。智能终端大模型交互引擎通义 Mobile-Agent 正式推出。

通过输入一句指令,AI 就可以作为智能中枢,根据指令在手机上自动规划和操作各种 APP,操作场景包括但不限于导航、购物、组织电话会议、更改系统设置,其准确程度如同人类在操作手机一般,通过 Mobile-Agent,用户将拥有一个手机端的超级智能助理,通过指令就可以使用手机端已授权 APP 完成任务。

即使是具有挑战性的多 APP 切换场景,Mobile-Agent 也能得心应手。凭借智能体对操作历史的记忆,Mobile-Agent 可以实现信息在 APP 之间的传递和加工。

其技术亮点包括:纯视觉解决方案,仅需感知截屏内容即可生成操作,不依赖 APP 的 UI 布局文件或系统底层代码;操作场景不受限,可以在手机桌面或 APP 内部进行操作,从而完成更复杂的操作内容;视觉感知工具定位,使用文字识别和图标识别模块用于定位需要操作的区域;即插即用,无需任何探索和训练过程。

2024 年 7 月,新版本 Mobile-Agent-v2 推出,有几大改进亮点:继续采用纯视觉方案、多智能体协作架构、增强的任务拆解能力、跨应用操作能力以及多语言支持。

同年 9 月,阿里云宣布与英伟达、斑马智行一起合作,把这项技术成功落在了汽车智能座舱场景中,提供座舱屏幕感知、复杂任务规划以及座舱应用 UI 的操作决策能力,大大扩展座舱智能助理的能力边界。

结语

可以看到,随着完整的基础模型体系和生态、模型工程化落地路径、端云协同解决方案等多维度技术迭代,阿里云正全速推动拓宽 AI 能力边界,迎接智实融合的未来。

目录
打赏
0
0
0
0
37
分享
相关文章
RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块
RuoYi AI 是一个全栈式 AI 开发平台,支持本地 RAG 方案,集成多种大语言模型和多媒体功能,适合企业和个人开发者快速搭建个性化 AI 应用。
150 21
RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块
Mureka O1:全球首款「思维链」音乐大模型!昆仑万维让AI作曲自我进化
昆仑万维推出的全球首款音乐推理大模型Mureka O1,引入思维链技术实现多轮自我优化,支持10种语言AI音乐创作,具备音色克隆、风格控制等特色功能,为开发者提供API和微调服务。
76 18
Mureka O1:全球首款「思维链」音乐大模型!昆仑万维让AI作曲自我进化
AI 大模型+智能客服:自动识别客户意图,实现高效沟通
本方案旨在介绍如何部署 AI 大模型实现对客户对话的自动化分析,支持多人、多语言识别,精准识别客户意图、评估服务互动质量,实现数据驱动决策。
破局AI焦虑,赋能职场未来——GAI认证开启智能时代职业新赛道
在AI快速发展的数字化时代,职场人士面临被技术取代的焦虑。生成式人工智能(GAI)认证由培生推出,为职场人士提供系统学习AI技能的机会,助力提升竞争力。掌握AI技能不仅可应对挑战,还为职业发展创造新机遇。GAI认证不仅是求职市场的加分项,更是职场晋升的加速器。与其焦虑,不如拥抱AI,通过学习与认证赋能自我,在未来职场中脱颖而出。
全民AI时代,大模型客户端和服务端的实时通信到底用什么协议?
本文将分享 SSE 和 WebSocket 这两个AI大模型应用的标配网络通信协议,一起重新认识下这两位新时代里的老朋友。
14 0
ReasonGraph:别让AI成黑箱!这个开源工具把大模型的脑回路画给你看
ReasonGraph是一款开源的可视化分析工具,能将大语言模型的复杂推理过程转化为直观图表,支持50+主流模型和多种推理方法,帮助开发者快速理解AI思考逻辑并优化模型表现。
47 0
AI战略丨全面投入升级 AI 大基建
云厂商拥有全栈技术储备,并通过基础设施的全面升级,让 AI 训练、推理、部署和应用整 个生命周期变得更高效。
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
本文介绍了如何使用阿里云提供的DeepSeek-R1大模型解决方案,通过Chatbox和Dify平台调用百炼API,实现稳定且高效的模型应用。首先,文章详细描述了如何通过Chatbox配置API并开始对话,适合普通用户快速上手。接着,深入探讨了使用Dify部署AI应用的过程,包括选购云服务器、安装Dify、配置对接DeepSeek-R1模型及创建工作流,展示了更复杂场景下的应用潜力。最后,对比了Chatbox与Dify的输出效果,证明Dify能提供更详尽、精准的回复。总结指出,阿里云的解决方案不仅操作简便,还为专业用户提供了强大的功能支持,极大提升了用户体验和应用效率。
1130 19
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
AI职场突围战:夸克应用+生成式人工智能认证,驱动“打工人”核心竞争力!
在AI浪潮推动下,生成式人工智能(GAI)成为职场必备工具。文中对比了夸克、豆包、DeepSeek和元宝四大AI应用,夸克以“超级入口”定位脱颖而出。同时,GAI认证为职场人士提供系统学习平台,与夸克结合助力职业发展。文章还探讨了职场人士如何通过加强学习、关注技术趋势及培养合规意识,在AI时代把握机遇。
【AI落地应用实战】大模型加速器2.0:基于 ChatDoc + TextIn ParseX+ACGE的RAG知识库问答系统
本文探讨了私有知识库问答系统的难点及解决方案,重点分析了企业知识管理中的痛点,如信息孤岛、知识传承依赖个人经验等问题。同时,介绍了IntFinQ这款知识管理工具的核心特点和实践体验,包括智能问答、深度概括与多维数据分析等功能。文章还详细描述了IntFinQ的本地化部署过程,展示了其从文档解析到知识应用的完整技术闭环,特别是自研TextIn ParseX引擎和ACGE模型的优势。最后总结了该工具对企业和开发者的价值,强调其在提升知识管理效率方面的潜力。

热门文章

最新文章