人工智能技术的飞速进步,正在重塑全球商业格局,其影响辐射到各个行业领域。鉴于此,阿里云云栖号特别推出《一周AI大事件》,汇聚全球人工智能的最新动态。
模型风向标
01模型风向标
DeepSeek本周起将开源5个代码库,“毫无保留地分享”
DeepSeek 宣布将会陆续开源5个代码库,每日都有新内容解锁,“毫无保留地分享我们微小但真诚的进展”。当前在线服务的模块已经经过测试、部署完备,可以投入生产环境。
DeepSeek将自己定义为“小小的团队”,并表示每一条共享的代码都会变成强有力的势能,加速行业发展的旅程,这个领域没有高高在上的象牙塔,只有纯粹的车库创业精神与社区共筑的创新力量。
从上线以来至2月9日,DeepSeek App的累计下载量已超1.1亿次,周活跃用户规模最高近9700万。
DeepSeek本周起将开源5个代码库 | 图源X社交媒体平台DeepSeek账号
国产开源接力,昆仑万维等厂商开源多款多模态大模型
阶跃星辰和吉利汽车集团联合宣布:将双方合作研发的两款阶跃Step系列多模态大模型向全球开发者开源。视频生成模型阶跃Step-Video-T2V具备强大运镜、人物运动生成和形象表现能力,采用创新的Video-VAE架构,300亿参数,可生成204帧540P高质量视频;语音交互大模型阶跃Step-Audio支持多种情绪、方言和歌声生成,在五大公开测试集上性能领先,能完成语音识别、语义理解、对话等一体化功能。
昆仑万维宣布开源SkyReels-V1和A1两个模型。SkyReels-V1采用千万级好莱坞数据训练,实现影视级表情识别、人物空间感知、行为意图和场景理解,专注于AI短剧领域的视频生成;SkyReels-A1专注于表情动作可控,能实现更大幅度的面部和肢体表演控制,支持任意人体比例的视频生成。
阶跃星辰最新开源多模态模型上线阿里云魔搭,可下载体验
阿里云魔搭社区上线阶跃星辰最新开源的两款多模态模型,包括全球参数量最大的开源视频生成模型Step-Video-T2V,以及业界首款产品级开源语音交互模型Step-Audio。截至21日,魔搭社区已上架超过4万个开源模型,涵盖LLM、对话、语音、文生图、图生视频等多个领域,是中国最大的AI模型社区。
目前,阶跃星辰的这两款模型均可在魔搭社区下载和体验。同时,有部署及模型微调需求的开发者和企业,还可通过阿里云人工智能平台PAI-Model Gallery实现一键部署。
黄仁勋首次回应DeepSeek,英伟达暴跌系投资者误解
2月20日,英伟达CEO 黄仁勋首次回应DeepSeek冲击波——今年1月,DeepSeek发布的开源推理模型引发众多关注,导致英伟达单日市值曾一度蒸发近6000亿美元。黄仁勋称,R1“令人兴奋不已”,能够提振AI产业活力,并且市场反应存在误解,R1模型本质上利好AI市场。虽然DeepSeek在AI模型的预训练方面取得了进步,但作为模型“学习解决问题”的关键环节,后训练(post-training)仍然重要,需要大量的资源,并强调,“推理本身是一个运算密集的过程”。
xAI宣布Grok 3免费开放,称基于20万块GPU训练
马斯克旗下人工智能公司xAI宣布,“世界最智能AI”系统Grok 3现在免费向公众提供服务(直到服务器不堪重负为止)。所有用户均可免费使用Grok 3,包括其推理(Reasoning)和深度搜索(DeepSearch)模式。X Premium+和SuperGrok订阅用户还将享有更多特权,包括优先访问Grok 3以及其他高级功能,如语音模式(Voice Mode)等。
在2月18日的发布会中,马斯克披露了Grok 3的训练成本,称Grok 3训练过程累计消耗20万块英伟达GPU,训练在xAI公司的数据中心完成。
OpenAI周活跃用户超4亿,已有200万付费用户
OpenAI CEO Brad Lightcap透露,Open AI周活跃用户已达到4亿,比去年12月的3亿增加了33%。并表示,ChatGPT 的增长是其“自然发展”的结果,目前公司已有 200 万付费企业用户。同时,OpenAI首席财务官Sarah Friar 接受采访时表示今年实现110亿美元营收的可能性的确在“可能范围内”。
Mistral AI推出首个专业区域语言模型Saba,专精阿拉伯语和印度起源语言
法国AI初创企业Mistral AI宣布推出其首个专业区域语言模型Saba。该模型在源自中东与南亚的精选数据集上训练,能以相对较小的规模为上述区域用户提供更准确、相关的回应。Saba 模型参数规模为32B,支持本地单GPU系统部署。同时,Mistral Saba除阿拉伯语语外也支持多种印度起源语言。
02应用抢先看
“发言稿就在我的眼镜里,用戒指能完成翻页!”
2月18日,在浙江余杭区举行的经济高质量发展大会上,杭州灵伴科技有限公司负责人祝铭明佩戴Rokid 最新版AR眼镜Rokid Glasses“空手”上台,称:“发言稿就在我的眼镜里,翻页通过手上的戒指完成,所以没纸质稿子,很轻松”。据了解,Rokid Glasses仅重49克,戴上之后可以通过手中的一枚指环,同步实现多语种翻译、问答搜索、物体识别、拍照等功能。阿里巴巴通义千问多模态大模型提供支持。
Rokid创始人兼CEO祝铭明 | 图源Rokid微信公众号报道
Figure AI推出通用视觉-语言-行动模型Helix,实现多项突破
在2月份突然宣布与OpenAI 终结合作之后,机器人初创公司Figure AI发布通用视觉-语言-行动(VLA)模型Helix,首次展示了两台机器人协同完成复杂操作任务的能力,并大幅降低训练数据需求。在性能、架构及训练效率上实现多项突破,是第一个能全半身高速连续控制、能完全在嵌入式低能耗GPU上运行、用于通用人形机器人控制“双系统”的VLA模型。
xAI将成立AI游戏工作室 ,反对游戏说教
2月17日,马斯克在社交媒体上宣布,他旗下的xAI将正式成立一个AI游戏工作室。这是自2024年11月宣布进军AI游戏后,该项目正式落地。马斯克表示,当前游戏行业过于注重“觉醒”内容,导致游戏失去了纯粹的娱乐性。许多游戏开发商被大公司控制,无法专注于制作高质量的游戏。因此,xAI决定成立这家新的游戏工作室,目标是“让游戏再次伟大”。
微软发布游戏生成式AI工具Muse,一键生成游戏画面
微软发布了首个能够生成游戏视觉、控制器动作的视频游戏生成式AI模型,将其命名为“Muse”,宣称将彻底革新视频游戏场景的制作方式。Muse实例是在Xbox游戏《Bleeding Edge》的人类游戏数据(视觉和手柄动作)上进行训练,训练过程超10亿张图片和手柄动作,相当于超过 7 年的人类连续游戏时长。
开发者只需提供一张游戏截图,模型便能迅速生成多个可能的后续游戏画面。此外,通过Xbox手柄控制角色,Muse还能实时生成与开发者操作相匹配的后续游戏内容,提升游戏开发的效率和灵活性。
03科技第一线
DeepSeek发布稀疏注意力机制NSA,大幅提升训练和解码速度
2月18日,DeepSeek在社交平台X上发布一篇纯技术论文,介绍了NSA(Natively Sparse Attention,原生稀疏注意力),用于超快速的长上下文训练和推理。通过优化设计现代硬件,NSA能够加快推理速度,同时降低预训练成本,且不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。在论文署名中,DeepSeek创始人梁文锋也作为共创在列。
DeepSeek发布稀疏注意力机制NSA论文 | 图源X社交媒体平台DeepSeek账号
Kimi杨植麟署名发布新注意力架构MoBA,并公开代码
2月18日,月之暗面创始人兼CEO杨植麟署名发布一篇介绍新注意力架构MoBA的论文,并公开了已有一年实际部署验证的相关代码,保证其有效性和稳健性。研究人员在论文中提出了块注意力混合机制(Mixture of Block Attention, MoBA),这是一种将混合专家系统(Mixture of Experts,MoE)应用于 Transformer 模型注意力机制的创新方法。
Kimi发布新注意力架构MoBA论文,并公开代码 | 图源X社交媒体平台Kimi账号
微软宣布量子计算突破,利用新物态研发出Majorana 1芯片
2月19日,微软宣布推出全球首款基于拓扑量子比特的量子处理器“Majorana 1”,声称“标志着向实用量子计算迈出了变革性的一步”。微软的研究人员表示,他们创造了一种使用新物质状态——拓扑超导体,一种既不是固体、液体也不是气体的材料——的芯片。通过该芯片,公司有望在“数年内”解决“实质性、工业规模问题”的量子计算机,而非科学界此前预期的几十年。
这就是小七为大家整理的AI领域热门事件,每周发布,欢迎大家持续追更~
上期回顾
/END/
--直播预告--
2月26日,阿里云PolarDB开发者大会将在北京嘉瑞文化中心举行。会议聚焦云原生、国产化、Data + AI等热门话题,汇聚行业权威、分享前沿趋势!
感兴趣的小伙伴可以预约直播,或点击“阅读原文”报名参会~
