D1net阅闻|20万张GPU!马斯克旗下xAI公司正式发布新一代大模型Grok 3

简介: D1net阅闻|20万张GPU!马斯克旗下xAI公司正式发布新一代大模型Grok 3

(来源:企业网D1net)


20万张GPU!马斯克旗下xAI公司正式发布新一代大模型Grok 3


2月18日午间,马斯克旗下xAI公司正式发布新一代大模型Grok 3。马斯克在发布会直播中首次披露了Grok 3的训练成本,称Grok 3训练过程累计消耗20万块英伟达GPU,训练在xAI公司的数据中心完成。Grok 3 发布后有人就第一时间指出:它消耗的算力是 DeepSeek V3 的 263 倍。在大模型竞技场 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,达到 1402 分,超过了包括 DeepSeek-R1 在内的所有其他模型。与此同时,Grok-3 支持推理能力,解锁了测试时计算(test-time compute)能力。这意味着竞争激烈的推理模型市场又迎来了一个强劲对手。


OpenAI要开源新模型?CEO奥尔特曼公开征求意见


OpenAI 首席执行官萨姆・奥尔特曼于当地时间2月17日在 X 社交平台上发文,就公司下一个开源项目的方向征询公众意见。他提出了两种可能的开源模型方向:一种是“相当小但仍需在 GPU 上运行的 o3-mini 级模型”,另一种则是“尽可能优化的手机大小模型”。这或许意味着 OpenAI 即将开源新的大模型,也将是 2019 年 OpenAI 开源 GPT-2 之后再次开源某个大模型。


DeepSeek推出NSA,用于超快速的长上下文训练和推理


DeepSeek推出NSA。DeepSeek称,NSA是一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。通过针对现代硬件的优化设计,NSA加快了推理速度,同时降低了预训练成本,而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。


腾讯回应“接入DeepSeek”:不会使用用户朋友圈、聊天记录


2月19日讯,近期,微信宣布接入DeepSeek-R1模型,目前为灰度测试阶段,部分用户在微信搜索框选择AI搜索,可使用DeepSeek-R1的深度思考功能。微信AI搜索功能为什么要接入大模型?腾讯对此表示,大模型可以提升搜索的智能化和精准度,如更好的理解大家的搜索意图,分析和处理复杂的查询内容等。结合大家的需求,微信在搜索场景中接入了包括混元、DeepSeek在内的大模型,进一步丰富用户的搜索体验。对于微信AI搜索是否会用到大家微信内的朋友圈、聊天等个人信息的问题,腾讯表示:不会。


传台积电可能收购英特尔代工部门20%股权


美国科技媒体《wccftech》报导称,台积电可能收购英特尔代工服务部门(IFS)20%股权。反垄断法通常会阻止大企业合并,但20%的持股将让台积电得以与英特尔合作,同时回避监督审查。最新消息暗示,台积电将取得英特尔少数股权,与此同时,美国芯片设计大厂高通与博通可能在该交易扮演重要角色,因为这两家公司可能透过向新实体下单,确保其顺利过渡到营运状态,协助完成该交易。对于高通与博通而言,投资英特尔的IFS将使其更能与台湾的联发科竞争。


月之暗面收缩投放 知情人士称近期自然新增用户量增长


有报道称kimi开发公司月之暗面近期决定大幅收缩产品投放预算,包括暂停多个安卓渠道的投放,以及第三方广告平台的合作。对此,知情人士对记者表示,近期Kimi自然新增用户量猛涨。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
5天前
|
机器学习/深度学习 人工智能 缓存
谷歌开源量化模型 Gemma 3 QAT:显存需求直降75%,消费级GPU轻松跑大模型!
Gemma 3 QAT是谷歌最新推出的量化优化开源模型,通过量化感知训练技术显著降低显存需求,同时保持高性能,使大模型能在消费级硬件上高效运行。
107 21
谷歌开源量化模型 Gemma 3 QAT:显存需求直降75%,消费级GPU轻松跑大模型!
|
16天前
|
人工智能 Linux API
119K star!无需GPU轻松本地部署多款大模型,DeepSeek支持!这个开源神器绝了
"只需一行命令就能在本地运行Llama 3、DeepSeek-R1等前沿大模型,支持Windows/Mac/Linux全平台,这个开源项目让AI开发从未如此简单!"
|
2月前
|
人工智能 自然语言处理 数据中心
D1net阅闻|DeepSeek开源放大招:FlashMLA让H800算力狂飙!曝光低成本秘笈
D1net阅闻|DeepSeek开源放大招:FlashMLA让H800算力狂飙!曝光低成本秘笈
|
2月前
|
人工智能 自动驾驶 机器人
D1net阅闻|国务院国资委部署深化中央企业“AI+”专项行动
D1net阅闻|国务院国资委部署深化中央企业“AI+”专项行动
|
2月前
|
人工智能 自然语言处理 机器人
D1net阅闻 | 大模型军备竞赛升级:GPT-4.5/Grok 3同日官宣
D1net阅闻 | 大模型军备竞赛升级:GPT-4.5/Grok 3同日官宣
|
4月前
|
监控 前端开发 API
一款基于 .NET MVC 框架开发、功能全面的MES系统
一款基于 .NET MVC 框架开发、功能全面的MES系统
115 5
|
7月前
|
开发框架 前端开发 JavaScript
ASP.NET MVC 教程
ASP.NET 是一个使用 HTML、CSS、JavaScript 和服务器脚本创建网页和网站的开发框架。
121 7
|
7月前
|
存储 开发框架 前端开发
ASP.NET MVC 迅速集成 SignalR
ASP.NET MVC 迅速集成 SignalR
147 0
|
11月前
|
开发框架 前端开发 .NET
ASP.NET CORE 3.1 MVC“指定的网络名不再可用\企图在不存在的网络连接上进行操作”的问题解决过程
ASP.NET CORE 3.1 MVC“指定的网络名不再可用\企图在不存在的网络连接上进行操作”的问题解决过程
275 0
|
8月前
|
开发框架 前端开发 .NET
ASP.NET MVC WebApi 接口返回 JOSN 日期格式化 date format
ASP.NET MVC WebApi 接口返回 JOSN 日期格式化 date format
104 0

热门文章

最新文章

下一篇
oss创建bucket