全球最大开源大模型!马斯克正式开源Grok AI

简介: 全球最大开源大模型!马斯克正式开源Grok AI

本文来自 企业网D1net公众号

马斯克的初创公司xAI信守诺言,将其首个大型语言模型Grok开源。


马斯克此前曾宣布,开源Grok的举措将于本周实施。现在,任何其他企业家、程序员、公司或个人都可以体验和测试Grok——模型的人工神经元或软件模块之间的连接强度,这些模块使模型能够做出决策、接受输入并以文本形式提供输出——以及其他相关文档,并将模型的副本用于任何他们想要的东西,包括商业应用。

该公司在一篇博客文章中宣布:“我们正在发布我们的大型语言模型Grok-1的基本模型和网络架构,Grok-1是xAI从头开始训练的3140亿参数混合专家模型。”

感兴趣的人可以在Github的页面上或通过链接下载Grok的代码。



Grok的开源意味着什么


参数是指支配模型的权重和偏差——通常参数越多,模型就越先进、越复杂、越好用。Grok拥有3140亿个参数,远远领先于开源竞争对手,如Meta的Llama 2(700亿个参数)和Mistral 8x7B(120亿个参数)。

Grok是在Apache许可2.0下开源的,该许可允许商业使用、修改和分发,尽管它不能被注册为商标,用户也不会获得任何责任或保证,此外,他们必须复制原始许可证和版权声明,并说明他们所做的更改。

Grok的体系结构于2023年10月使用JAX和Rust上的定制训练堆栈开发,结合了神经网络设计的创新方法,对于给定的令牌,该模型使用25%的权重,这一策略提高了其效率和效果。

Grok最初是在2023年11月发布的,当时它是一款专有或封闭源代码的机型,到目前为止,它只能在马斯克独立但相关的社交网络X(前身为Twitter)上使用,特别是通过X Premium+付费订阅服务,费用为每月16美元或每年168美元。

然而,Grok的发布并不包括其训练数据的完整语料库,这对于使用模型并不重要,因为它已经经过了训练,但它不允许用户看到它从X上学到了什么——大概是X上的用户文本帖子(xAI博客文章含糊地说它是“基于大量文本数据训练的基础模型,没有针对任何特定任务进行微调”)。

它也不包括任何与X上可用的实时信息的挂钩,马斯克最初将其吹捧为Grok相对于其他LLM的主要属性,为此,用户仍需要在X上订阅付费版本。



不仅仅是一项技术举措 还是一项商业和公关战略


为了与OpenAI的ChatGPT竞争,马斯克于2018年脱离OpenAI并创建了自己的大模型Grok。马斯克将Grok定位为ChatGPT和其他领先的大语言模型的更幽默、更未经审查的版本,鉴于人们对人工智能审查的抱怨,以及谷歌Gemini令人尴尬的混乱图像和可疑的意识形态立场(Gemini在至少一个例子中暗示,马斯克的推文对社会的影响可能与纳粹领导人Adolf Hitler一样糟糕),这一立场在更广泛的用户中重新变得有吸引力。当然,Gemini受到了马斯克和其他有影响力的科技领袖的强烈批评,其中包括16z的联合创始人和网络先驱马克·安德森

Grok的开源显然也是马斯克在诉讼和对OpenAI的普遍批评中有益的意识形态立场,他最近起诉了OpenAI,指责他的前公司放弃了《创始协议》,转而以非营利性组织的形式运营。OpenAI在舆论法庭上发布了为自己辩护的电子邮件,至少表明马斯克知道并可能支持其转向专有的营利性技术。

X上的人工智能社区已经对这一发布充满了好奇和兴奋,值得注意的是,技术界指出了该模型在前馈层中使用GeGLU,以及它的归一化方法,就连OpenAI的员工也发帖表达了他们对该模型的兴趣。

因此,Grok的发布可能会给所有其他大语言模型提供商,特别是其他竞争对手开源提供商带来压力,让他们向用户证明他们是多么的优越。



相关文章
|
17天前
|
人工智能 自然语言处理 搜索推荐
AI 搜索开放平台重磅发布:Qwen3 模型上线啦
阿里云AI搜索开放平台重磅发布最新Qwen3模型,为企业和开发者提供全栈智能搜索解决方案。Qwen3作为最新一代大模型,在推理、多语言支持和Agent能力上表现卓越。用户可通过三步快速体验Qwen3服务,助力业务在AI时代抢占先机。
177 12
|
10天前
|
机器学习/深度学习 人工智能 边缘计算
一文了解,炎鹊YNQUE-Xo1行业垂直领域AI大模型。
炎鹊科技推出的YNQUE-Xo1垂直领域AI大模型集群,重新定义了AI与产业深度融合的范式。通过数据工程、模型架构和训练策略三大维度,Xo1突破通用模型瓶颈,在专业场景中实现性能与效率跃升。其MoE架构、动态路由机制及三阶段优化策略,大幅提升参数利用率与可解释性。YNQUE-Xo1不仅在医疗、金融等领域测试中精度提升显著,还适配边缘计算,成为推动产业智能化升级的核心引擎,从“工具赋能”迈向“认知基础设施”。
|
16天前
|
机器学习/深度学习 人工智能 算法
小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头
小米开源的MiMo推理大模型通过联动预训练与强化学习算法,在7B参数规模下实现数学推理与代码生成能力的突破性提升,技术报告显示其性能超越部分32B级模型。
353 74
小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头
|
15天前
|
数据可视化 Rust 机器学习/深度学习
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
mlop.ai 是首个为国区用户优化的机器学习工具,全栈免费开源,是主流付费解决方案 ClearML/WandB 的开源平替。常规实验追踪的工具经常大幅人为降速,mlop因为底层为Rust代码,能轻松支持高频数据写入。如需更多开发者帮助或企业支持,敬请联系cn@mlop.ai
66 12
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
通义千问Qwen3,开源!
Qwen3正式发布并全部开源啦!
436 41
|
9天前
|
测试技术 UED
全新开源通义千问Qwen3,它来了!
Qwen3是通义千问系列的最新模型,融合推理与非推理模式,兼具QwQ和Instruct模型能力。提供多种尺寸,包括235B-A22B、30B-A3B及六个Dense模型,大幅提升数学、代码、逻辑推理和对话能力,达到业界领先水平。旗舰模型Qwen3-235B-A22B在多场景测试中表现优异,小型模型如Qwen3-4B性能媲美大模型。用户可在阿里云百炼平台免费体验各100万Token。
全新开源通义千问Qwen3,它来了!
|
11天前
|
人工智能 并行计算 监控
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南
本文详细介绍了在AMD硬件上构建大型语言模型(LLM)推理环境的全流程。以RX 7900XT为例,通过配置ROCm平台、部署Ollama及Open WebUI,实现高效本地化AI推理。尽管面临技术挑战,但凭借高性价比(如700欧元的RX 7900XT性能接近2200欧元的RTX 5090),AMD方案成为经济实用的选择。测试显示,不同规模模型的推理速度从9到74 tokens/秒不等,满足交互需求。随着ROCm不断完善,AMD生态将推动AI硬件多元化发展,为个人与小型组织提供低成本、低依赖的AI实践路径。
112 1
在AMD GPU上部署AI大模型:从ROCm环境搭建到Ollama本地推理实战指南
|
16天前
|
弹性计算 机器人 应用服务中间件
AppFlow支持Qwen3开源版本调用
近期,Qwen3正式发布并开源全部8款“混合推理模型”,包括两款MoE模型(Qwen3-235B-A22B与Qwen3-30B-A3B)和六个Dense模型。目前,AppFlow已支持上述所有模型调用,您可在钉钉或微信等多渠道使用这些模型满足业务需求。本文将介绍如何配置及集成这些模型至钉钉机器人和企业微信应用中,包括创建应用、设置权限、生成连接流以及配置相关参数的详细步骤。完成配置后,用户可通过钉钉或企业微信直接与Qwen3应用互动交流。
AppFlow支持Qwen3开源版本调用
|
17天前
|
自然语言处理 测试技术 Serverless
Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!
Qwen3开源发布:Think Deeper, Act Faster!社区推理、部署、微调、MCP调用实战教程来啦!
359 22
|
9天前
|
测试技术 API 开发者
LiveBench放榜:Qwen3斩获全球开源冠军
最新一期LiveBench榜单显示,阿里云旗舰模型Qwen3-235B-A22B荣登全球开源模型冠军,小尺寸Qwen3-32B位列Top3。千问3在指令遵循能力上超越多个顶级闭源模型,位居全球第一。该评测由图灵奖得主Yann LeCun发起,采用动态防污染机制,确保公平性。千问3支持119种语言,具备混合推理架构与强大Agent能力,现已上线阿里云百炼平台,提供免费体验与API调用。