AI2 开源新 LLM,重新定义 open AI

简介: 艾伦人工智能研究所(Allen Institute for AI,简称 AI2)宣布推出一个名为 OLMo 7B 的新大语言模型,并开源发布了预训练数据和训练代码。OLMo 7B 被描述为 “一个真正开放的、最先进的大型语言模型”。

2023 大语言模型技术报告.pdf

艾伦人工智能研究所(Allen Institute for AI,简称 AI2)宣布推出一个名为 OLMo 7B 的新大语言模型,并开源发布了预训练数据和训练代码。OLMo 7B 被描述为 “一个真正开放的、最先进的大型语言模型”。

AI2 是由已故的微软公司联合创始人保罗 - 艾伦(Paul Allen)于 2014 年在西雅图创办的一家非营利组织。该组织表示,他们开源 OLMo 模型旨在让 AI 研究社区充分了解最先进的大语言模型(LLM),从而推动自然语言处理的发展,并以科学的方式正视现有 LLM 存在的问题。

“通过向公众完全开放 OLMo 及其训练数据,AI2 在协作构建世界上最好的开放语言模型方面迈出了一大步。”

image.png

OLMo 框架具有一套完全开放的 AI 开发工具,包括:

  • 完整的预训练数据:该模型建立在 AI2 的 Dolma 语料库上,该语料库具有三万亿个用于语言模型预训练的 token 开放语料,包括生成训练数据的代码。
  • 训练代码和模型权重: OLMo 框架包括 7B 规模的四个模型变体的完整模型权重,每个模型至少训练有 2T token。提供了推理代码、训练指标和训练日志。
  • 评估:开发中使用的评估套件已发布,每个模型包含 500 多个 checkpoints,来自训练过程中的每 1000 个步骤,以及 Catwalk 项目下的评估代码。

在接下来的几个月中,AI2 计划继续迭代 OLMo,并将不同的模型大小、模式、数据集和功能引入 OLMo 系列。

OLMo 项目负责人、AI2 NLP 研究高级主管、华盛顿大学艾伦学院教授 Noah Smith 表示:

“有了 OLMo,open 就是真正意味上的 'open',AI 研究界的每个人都可以访问模型创建的各个方面,包括训练代码、评估方法、数据等。AI 曾经是一个以活跃的研究社区为中心的开放领域,但随着模型的发展、成本的增加以及开始转化为商业产品,AI 工作开始闭门造车。我们希望通过 OLMo 扭转这一趋势,让研究界能够团结起来,以科学的方式更好地理解和使用语言模型,从而开发出更负责任的 AI 技术,造福于每个人。”

原文链接:https://www.oschina.net/news/277396

来源:OSCHINA - 中文开源技术交流社区

相关文章
|
7月前
|
存储 机器学习/深度学习 算法
​​LLM推理效率的范式转移:FlashAttention与PagedAttention正在重塑AI部署的未来​
本文深度解析FlashAttention与PagedAttention两大LLM推理优化技术:前者通过分块计算提升注意力效率,后者借助分页管理降低KV Cache内存开销。二者分别从计算与内存维度突破性能瓶颈,显著提升大模型推理速度与吞吐量,是当前高效LLM系统的核心基石。建议收藏细读。
1400 125
|
7月前
|
人工智能 JSON 前端开发
Agentic AI崛起:九大核心技术定义未来人机交互模式​
本文系统梳理AI智能体架构设计的九大核心技术,涵盖智能体基础、多智能体协作、知识增强、模型优化、工具调用、协议标准化及人机交互等关键领域,助力构建高效、智能、协同的AI应用体系。建议点赞收藏,持续关注AI架构前沿技术。
1746 1
|
8月前
|
人工智能 自然语言处理 物联网
MCP+LLM+Agent:企业AI落地的新基建设计
MCP+LLM+Agent构建企业AI黄金三角架构,破解数据孤岛、工具碎片化与决策滞后难题。LLM负责智能决策,Agent实现自动执行,MCP打通数据与工具,助力企业实现从智能思考到业务闭环的跃迁。
|
9月前
|
人工智能 监控 数据可视化
BISHENG下一代企业AI应用的“全能型“LLM软件
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
6月前
|
机器学习/深度学习 算法 物联网
Google开源Tunix:JAX生态的LLM微调方案来了
Tunix是Google推出的基于JAX的LLM后训练库,支持微调、强化学习与知识蒸馏,集成Flax NNX,主打TPU优化与模块化设计,支持QLoRA等高效训练方法,适用于高性能分布式训练场景。
446 13
Google开源Tunix:JAX生态的LLM微调方案来了
|
6月前
|
Web App开发 人工智能 自然语言处理
利用Playwright MCP与LLM构建复杂的工作流与AI智能体
本文介绍如何通过Playwright MCP与大语言模型(LLM)结合,构建智能AI代理与自动化工作流。Playwright MCP基于Model Context Protocol,打通LLM与浏览器自动化的能力,实现自然语言驱动的网页操作。涵盖环境配置、核心组件、智能任务规划、自适应执行及电商采集、自动化测试等实战应用,助力高效构建鲁棒性强、可扩展的AI自动化系统。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
37_开源LLM:LLaMA与Mistral的突破_深度解析
在人工智能领域,2025年已经成为开源大语言模型的黄金时代。从Meta的LLaMA系列到欧洲初创公司Mistral AI的创新突破,开源LLM正在重塑整个AI生态系统的格局。截至2025年4月,Meta的LLaMA系列已成为全球下载量最高、社区使用最活跃的开源大语言模型之一,并被集成于数百个学术项目、创业平台和AI产品之中
704 1
|
8月前
|
传感器 人工智能 搜索推荐
当AI有了温度,三星正在重新定义生活的边界
当前家电市场正经历结构性转变,AI技术重构人机关系,推动消费从“性能导向”转向“体验导向”。三星提出“AI for All”理念,通过“AI神”系列产品落地实践,以AI智控大屏和BESPOKE AI打造有温度的智能生活。家电不再只是工具,而是主动理解用户、融入家庭场景的智能伙伴,开启未来家居新想象。
187 7
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
33_ LLM的定义与规模化:参数与计算力
在人工智能发展的长河中,2022年底ChatGPT的横空出世标志着大语言模型(LLM)时代的正式开启。自那时起,LLM技术以惊人的速度演进,从实验室走向产业应用,重塑着人类与计算机的交互方式。到2025年,全球LLMs已正式进入"模型即服务"(MaaS)时代,参数量级突破万亿级,成为驱动数字经济发展的核心引擎
1204 0

热门文章

最新文章