高能力全透明双语大语言模型MAP-Neo完全开源,开放所有细节!

简介: 近年来,大型语言模型 (LLMs) 在各种任务中取得了前所未有的性能提升。然而,由于商业利益,最强大的模型(如 GPT、Gemini 和Claude)只能通过API访问,并未公开训练细节。

引言

近年来,大型语言模型 (LLMs) 在各种任务中取得了前所未有的性能提升。然而,由于商业利益,最强大的模型(如 GPT、Gemini 和Claude)只能通过API访问,并未公开训练细节。


最近,许多机构开源了一些与现有闭源 LLM 相媲美的LLM,例如LLaMA-3,大大推动了开源 LLM 社区的发展。然而,大多数情况下的开源仅提供模型权重,而详细的中间Checkpoint、预训练语料库和训练代码等信息并未披露。为了提高 LLM 的透明度,研究界已经形成了开源真正开放的 LLM(例如Pythia、Amber 和OLMo)的趋势,这些模型提供了更多的详细信息(例如预训练语料库和训练代码)。


这些模型大大推进了对这些大模型的科学研究,包括它们的优势、劣势、偏见和风险。然而,M-A-P社区观察到现有的真正开放的 LLM 在推理、知识和编码任务上仍然不如具有类似模型大小的最先进的 LLM。为此,M-A-P开源了MAP-Neo,这是一个功能强大且高度透明的双语语言模型,拥有70亿个参数,从头开始在4.5T 高质量tokens的文本上进行训练。


MAP-Neo是一个完全开源的双语 LLM,其性能可与现有最佳 LLM 相媲美。此外,M-A-P还公开了所有细节以重现 MAP-Neo,其中包括清理过的预训练语料库、数据处理pipeline、checkpoint以及经过优化的训练/评估框架。希望 MAP-Neo 能够增强并加强开源研究社区,激发更多创新和创造力,促进 LLM 的进一步发展。



技术报告链接:

https://arxiv.org/pdf/2405.19327

github:

https://github.com/multimodal-art-projection/MAP-NEO

处理pipeline:

https://github.com/multimodal-art-projection/MAP-NEO/tree/main/Matrix

魔搭社区M-A-P开源链接

https://modelscope.cn/organization/m-a-p


在技术报告中,M-A-P详细介绍了构建 LLM 的整个工作流程,包括:

1、数据pipeline:研究提供了用于训练数据(包括英语和中文)处理的代码,包括稳定的OCR系统、DeepSeek-Math中的数据检索机制、之前的开源数据处理pipeline的集成以及基于 Spark 的分布式数据处理的支持等。

2、训练数据:研究提供了预训练语料库,即Matrix Data Pile,以及用于监督微调和对齐训练的训练数据

3、模型架构:研究提供了模型架构的代码和细节。

4、模型训练:研究提供了分词器、基础模型、指令微调模型和对齐模型的训练代码。此外,还解决了 Megatron-LM 框架的一些问题,增强了其对更健壮和高效的分布式训练的支持。此外,引入了 NEO scaling law,旨在优化使用来自各种语料库的数据预训练来扩展 LLM 的放缩。

5、模型Checkpoint:不仅在开源社区上发布最终模型,还提供中间Checkpoint以供重现。

6、基础设施:技术报告详细介绍了稳定训练的基础架构。

7、模型评估:研究还提供了详细的评估代码以及对 LLM 性能基准测试的全面设置。

8、分析与教训:技术报告详细介绍了各种技术,例如在预训练的不同阶段进行优化的技巧,并通过严格的分析和删除操作提供了构建 LLM 的见解。


下面,小编也为大家解读和总结下MAP-Neo的技术报告亮点:


数据集:从零开始构建一个包含大量主题的大规模语料库,主要是针对:

①现有的可用开源预训练数据合并;

②额外从CC上收集了中文和数学、科学考试、wiki数据;

③额外把一些PDF文档通过OCR转文字加入进来。


Matrix是当前开源社区唯一一个直接可用不需要额外配比和验证的双语大规模预训练数据集,而且效果有保证。


数据处理:精心设计的数据处理pipeline,用了比较高的清洗过滤阈值、比较严格的去重(譬如子串级)、以及针对OCR数据的后校准。 处理后分别对现有语料和爬虫语料最终仅保留了原始的4%和19%。数据清洗流程的heuristic rules每一条都经过了团队成员反复人工采样确定,在中英文上都比较严格,有进一步放宽的潜力,整个pipeline是基于spark的,分布式效率较高。下图为文档转换流水线。


数据配比:启发式地设置比率。预训练时分了两个阶段,一阶段用了CC,二阶段去除CC,手工增加了代码和书籍、文书等类型的配比。支持了deepseek-math的垂域数据提取pipeline和基于OCR的pdf数据提取pipeline,确认了这两个pipeline都对训练performance有比较明显的提升。


预训练:解决了Megatron-LM开源版本大量数据训练的bug,支持Megatron-core的稳定训练,内部初期测试不止可以到7B,更大的size也可以稳定训练,在预训练中间节点上:基于Chinchilla scaling law(数据量、模型规模和loss的关系)提了一个变种,引入了关于数据量大小的正则项。


对齐:SFT分为两个阶段,第一阶段,收集大量指令数据以增强 LLM 的基础能力。第二阶段在第一阶段基础上,收集并筛选一定量的多轮对话数据,继续提高 MAP-Neo 的对话能力。最后,使用迭代式DPO进一步将模型和人类意图对齐,增强了模型的对话能力。


基础设施:MAP-Neo 7B 模型,使用具有 64 台机器的512个 H800 GPU配置进行训练,并使用 NCCL 进行后端分发,ibp 作为网络接口和 mlx5 InfiniBand 硬件来增强跨 GPU 通信。

MAP-Neo的开源,贡献的不仅是新颖的基础模型,而且是一本全面的模型训练手册,用于从头开始构建通用大语言模型,从数据收集开始,涵盖整个训练所需的全流程。我们相信,MAP-Neo项目为社区提供了至关重要的参考,特别是对于世界非英语地区从事 LLM 研究的人们。


在魔搭体验和推理M-A-P

魔搭社区M-A-P开源链接

https://modelscope.cn/organization/m-a-p

使用魔搭社区的免费GPU算力,推理neo_7b_instruct_v0.1模型:

from modelscope import AutoModelForCausalLM, AutoTokenizer
model_path = 'm-a-p/neo_7b_instruct_v0.1'
tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    device_map="auto",
    torch_dtype='auto'
).eval()
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "天下没有不散的筵席,那么我们相聚的意义又是什么"},
]
input_ids = tokenizer.apply_chat_template(conversation=messages, add_generation_prompt=True, return_tensors='pt')
output_ids = model.generate(input_ids.to('cuda'), max_new_tokens=512)
response = tokenizer.decode(output_ids[0][input_ids.shape[1]:], skip_special_tokens=True)
print(response)

MAP-Neo项目贡献者和致谢

Multimodal Art Projection (M-A-P) 是一个开源研究社区。社区成员正在研究人工智能生成内容(AIGC)主题, 包括文本、音频和视觉模态。社区目标是推动大型语言/音乐/多模态模型训练、数据收集和有趣的应用开发。

欢迎加入!

社区主页: https://m-a-p.ai


感谢MAP-Neo项目贡献者!

Team Leaders:

• Ge Zhang, M-A-P, University of Waterloo, 01.AI, Data & Pretrain & Evaluation & Model Architecture & Codebase & Alignment

• Scott Qu, M-A-P, University of Manchester, 01.AI, Codebase & Model Architecture & Infra & Pretrain

• Jiaheng Liu, M-A-P, Scaling Law & Alignment

Core Contributors: (Alphabet Order)

• Chenchen Zhang, Independent Researcher, Pretrain

• Chenghua Lin. M-A-P, University of Manchester, Data

• Chou Leuang Yu, CUHK-Shenzhen, Alignment & Data

• Danny Pan, Peking University, Data & Codebase

• Esther Cheng, Peking University, Data

• Jie Liu, The Chinese University of Hong Kong, Alignment

• Qunshu Lin, 2077AI, Data

• Raven Yuan, M-A-P, Pretrain & Infra

• Tuney Zheng, M-A-P, 01.AI, University of Waterloo, Pretrain & Evaluation & Alignment

• Wei Pang, University of Waterloo, Data

• Xinrun Du, M-A-P, 01.AI, Codebase & Pretrain & Alignment & Evaluation

• Yiming Liang, Institute of Automation, Chinese Academy of Sciences, Alignment & Evalua- tion

• Yinghao Ma, M-A-P, Queen Mary University of London, Scaling Law• Yizhi Li, M-A-P, University of Manchester, Data • Ziyang Ma, M-A-P, Shanghai Jiao Tong University, Alignment


Contributors: (Alphabet Order)

• Bill Lin, University of Southern California, Alignment • Emmanouil Benetos, Queen Mary University of London, Scaling Law • Huan Yang, University of Warwick , Ethics & Societal Impact • Junting Zhou, Peking University, Data & Scaling Law • Kaijing Ma, Tongji University, Data • Minghao Liu, 2077AI, Data • Morry Niu, 01.AI, Codebase • Noah Wang, 01.AI, Alignment • Quehry Que, Independent Researcher, Data • Ruibo Liu, Dartmouth University, Pretrain & Model Architecture • Sine Liu, Independent Researcher, Infra • Shawn Guo, 01.AI, Data • Soren Gao, Fudan University, Tokenization • Wangchunshu Zhou, M-A-P & AIWaves Inc., Data • Xinyue Zhang, Unity, Ethics & Data • Yizhi Zhou, Nanjing University, Data • Yubo Wang, University of Waterloo, Pretrain • Yuelin Bai, M-A-P, Shenzhen Institute of Advanced Technology, CAS, Data• Yuhan Zhang, M-A-P, Data • Yuxiang Zhang, M-A-P, Waseda University, Codebase & Data • Zenith Wang, Independent Researcher, Data • Zhenzhu Yang, China University of Geosciences Beijing, Ethics & Data • Zijian Zhao, 2077AI, Data


Advisors:

• Jiajun Zhang, Wuhan AI Research, Institute of Automation, Chinese Academy of Sciences • Wanli Ouyang, The Chinese University of Hong Kong, Shanghai AI Lab • Wenhao Huang, 01.AI • Wenhu Chen, University of Waterloo


点击链接👇直达组织

https://modelscope.cn/organization/m-a-p

相关文章
|
7月前
|
数据采集 存储 人工智能
TripoSR开源!从单个图像快速生成 3D 对象!(附魔搭社区推理实战教程)
近期,VAST团队和Stability AI团队合作发布了TripoSR,可在一秒内从单个图像生成高质量3D对象。
|
7天前
|
机器学习/深度学习 人工智能 文字识别
POINTS 1.5:腾讯微信开源的多模态大模型,超越了业界其他的开源视觉语言模型,具备强大的视觉和语言处理能力
POINTS 1.5是腾讯微信推出的多模态大模型,基于LLaVA架构,具备强大的视觉和语言处理能力。它在复杂场景的OCR、推理能力、关键信息提取等方面表现出色,是全球10B以下开源模型中的佼佼者。
126 58
POINTS 1.5:腾讯微信开源的多模态大模型,超越了业界其他的开源视觉语言模型,具备强大的视觉和语言处理能力
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
111 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
14天前
|
机器学习/深度学习 人工智能 达摩院
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法,能够有效消除背景噪声,保留语音清晰度,并提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务。
101 3
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
|
1月前
|
人工智能 搜索推荐 API
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
Perplexica 是一款开源的 AI 驱动搜索引擎,支持多种搜索模式和实时信息更新,适用于个人、学术和企业等不同场景。
142 6
Perplexica:开源 AI 搜索引擎,Perplexity AI 的开源替代品,支持多种搜索模式、实时信息更新
|
24天前
|
人工智能 自然语言处理 数据处理
LazyGraphRAG:微软推出的图形增强生成增强检索框架
LazyGraphRAG是微软研究院推出的图形增强生成增强检索框架,旨在大幅降低数据索引成本并提高查询效率。该框架结合了最佳优先搜索和广度优先搜索,支持本地和全局查询,适用于一次性查询、探索性分析和流数据处理。LazyGraphRAG将加入开源的GraphRAG库,为开发者和企业提供更高效的技术支持。
78 0
LazyGraphRAG:微软推出的图形增强生成增强检索框架
|
1月前
|
弹性计算 人工智能 自然语言处理
魔搭社区与函数计算:高效部署开源大模型的文本生成服务体验
在数字化时代,人工智能技术迅速发展,开源大模型成为重要成果。魔搭社区(ModelScope)作为开源大模型的聚集地,结合阿里云函数计算,提供了一种高效、便捷的部署方式。通过按需付费和弹性伸缩,开发者可以快速部署和使用大模型,享受云计算的便利。本文介绍了魔搭社区与函数计算的结合使用体验,包括环境准备、部署应用、体验使用和资源清理等步骤,并提出了改进建议。
|
2月前
|
自然语言处理 数据可视化 数据挖掘
闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨
本文探讨了自然语言处理中嵌入技术的应用,重点在于语义搜索及聚类方法。通过对比不同规模的开源与闭源模型,文章展示了如何利用聚类技术过滤无关结果,提高搜索精度。实验结果显示,较小模型如mxbai在某些任务上表现优异,提示我们在追求高性能的同时不应忽视计算效率与成本效益。最后,文章还介绍了重新排序技术,进一步优化检索结果的相关性。
100 6
闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨
|
4月前
|
前端开发 Linux API
无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智能方案
【8月更文挑战第3天】无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智能方案
无缝融入,即刻智能[一]:Dify-LLM大模型平台,零编码集成嵌入第三方系统,42K+星标见证专属智能方案
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
预训练驱动的统一文本表示-GTE魔搭社区最佳实践
文本表示是自然语言处理(NLP)领域的核心问题, 其在很多NLP、信息检索的下游任务中发挥着非常重要的作用。
下一篇
DataWorks