苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相

简介: 【5月更文挑战第9天】苹果开源大语言模型OpenELM,提升效率和准确性,参数仅为10亿时比OLMo准确度高2.36%。苹果首次公开训练全过程、权重、数据集和代码,增强研究透明度,支持在苹果设备上推理和微调,推动AI研究发展。但训练资源需求高和模型可解释性仍是挑战。论文链接:[arxiv.org/pdf/2404.14619.pdf](https://arxiv.org/pdf/2404.14619.pdf)

苹果公司最近在人工智能领域迈出了重要一步,推出了名为OpenELM的开源大语言模型。这一举措不仅为研究人员提供了一个强大的工具,也为整个行业树立了新的标杆。本文将从第三方客观视角出发,对OpenELM进行全面的介绍和评价。

OpenELM是由苹果公司与多位知名学者合作开发的,包括Sachin Mehta、Mohammad Hossein Sekhavat、Qingqing Cao等。该模型采用了一种全新的层级缩放策略,能够更有效地分配参数,从而在保持准确性的同时提高效率。根据论文中的实验结果,与现有的开源模型OLMo相比,OpenELM在参数预算约为10亿时,准确度提高了2.36%,同时所需的预训练标记数量减少了一半。

然而,OpenELM的亮点并不仅仅在于其技术上的创新,更重要的是苹果公司对开源精神的积极拥抱。与以往的实践不同,苹果公司并没有仅仅提供模型权重和推理代码,而是将整个训练和评估框架、训练日志、多个检查点以及预训练配置等全部公开。这种前所未有的透明度和开放性,为研究人员提供了极大的便利,也为未来的研究奠定了基础。

此外,苹果公司还提供了将模型转换为MLX库的代码,以便在苹果设备上进行推理和微调。这一举措不仅丰富了苹果生态系统的功能,也为开发者提供了更多的选择和灵活性。

然而,尽管OpenELM的发布对于人工智能领域来说是一个重要的里程碑,但也存在一些值得关注的问题。首先,尽管苹果公司提供了丰富的资源和工具,但对于一些没有足够计算资源的研究人员来说,训练和评估OpenELM仍然是一个挑战。其次,尽管苹果公司强调了OpenELM的透明度和可解释性,但对于一些复杂的模型和算法,仍然存在一定的黑盒问题。

论文地址:https://arxiv.org/pdf/2404.14619.pdf

目录
相关文章
|
3月前
|
算法
两个小模型互相验证,直接比肩大模型?微软的rStar甚至没用CoT和微调
【9月更文挑战第10天】微软研究院亚洲院与哈佛大学研究团队提出了rStar,一种创新的方法,旨在提升小型语言模型(SLMs)的推理能力。rStar采用自我对弈的相互生成-判别过程,利用增强版蒙特卡洛树搜索(MCTS)算法生成高质量推理轨迹,并由另一个相似能力的SLM验证这些轨迹的一致性。这种方法在多个模型与任务中显著提升了推理准确率,如在GSM8K上,LLaMA2-7B的准确率从12.51%跃升至63.91%。rStar的独特之处在于无需微调或依赖更强大的模型即可提升推理能力。然而,其计算成本和对SLM自身能力的依赖仍是挑战。
152 7
|
1月前
|
人工智能 自然语言处理
米开朗基罗怎么说?谷歌DeepMind推出长上下文评估新框架
谷歌DeepMind团队提出了一种名为“米开朗基罗”(Michelangelo)的新型评估框架,通过潜在结构查询(LSQ)来全面评估大型语言模型(LLM)的长上下文理解能力。相比传统方法,米开朗基罗框架不仅评估模型的检索能力,还能更深入地验证其对上下文的理解和推理能力。
90 50
|
27天前
|
机器学习/深度学习 人工智能 算法
Optima:清华联合北邮推出优化通信效率和任务有效性的训练框架
Optima是由清华大学和北京邮电大学联合推出的一个优化通信效率和任务有效性的训练框架。该框架通过迭代生成、排名、选择和训练范式,显著提高了基于大型语言模型(LLM)的多智能体系统(MAS)的通信效率和任务效果。Optima不仅减少了令牌使用,还为改进推理时间扩展法则提供了新的可能性。
45 6
Optima:清华联合北邮推出优化通信效率和任务有效性的训练框架
|
1月前
|
机器学习/深度学习 自然语言处理 数据格式
社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估
本篇文章主要介绍下微调上的探索以及评估。另外,还特意试了试训练CMMLU数据集,能在榜单上提多少分
|
4月前
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。
133 65
|
4月前
|
人工智能 自然语言处理 测试技术
权重、代码、数据集全开源,性能超越Mistral-7B,苹果小模型来了
【8月更文挑战第12天】DCLM是由多家机构联合推出的全新测试平台,旨在通过优化数据集增强语言模型性能。其核心贡献包括一个含240万亿token的标准化语料库及有效的预训练方案。DCLM-BASELINE数据集成功训练出7B参数模型,在MMLU上5-shot准确率达64%,超越Mistral-7B,且计算成本降低40%。尽管存在局限,但该项目已全开源,为社区提供宝贵资源,推动语言模型发展。[论文链接](https://arxiv.org/pdf/2406.11794)
173 60
|
4月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
867 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
数据采集 机器学习/深度学习 人工智能
用ChatGPT训练羊驼:「白泽」开源,轻松构建专属模型,可在线试玩
用ChatGPT训练羊驼:「白泽」开源,轻松构建专属模型,可在线试玩
488 0
|
机器学习/深度学习 人工智能 算法
OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流
OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流
137 0