苹果卷开源大模型，公开代码、权重、数据集、训练全过程，OpenELM亮相-阿里云开发者社区

苹果卷开源大模型，公开代码、权重、数据集、训练全过程，OpenELM亮相

2024-05-10 88

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【5月更文挑战第9天】苹果开源大语言模型OpenELM，提升效率和准确性，参数仅为10亿时比OLMo准确度高2.36%。苹果首次公开训练全过程、权重、数据集和代码，增强研究透明度，支持在苹果设备上推理和微调，推动AI研究发展。但训练资源需求高和模型可解释性仍是挑战。论文链接：[arxiv.org/pdf/2404.14619.pdf](https://arxiv.org/pdf/2404.14619.pdf)

苹果公司最近在人工智能领域迈出了重要一步，推出了名为OpenELM的开源大语言模型。这一举措不仅为研究人员提供了一个强大的工具，也为整个行业树立了新的标杆。本文将从第三方客观视角出发，对OpenELM进行全面的介绍和评价。

OpenELM是由苹果公司与多位知名学者合作开发的，包括Sachin Mehta、Mohammad Hossein Sekhavat、Qingqing Cao等。该模型采用了一种全新的层级缩放策略，能够更有效地分配参数，从而在保持准确性的同时提高效率。根据论文中的实验结果，与现有的开源模型OLMo相比，OpenELM在参数预算约为10亿时，准确度提高了2.36%，同时所需的预训练标记数量减少了一半。

然而，OpenELM的亮点并不仅仅在于其技术上的创新，更重要的是苹果公司对开源精神的积极拥抱。与以往的实践不同，苹果公司并没有仅仅提供模型权重和推理代码，而是将整个训练和评估框架、训练日志、多个检查点以及预训练配置等全部公开。这种前所未有的透明度和开放性，为研究人员提供了极大的便利，也为未来的研究奠定了基础。

此外，苹果公司还提供了将模型转换为MLX库的代码，以便在苹果设备上进行推理和微调。这一举措不仅丰富了苹果生态系统的功能，也为开发者提供了更多的选择和灵活性。

然而，尽管OpenELM的发布对于人工智能领域来说是一个重要的里程碑，但也存在一些值得关注的问题。首先，尽管苹果公司提供了丰富的资源和工具，但对于一些没有足够计算资源的研究人员来说，训练和评估OpenELM仍然是一个挑战。其次，尽管苹果公司强调了OpenELM的透明度和可解释性，但对于一些复杂的模型和算法，仍然存在一定的黑盒问题。

论文地址：https://arxiv.org/pdf/2404.14619.pdf

苹果卷开源大模型，公开代码、权重、数据集、训练全过程，OpenELM亮相

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

苹果卷开源大模型，公开代码、权重、数据集、训练全过程，OpenELM亮相

热门文章

最新文章

相关课程

相关电子书

相关实验场景