随着人工智能的不断发展,语言模型在各个领域的应用越来越广泛。然而,大型语言模型的可复制性和透明度对于推动开放研究、确保结果的可信度以及研究数据和模型的偏见和潜在风险至关重要。为了解决这个问题,苹果公司最近宣布了OpenELM,一个开源的高效语言模型家族。
OpenELM采用了一种层级缩放策略,通过在Transformer模型的每个层中有效地分配参数,实现了增强的准确性。例如,在大约10亿参数的预算下,OpenELM的准确性比OLMo提高了2.36%,同时只需要一半的预训练标记。
与之前只提供模型权重和推理代码,并在私有数据集上进行预训练的做法不同,苹果的发布包括了在公共可用数据集上进行语言模型的完整训练和评估框架,包括训练日志、多个检查点和预训练配置。此外,他们还发布了将模型转换为MLX库以在苹果设备上进行推理和微调的代码。
这一全面的发布旨在赋予和加强开放研究社区的能力,为未来的开放研究铺平道路。OpenELM的源代码、预训练模型权重和训练配方可以在他们的网站上找到。此外,OpenELM模型也可以在HuggingFace上找到。
OpenELM的发布对于那些对在苹果设备上运行高效语言模型感兴趣的人来说是一个令人兴奋的消息。然而,值得注意的是,OpenELM仍然是一个相对较新的模型,可能需要更多的研究和测试来确定其在各种应用中的性能。此外,尽管OpenELM是开源的,但苹果公司仍然拥有对该模型的知识产权,这可能会限制其他组织对该模型的使用和修改。