零一万物发布首款大模型,阿里云魔搭社区开源首发

简介: 零一万物发布首款大模型,阿里云魔搭社区开源首发


今天,李开复博士带队创办的AI2.0公司零一万物正式开源发布首款预训练大模型Yi-34B,模型开放商用申请,已在阿里云魔搭社区ModelScope首发。魔搭第一时间推出了模型部署相关教程,供开发者参考并快速上手。


零一万物此次开源的Yi系列模型包含34B和6B两个版本。据Hugging Face英文开源社区平台和C-Eval中文评测的最新榜单,Yi-34B 预训练模型取得了多项SOTA 国际最佳性能指标认可,成为全球开源大模型“双料冠军”。


零一万物创始人及 CEO 李开复博士表示:“零一万物坚定进军全球第一梯队目标,从招的第一个人,写的第一行代码,设计的第一个模型开始,就一直抱着成为‘World's No.1’的初衷和决心。”



魔搭社区开源地址:


Yi-34B登顶全球英文及中文权威榜单No.1

在Hugging Face英文测试公开榜单Pretrained预训练开源模型排名中,Yi-34B以70.72分位列全球第一,碾压LLaMA2-70B和Falcon-180B等众多大尺寸模型。


Hugging Face Open LLM Leaderboard (pretrained) 大模型排行榜,Yi-34B高居榜首(2023年11月5日)


在C-Eval中文权威榜单排行榜上, Yi-34B超越了全球所有开源模型。对比GPT-4,在CMMLU、E-Eval、Gaokao 三个主要的中文指标上,Yi-34B也具有绝对优势。


C-Eval 排行榜:公开访问的模型,Yi-34B全球第一(2023年11 月5日)


在全球大模型各项评测中最关键的MMLU(Massive Multitask Language Understanding大规模多任务语言理解)、BBH等反映模型综合能力的评测集上,Yi-34B同样表现突出,在通用能力、知识推理、阅读理解等多项指标评比中全部胜出。


各评测集得分:Yi 模型 v.s. 其他开源模型


和LLaMA2一样,Yi系列模型在GSM8k、MBPP的数学和代码评测表现略逊GPT模型。未来,零一万物的系列开源计划中将推出代码能力和数学能力专项的继续训练模型。


200K超长上下文窗口

Yi-34B模型将发布支持200K超长上下文窗口(context window)版本,可以处理约40万汉字超文本输入。上下文窗口是大模型综合运算能力的金指标之一,对于理解和生成与特定上下文相关的文本至关重要。


受限于计算复杂度、数据完备度等问题,上下文窗口规模扩充从计算、内存和通信的角度存在各种挑战。为此,零一万物技术团队实施了一系列优化,包括计算通信重叠、序列并行、通信压缩等,实现了在大规模模型训练中近100倍的能力提升,也为Yi系列模型上下文规模下一次跃升储备了充足“电力”。


AI Infra实测实现40%训练成本下降

李开复曾经表示,“做过大模型Infra的人比做算法的人才更稀缺”。超强的Infra能力是大模型研发的核心护城河之一。


AI Infra(AI Infrastructure 人工智能基础架构技术)涵盖大模型训练和部署提供各种底层技术设施,包括处理器、操作系统、存储系统、网络基础设施、云计算平台等等。


零一万物Yi系列大模型基于阿里云平台打造,阿里云强大的智能算力基础设施为模型训练提供了稳固的基石。零一万物的Infra技术通过“高精度”系统、弹性训和接力训等全栈式解决方案,确保训练高效、安全地进行。


凭借强大的AI Infra,Yi-34B模型训练成本实测下降40%,实际训练完成达标时间与预测的时间误差不到一小时,进一步模拟上到千亿规模训练成本可下降多达50%。目前,零一万物Infra能力实现故障预测准确率超过90%,故障提前发现率达到 99.9%,不需要人工参与的故障自愈率超95%。


零一万物组建了由前Google大数据和知识图谱专家领衔的数据团队,建设了高效、自动、可评价、可扩展的智能数据处理管线;还自研出一套“规模化训练实验平台”,用来指导模型的设计和优化。数据处理管线和加大规模预测的训练能力建设,把以往的大模型训练碰运气的“炼丹”过程变得极度细致和科学化。


李开复宣布,零一万物已启动下一个千亿参数模型的训练。


接下来,零一万物将基于Yi系列大模型,打造更多To C超级应用。李开复强调,“AI 2.0是有史以来最大的科技革命,它带来的改变世界的最大机会一定是平台和技术,正如PC时代的微软Office,移动互联网时代的微信、抖音、美团一样,商业化爆发式增长概率最高的一定是ToC应用。零一万物邀请开发者社群跟我们一起搭建 Yi 开源模型的应用生态系,协力打造AI 2.0时代的超级应用。”



/ END /

目录
相关文章
|
20天前
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
招募!阿里云x魔搭社区发起Create@AI创客松邀你探索下一代多维智能体应用
303 0
|
1月前
|
自然语言处理
阿里云百炼大模型服务--企业知识检索问答指南
阿里云百炼提供的企业知识检索问答应用可以帮助大家实现让大模型瞬间“开挂”的技能。结合上传的知识数据,大模型识别解析学习文档内容,最终给出生成式回复。我们在通义千问-Turbo/Max大模型基础上,将文件上传、读取、切片、向量化等过程都开发好预置在应用中,实现开箱即用,更能满足您的日常需求。
|
10天前
|
监控 Serverless API
阿里云函数计算的工作原理与事件驱动模型密切相关
【4月更文挑战第17天】阿里云函数计算的工作原理与事件驱动模型密切相关
64 4
|
18天前
|
机器学习/深度学习 编解码 人工智能
阿里云百炼的模型怎么选择并体验
本模块为您提供大模型服务平台百炼中支持的模型类型,便于您快速根据自己的需求选择所需模型!
|
20天前
|
人工智能 自然语言处理 测试技术
“送云资源、用大模型” 阿里云启动云工开物“高校训练营”计划
“送云资源、用大模型” 阿里云启动云工开物“高校训练营”计划
31 1
|
20天前
|
云安全 人工智能 定位技术
交通运输部公路科学研究院携手阿里云共建交通行业大模型
交通运输部公路科学研究院携手阿里云共建交通行业大模型
22 0
|
1月前
|
人工智能 IDE API
灵动指尖 :阿里云智能编码插件 更好的为IDE内置社区服务
灵动指尖 :阿里云智能编码插件 更好的为IDE内置社区服务
|
1月前
|
人工智能 数据可视化 API
阿里云百炼大模型服务--流程编排接入快速上手指南
流程编排是一种面向开发者的可视化开发工具,支持LLM、API、脚本等类型节点,旨在简化接入大型语言模型(LLM)流程,同时提供应用流程的全生命周期管理,包括流程的编排、试验、部署等,为开发者提供自定义AI应用开发一站式服务。
阿里云百炼大模型服务--模型训练指南
模型训练是通过Fine-tuning训练模式提高模型效果的功能模块,作为重要的大模型效果优化方式,用户可以通过构建符合业务场景任务的训练集,调整参数训练模型,训练模型学习业务数据和业务逻辑,最终提高在业务场景中的模型效果。
|
1月前
|
数据采集 SQL 自然语言处理
阿里云OpenSearch RAG混合检索Embedding模型荣获C-MTEB榜单第一
阿里云OpenSearch引擎通过Dense和Sparse混合检索技术,在中文Embedding模型C-MTEB榜单上拿到第一名,超越Baichuan和众多开源模型,尤其在Retrieval任务上大幅提升。
432 3

热门文章

最新文章