社区供稿 | 猎户星空发布Yi系列微调34B-Chat模型,开源免费,中英兼备全面领先!

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: OrionStar-Yi-34B-Chat中英文大模型集高性能、完全开源、免费可商用等诸多优势于一身


模型介绍

模型地址:

https://modelscope.cn/models/OrionStarAI/OrionStar-Yi-34B-Chat


在线体验:

https://modelscope.cn/studios/OrionStarAI/OrionStar-Yi-34B-Chat/summary


11 月 20 日,由被称为「大模型应用开发创业者」傅盛创立的,全球领先的人工智能服务型解决方案提供商猎户星空公司,推出了一款基于零一万物开源的Yi-34B模型微调后的chat模型——OrionStar-Yi-34B-Chat。


为了验证模型的各项能力,OrionStar-Yi-34B-Chat一经推出,在C-Eval和C-MMLU两个最具影响力的中文指标评估中,就以显著优势领先于Qwen-14B-Chat、Baichuan2-13B-Chat等国产大模型。


GPT-4固然能力强大,但闭源会要求企业访问公网以及难以定制化适配,使用场景受限。而开源能够使企业及超级个体轻松地借助专有数据进行微调和私有化部署,进而促进百行千业的良性发展生态。OrionStar-Yi-34B-Chat中英文大模型集高性能、完全开源、免费可商用等诸多优势于一身,可谓是ChatGPT最佳开源替代品之一。


OrionStar-Yi-34B-Chat多个评估基准表现最佳

作为国产优质大模型,OrionStar-Yi-34B-Chat更“懂”中文。为了验证模型的各项能力,OrionStar-Yi-34B-Chat在最具影响力的中文评估基准 C-Eval进行了综合评估,综合评分达到了77.7分,超过了同为国产大模型的 Qwen-14B-Chat、Baichuan2-13B-Chat,凸显中文世界的优异能力,可以更好的满足国内市场需求。


从更为全面的评估看,OrionStar-Yi-34B-Chat不仅在中文方面表现优异,在英文上表现同样亮眼。在全球大模型各项评测中最关键的 MMLU 英文权威评测榜单上,OrionStar-Yi-34B-Chat综合评分高达78.3,仅略逊色于 ChatGPT4 ,而比LLaMA-2-70B-Chat等某些参数规模更大的模型还要出色。

备注:

C-Eval 评测基准由上海交通大学、清华大学以及爱丁堡大学联合创建,是面向中文语言模型的综合考试评测集,覆盖了 52 个来自不同行业领域的学科。


MMLU 由加州大学伯克利分校等知名高校共同打造,集合了科学、工程、数学、人文、社会科学等领域的 57 个科目,主要目标是对模型的英文跨学科专业能力进行深入测试。其内容广泛,从初级水平一直涵盖到高级专业水平。


CMMLU是针对中国的语言和文化背景设计的评测集,用来评估LLM的知识蕴含和推理能力。该评测集跨多个学科,由67个主题组成。其中大多数任务的答案都是专门针对中国的文化背景设计,不适用于其它国家的语言。


更多细节维度的测评会持续更新在官方技术交流群。


为什么OrionStar-Yi-34B-Chat有如此亮眼的成绩呢?

1、Base模型基础好:作为大模型应用开发商,在Base大模型的选择上,猎户星空要对应用的质量负责,因此,对市面上广泛的开源模型做了测评,发现零一万物开源的Yi-34B模型表现确实优异。【聚言】是猎户星空自研的AI原生应用,我们用【聚言】进行实际的效果验证,Yi-34B模型在基于文本的理解能力、交互准确率及逻辑推理能力的效果最强。


2、15W+高质量中英文微调语料:我们知道微调数据是大模型训练的重要“燃料”,高质量、多样性的微调数据对大语言模型的对齐效果至关重要。我们在微调数据上花了大量时间和精力,使用了多种构建方案和人工精标及筛选,这些数据质量高、通用性强、覆盖面广、具备真实交互语料基础,对大型语言模型整个生命周期都有重要的影响,有助于大模型更好地适配实际的应用场景,实现人工智能赋能千行百业的愿景。


OrionStar-Yi-34B-Chat具体实践和经验分享

具体实践

我们知道高质量、多样性的微调数据是提高模型性能的关键因素,开源数据集质量普遍不高,多样性也较低,高质量数据需要人工精标!我们参考LLaMA-2以及intructGPT 定义了高质量、多样性的数据:


高质量:有帮助(helpful)、真实性(truthfulness)和无害性(harmlessness)详细见llama2论文。


多样性:任务多样、指令多样、覆盖领域多样, 再细点比如:指令长度及语种覆盖的多样。


数据具体构建思路如下

首先,我们基于数万条种子数据参考SELF-INSTRUCT、WizardLM、Orca、Backtranslation等基于大模型的方案去自动化构建一批初始数据,接着这些数据经过一个专门的数据质量模型进行评分和筛选,最终仅保留高质量数据。


紧接着参考 Platypus论文上方法做了数据去重、去污,保证数据严谨、有效。最后经过严格的人工精标,这些数据被进一步精炼,确保其无害性、真实性和实用性,最终形成了15W+高质量的微调语料。在数据筛选过程中,我们特别强调数据的安全性,加入了大量与安全相关的数据,以保证模型与人类价值观的一致性。关于数据的详细构建过程在猎户星空即将发布的自研大模型的技术报告里会详细说明,可以持续关注!


在具体微调的实践中,我们同时进行了两种微调方法:LORA和全参数量更新的微调,实际效果上基本也是全参数微调效果好于LORA。我们用DeepSpeed框架在4卡80G A100上使用ZERO3+Offload 策略,对这15W+数据进行了3个epoch的训练,分别在主观和客观测试集以及我们聚言业务的测试集上进行评测,给出了OrionStar-Yi-34B-Chat模型。这一过程不仅展示了猎户星空在技术上的创新和专业性,也体现了我们对质量和安全的不懈追求。


经验分享

•数据构建上前期可以利用大模型去快速构建一批数据,把模型迭代起来,积累经验,后面逐步构建高质量数据。微调模型的通用能力就是按这个思路优化的,随着人工精标的数据加入,模型效果也有提升(目前还在不断持续加入精标数据)。


•充分利用大模型能力,比如数据质量筛选、评测。


•微调数据的比例尽量均衡, 如:中英比例, 各种任务比例,我们经验 比例不要太离谱就行。


•在微调模型评测上,Ceval、MMLU一些开源评测集仅当做参考,不要只依赖它去挑模型,增加一些主观评测集,比如uoi、vicuna、belle等,或者构建自己评测集,另外重点关注模型在实际业务上的效果。


•在具体场景或具体任务上做微调,上千条左右的精标数据就有不错的效果。


OrionStar-Yi-34B-Chat示例案例效果展示

OrionStar-Yi-34B-Chat在交互对话、语义理解、知识问答、摘要生成和信息提取等多个方面都展现出卓越的性能。OrionStar-Yi-34B-Chat在语义理解任务中表现出色,能够准确把握文本的核心含义,为后续处理提供了可靠的基础,在交互中保障了流畅而自然的对话体验。


在线体验地址:

https://modelscope.cn/studios/OrionStarAI/OrionStar-Yi-34B-Chat/summary


对话交互

https://live.csdn.net/v/345816


知识问答

https://live.csdn.net/v/345814


语义理解

https://live.csdn.net/v/345815


猎户星空企业介绍

猎户星空(ORION STAR)成立于 2016 年9月,由傅盛创建,全球领先的人工智能服务型解决方案提供商,致力于“让人们从重复的体力劳动和简单的脑力劳动中解放出来,去从事更有温度、更具创造性的工作”。


猎户星空在行业内率先提出“AI+软件+硬件+服务=机器人”公式,具备自研全链条AI技术、机器人操作系统应用开发、标准化硬件研发制造、云端大脑服务能力,核心的AI机器人产品有:AI语音交互机器人、AI营销配送机器人、AI新零售机器人等。截至2023年6月底,猎户星空AI机器人累计总出货量已超过50,000台,总服务人次超5亿。


凭借7年AI经验积累,猎户星空推出大模型深度应用【聚言】,并已陆续面向行业客户开放并获得成果。猎户星空将继续凭借“机器人+大模型”的业务矩阵,秉持“助力合作伙伴成功”的价值主张,推动AI赋能实体经济和场景的数智化发展。


「聚言」是猎户星空自研基于大模型技术的深度应用,助力企业成为AI时代效率王者。为企业提供定制化AI大模型服务解决方案,真正帮助企业实现运营效率的提升、产品竞争力的增加、生意的快速增长,实现企业经营效率领先同行目标。


猎户星空具备全链条大模型应用能力的核心优势,包括拥有从海量数据处理、大模型预训练、二次预训练、微调(Fine-tune)、Prompt Engineering 、Agent开发的全链条能力和经验积累;拥有完整的端到端模型训练能力,包括系统化的数据处理流程和数百张GPU的并行模型训练能力,现已在大政务、云服务、出海电商、快消等多个行业场景落地。


同时,猎户星空具备顶级AI原生团队,Meta(Facebook)总部NLP和推荐算法科学家团队负责人领衔,来自百度、字节、微软等优秀算法工程师联合,人工智能领域磨合8年以上的团队,自然语言链路技术服务于小米、华为、美的、喜马拉雅音箱和手机。


接下来,猎户星空还将快节奏开源发布更多的大模型,邀请企业和开发者积极投入,共同促进语言模型开源社区的繁荣发展,打造属于自己场景中的大模型,引领下一代前沿创新和商业模型,探索走向通用人工智能的先进能力!


联系方式


邮箱:ai@orionstar.com

欢迎加入猎户技术交流微信群,群内可以提供模型最新信息,是一个畅所欲言的技术答疑平台。

相关文章
|
6月前
【RAPHAEL】商汤发力prompt,免费开源的图文模型!我写下了湖心亭看雪与桃花源记
【RAPHAEL】商汤发力prompt,免费开源的图文模型!我写下了湖心亭看雪与桃花源记
47 0
|
6月前
|
人工智能 自然语言处理 机器人
Jina AI 发布中英和英德双语 8K 向量模型,魔搭社区开源最佳实践!
在 Jina Embeddings 英语向量模型突破百万下载后,今天,Jina AI正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。
|
6月前
|
数据采集 自然语言处理 前端开发
社区供稿 | 猎户星空百亿参数大模型 Orion-14B系列开源,一张3060就能跑(附魔搭社区推理微调最佳实践)
1月21日,傅盛在猎户星空大模型发布会上宣布,“为企业应用而生” 的开源百亿参数猎户星空大模型正式发布。猎户星空大模型(Orion-14B)是由猎户星空研发的预训练多语言大语言模型,以其140亿参数规模展现出了卓越的性能。
|
1月前
|
前端开发 算法 测试技术
前端大模型应用笔记(五):大模型基础能力大比拼-计数篇-通义千文 vs 文心一言 vs 智谱 vs 讯飞vsGPT
本文对比测试了通义千文、文心一言、智谱和讯飞等多个国产大模型在处理基础计数问题上的表现,特别是通过链式推理(COT)提示的效果。结果显示,GPTo1-mini、文心一言3.5和讯飞4.0Ultra在首轮测试中表现优秀,而其他模型在COT提示后也能显著提升正确率,唯有讯飞4.0-Lite表现不佳。测试强调了COT在提升模型逻辑推理能力中的重要性,并指出免费版本中智谱GLM较为可靠。
前端大模型应用笔记(五):大模型基础能力大比拼-计数篇-通义千文 vs 文心一言 vs 智谱 vs 讯飞vsGPT
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
元象XVERSE发布 中国最大MoE开源模型:XVERSE-MoE-A36B,加速AI应用低成本部署,将国产开源提升至国际领先水平。
社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
|
4月前
|
自然语言处理 API Android开发
阿里Qwen2-72B大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?
阿里云的Qwen2-72B模型在Hugging Face上荣登开源模型榜首,展现卓越性能,超越其他包括Meta的Llama-3在内的竞争者。Qwen2有多个参数版本,其中72B版本在自然语言理解、知识、代码等任务上表现出色。较小参数版本如7B模型在某些方面略逊一筹。推出不同参数模型可能是为了降低成本、加速迭代、构建丰富的模型生态。通过提供不同规模的模型,阿里云旨在促进技术研究和全场景应用,类似于微软Windows XP和阿里云OS生态的构建策略。
314 1
|
6月前
|
人工智能 Rust Apache
社区供稿 | 更长、更强、更开放,零一万物 Yi-1.5 系列开源模型发布一周广受好评
5 月 13 日,零一万物 Yi 系列开源模型全新升级为 Yi-1.5。相较于去年 11 月的开源版本,这次的 Yi-1.5 在保持原 Yi 系列模型优秀的通用语言能力的前提下,通过增量训练 500B 高质量 token,大幅提高了数学逻辑、代码能力。
|
5月前
|
人工智能 自然语言处理 测试技术
社区供稿 | OpenVINO™ 助力 Qwen 2 —— 开启大语言模型新时代
就在刚刚,阿里魔搭社区发布了全新的 Qwen 2 系列模型 ,作为 Qwen 及魔搭社区的重要合作伙伴,OpenVINO™ 一直致力于赋能开发者高效搭建人工智能解决方案,助力大规模语言模型的性能提升和应用扩展。
|
6月前
|
自然语言处理 前端开发 Swift
社区供稿 | 中文llama3模型哪家强?llama3汉化版微调模型大比拼
随着llama3的发布,业界越来越多的针对其中文能力的微调版本也不断涌现出来,我们在ModelScope魔搭社区上,搜集到几款比较受欢迎的llama3中文版本模型,来从多个维度评测一下,其对齐后的中文能力到底如何? 微调后是否产生了灾难性遗忘问题。
|
自然语言处理 测试技术 编译器
社区供稿 | 姜子牙大模型开源代码大模型Ziya-Coding-34B-v1.0 再创榜单新高,魔搭开源可体验!
使用自然语言生成高质量的代码是大模型落地中的高频需求。近日,IDEA研究院封神榜团队正式开源最新的代码大模型Ziya-Coding-34B-v1.0,我们在HumanEval Pass@1的评测上,取得了75.5的好成绩,超过了GPT-4(67.0)的得分,也成为目前已知开源模型新高。

热门文章

最新文章