社区供稿 | 猎户星空发布Yi系列微调34B-Chat模型,开源免费,中英兼备全面领先!

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: OrionStar-Yi-34B-Chat中英文大模型集高性能、完全开源、免费可商用等诸多优势于一身


模型介绍

模型地址:

https://modelscope.cn/models/OrionStarAI/OrionStar-Yi-34B-Chat


在线体验:

https://modelscope.cn/studios/OrionStarAI/OrionStar-Yi-34B-Chat/summary


11 月 20 日,由被称为「大模型应用开发创业者」傅盛创立的,全球领先的人工智能服务型解决方案提供商猎户星空公司,推出了一款基于零一万物开源的Yi-34B模型微调后的chat模型——OrionStar-Yi-34B-Chat。


为了验证模型的各项能力,OrionStar-Yi-34B-Chat一经推出,在C-Eval和C-MMLU两个最具影响力的中文指标评估中,就以显著优势领先于Qwen-14B-Chat、Baichuan2-13B-Chat等国产大模型。


GPT-4固然能力强大,但闭源会要求企业访问公网以及难以定制化适配,使用场景受限。而开源能够使企业及超级个体轻松地借助专有数据进行微调和私有化部署,进而促进百行千业的良性发展生态。OrionStar-Yi-34B-Chat中英文大模型集高性能、完全开源、免费可商用等诸多优势于一身,可谓是ChatGPT最佳开源替代品之一。


OrionStar-Yi-34B-Chat多个评估基准表现最佳

作为国产优质大模型,OrionStar-Yi-34B-Chat更“懂”中文。为了验证模型的各项能力,OrionStar-Yi-34B-Chat在最具影响力的中文评估基准 C-Eval进行了综合评估,综合评分达到了77.7分,超过了同为国产大模型的 Qwen-14B-Chat、Baichuan2-13B-Chat,凸显中文世界的优异能力,可以更好的满足国内市场需求。


从更为全面的评估看,OrionStar-Yi-34B-Chat不仅在中文方面表现优异,在英文上表现同样亮眼。在全球大模型各项评测中最关键的 MMLU 英文权威评测榜单上,OrionStar-Yi-34B-Chat综合评分高达78.3,仅略逊色于 ChatGPT4 ,而比LLaMA-2-70B-Chat等某些参数规模更大的模型还要出色。

备注:

C-Eval 评测基准由上海交通大学、清华大学以及爱丁堡大学联合创建,是面向中文语言模型的综合考试评测集,覆盖了 52 个来自不同行业领域的学科。


MMLU 由加州大学伯克利分校等知名高校共同打造,集合了科学、工程、数学、人文、社会科学等领域的 57 个科目,主要目标是对模型的英文跨学科专业能力进行深入测试。其内容广泛,从初级水平一直涵盖到高级专业水平。


CMMLU是针对中国的语言和文化背景设计的评测集,用来评估LLM的知识蕴含和推理能力。该评测集跨多个学科,由67个主题组成。其中大多数任务的答案都是专门针对中国的文化背景设计,不适用于其它国家的语言。


更多细节维度的测评会持续更新在官方技术交流群。


为什么OrionStar-Yi-34B-Chat有如此亮眼的成绩呢?

1、Base模型基础好:作为大模型应用开发商,在Base大模型的选择上,猎户星空要对应用的质量负责,因此,对市面上广泛的开源模型做了测评,发现零一万物开源的Yi-34B模型表现确实优异。【聚言】是猎户星空自研的AI原生应用,我们用【聚言】进行实际的效果验证,Yi-34B模型在基于文本的理解能力、交互准确率及逻辑推理能力的效果最强。


2、15W+高质量中英文微调语料:我们知道微调数据是大模型训练的重要“燃料”,高质量、多样性的微调数据对大语言模型的对齐效果至关重要。我们在微调数据上花了大量时间和精力,使用了多种构建方案和人工精标及筛选,这些数据质量高、通用性强、覆盖面广、具备真实交互语料基础,对大型语言模型整个生命周期都有重要的影响,有助于大模型更好地适配实际的应用场景,实现人工智能赋能千行百业的愿景。


OrionStar-Yi-34B-Chat具体实践和经验分享

具体实践

我们知道高质量、多样性的微调数据是提高模型性能的关键因素,开源数据集质量普遍不高,多样性也较低,高质量数据需要人工精标!我们参考LLaMA-2以及intructGPT 定义了高质量、多样性的数据:


高质量:有帮助(helpful)、真实性(truthfulness)和无害性(harmlessness)详细见llama2论文。


多样性:任务多样、指令多样、覆盖领域多样, 再细点比如:指令长度及语种覆盖的多样。


数据具体构建思路如下

首先,我们基于数万条种子数据参考SELF-INSTRUCT、WizardLM、Orca、Backtranslation等基于大模型的方案去自动化构建一批初始数据,接着这些数据经过一个专门的数据质量模型进行评分和筛选,最终仅保留高质量数据。


紧接着参考 Platypus论文上方法做了数据去重、去污,保证数据严谨、有效。最后经过严格的人工精标,这些数据被进一步精炼,确保其无害性、真实性和实用性,最终形成了15W+高质量的微调语料。在数据筛选过程中,我们特别强调数据的安全性,加入了大量与安全相关的数据,以保证模型与人类价值观的一致性。关于数据的详细构建过程在猎户星空即将发布的自研大模型的技术报告里会详细说明,可以持续关注!


在具体微调的实践中,我们同时进行了两种微调方法:LORA和全参数量更新的微调,实际效果上基本也是全参数微调效果好于LORA。我们用DeepSpeed框架在4卡80G A100上使用ZERO3+Offload 策略,对这15W+数据进行了3个epoch的训练,分别在主观和客观测试集以及我们聚言业务的测试集上进行评测,给出了OrionStar-Yi-34B-Chat模型。这一过程不仅展示了猎户星空在技术上的创新和专业性,也体现了我们对质量和安全的不懈追求。


经验分享

•数据构建上前期可以利用大模型去快速构建一批数据,把模型迭代起来,积累经验,后面逐步构建高质量数据。微调模型的通用能力就是按这个思路优化的,随着人工精标的数据加入,模型效果也有提升(目前还在不断持续加入精标数据)。


•充分利用大模型能力,比如数据质量筛选、评测。


•微调数据的比例尽量均衡, 如:中英比例, 各种任务比例,我们经验 比例不要太离谱就行。


•在微调模型评测上,Ceval、MMLU一些开源评测集仅当做参考,不要只依赖它去挑模型,增加一些主观评测集,比如uoi、vicuna、belle等,或者构建自己评测集,另外重点关注模型在实际业务上的效果。


•在具体场景或具体任务上做微调,上千条左右的精标数据就有不错的效果。


OrionStar-Yi-34B-Chat示例案例效果展示

OrionStar-Yi-34B-Chat在交互对话、语义理解、知识问答、摘要生成和信息提取等多个方面都展现出卓越的性能。OrionStar-Yi-34B-Chat在语义理解任务中表现出色,能够准确把握文本的核心含义,为后续处理提供了可靠的基础,在交互中保障了流畅而自然的对话体验。


在线体验地址:

https://modelscope.cn/studios/OrionStarAI/OrionStar-Yi-34B-Chat/summary


对话交互

https://live.csdn.net/v/345816


知识问答

https://live.csdn.net/v/345814


语义理解

https://live.csdn.net/v/345815


猎户星空企业介绍

猎户星空(ORION STAR)成立于 2016 年9月,由傅盛创建,全球领先的人工智能服务型解决方案提供商,致力于“让人们从重复的体力劳动和简单的脑力劳动中解放出来,去从事更有温度、更具创造性的工作”。


猎户星空在行业内率先提出“AI+软件+硬件+服务=机器人”公式,具备自研全链条AI技术、机器人操作系统应用开发、标准化硬件研发制造、云端大脑服务能力,核心的AI机器人产品有:AI语音交互机器人、AI营销配送机器人、AI新零售机器人等。截至2023年6月底,猎户星空AI机器人累计总出货量已超过50,000台,总服务人次超5亿。


凭借7年AI经验积累,猎户星空推出大模型深度应用【聚言】,并已陆续面向行业客户开放并获得成果。猎户星空将继续凭借“机器人+大模型”的业务矩阵,秉持“助力合作伙伴成功”的价值主张,推动AI赋能实体经济和场景的数智化发展。


「聚言」是猎户星空自研基于大模型技术的深度应用,助力企业成为AI时代效率王者。为企业提供定制化AI大模型服务解决方案,真正帮助企业实现运营效率的提升、产品竞争力的增加、生意的快速增长,实现企业经营效率领先同行目标。


猎户星空具备全链条大模型应用能力的核心优势,包括拥有从海量数据处理、大模型预训练、二次预训练、微调(Fine-tune)、Prompt Engineering 、Agent开发的全链条能力和经验积累;拥有完整的端到端模型训练能力,包括系统化的数据处理流程和数百张GPU的并行模型训练能力,现已在大政务、云服务、出海电商、快消等多个行业场景落地。


同时,猎户星空具备顶级AI原生团队,Meta(Facebook)总部NLP和推荐算法科学家团队负责人领衔,来自百度、字节、微软等优秀算法工程师联合,人工智能领域磨合8年以上的团队,自然语言链路技术服务于小米、华为、美的、喜马拉雅音箱和手机。


接下来,猎户星空还将快节奏开源发布更多的大模型,邀请企业和开发者积极投入,共同促进语言模型开源社区的繁荣发展,打造属于自己场景中的大模型,引领下一代前沿创新和商业模型,探索走向通用人工智能的先进能力!


联系方式


邮箱:ai@orionstar.com

欢迎加入猎户技术交流微信群,群内可以提供模型最新信息,是一个畅所欲言的技术答疑平台。

相关文章
|
20天前
【RAPHAEL】商汤发力prompt,免费开源的图文模型!我写下了湖心亭看雪与桃花源记
【RAPHAEL】商汤发力prompt,免费开源的图文模型!我写下了湖心亭看雪与桃花源记
24 0
|
20天前
|
人工智能 自然语言处理 机器人
Jina AI 发布中英和英德双语 8K 向量模型,魔搭社区开源最佳实践!
在 Jina Embeddings 英语向量模型突破百万下载后,今天,Jina AI正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。
|
20天前
|
数据采集 自然语言处理 前端开发
社区供稿 | 猎户星空百亿参数大模型 Orion-14B系列开源,一张3060就能跑(附魔搭社区推理微调最佳实践)
1月21日,傅盛在猎户星空大模型发布会上宣布,“为企业应用而生” 的开源百亿参数猎户星空大模型正式发布。猎户星空大模型(Orion-14B)是由猎户星空研发的预训练多语言大语言模型,以其140亿参数规模展现出了卓越的性能。
|
20天前
|
数据可视化 物联网 测试技术
零一万物Yi-1.5系列模型发布并开源!34B/9B/6B 多尺寸魔搭社区推理微调最佳实践教程来啦!
Yi-1.5是Yi的升级版本。 它使用 500B tokens的高质量语料库在 Yi 上持续进行预训练,并在 3M 个多样化的微调样本上进行微调。
|
20天前
|
自然语言处理 前端开发 Swift
社区供稿 | 中文llama3模型哪家强?llama3汉化版微调模型大比拼
随着llama3的发布,业界越来越多的针对其中文能力的微调版本也不断涌现出来,我们在ModelScope魔搭社区上,搜集到几款比较受欢迎的llama3中文版本模型,来从多个维度评测一下,其对齐后的中文能力到底如何? 微调后是否产生了灾难性遗忘问题。
|
9月前
|
自然语言处理 测试技术 编译器
社区供稿 | 姜子牙大模型开源代码大模型Ziya-Coding-34B-v1.0 再创榜单新高,魔搭开源可体验!
使用自然语言生成高质量的代码是大模型落地中的高频需求。近日,IDEA研究院封神榜团队正式开源最新的代码大模型Ziya-Coding-34B-v1.0,我们在HumanEval Pass@1的评测上,取得了75.5的好成绩,超过了GPT-4(67.0)的得分,也成为目前已知开源模型新高。
|
8月前
|
SQL 人工智能 JSON
社区供稿 l ChatGLM金融开源FinGLM学习笔记
日前,由中国中文信息学会社会媒体处理专委会主办,智谱 AI、安硕信息、阿里云、魔搭社区、北京交通大学联合承办的「SMP 2023 ChatGLM 金融大模型挑战赛」落下帷幕,该赛事旨在推动大模型在金融垂直行业应用的研究和开发,沉淀大模型落地实践经验。赛后,赛事方第一时间开源开放了赛事相关的代码,目前也开始有开发者小伙伴基于此整理了一些干货笔记,小编特搜罗来向大家分享,希望能给正在关注大模型行业落地的小伙伴们一些帮助。
|
10月前
|
人工智能 达摩院
社区供稿 | 达摩院多模态对话大模型猫头鹰mPLUG-Owl大升级,登顶MMBench
近日,在上海人工智能实验室发布的多模态大模型榜单MMBench中,来自达摩院的mPLUG-Owl 超过MiniGPT4,LLaVA,VisualGLM等14个多模态大模型,登顶榜首。目前,mPLUG-Owl最新的预训练,SFT模型都已在ModelScope开源,欢迎大家体验。
|
10月前
|
存储 数据采集 人工智能
社区供稿 I 基于Qwen-7B的垂域大模型——MindChat(漫谈)心理大模型上线魔搭
心理大模型——漫谈(MindChat)期望从心理咨询、心理评估、心理诊断、心理治疗四个维度帮助人们纾解心理压力与解决心理困惑,提高心理健康水平。
|
10月前
|
机器学习/深度学习 人工智能 算法
WAVE SUMMIT 定档8月16日,或将曝百度飞桨、文心大模型最新进展
2023年全球AI浪潮迭起,大语言模型热度空前,生成式人工智能为千行百业高质量发展带来更多想象空间。作为前沿科技风向标、汇聚全球开发者的顶级盛会,WAVE SUMMIT 2023深度学习开发者峰会正式定档8月16日,在北京望京凯悦酒店召开。本次峰会聚焦深度学习及大模型技术的发展与未来,将带来行业前瞻洞察和一系列全新重磅发布。
103 0
WAVE SUMMIT 定档8月16日,或将曝百度飞桨、文心大模型最新进展