GPT-4充当评测老师,效果惊艳,港中文(深圳)开源凤凰、Chimera等大模型

简介: GPT-4充当评测老师,效果惊艳,港中文(深圳)开源凤凰、Chimera等大模型

港中文(深圳)“凤凰 “多语言大模型,中文效果逼近文心一言,多种语言开源 SOTA;英文版”Chimera” 逼近 ChatGPT(GPT4 评测认为其有 96% GPT 3.5 Turbo 效果),数据模型训练将全开源。

背景介绍
ChatGPT 和 GPT-4 的问世,被比尔・盖茨誉为自 1980 年以来最大的科技革命。近日,相关技术和科研以 "天" 为单位快速迭代,每天都有新的类似 ChatGPT 的模型发布。其中包括 Alpaca、Vicuna、Dolly、Belle、Baize、 Guanaco 和 LuoTuo 等。
近期备受关注的是来自香港中文大学(深圳)和深圳市大数据研究院的王本友教授团队开发的 Phoenix(凤凰) 和 Chimera 等开源大语言模型,其中文效果接近百度文心一言,GPT-4 评测达到了 97% 文心一言的水平,在人工评测中五成不输文心一言。  

此外,维护 Phoenix 和 Chimera 大模型的 github 仓库取名为 “LLM 动物园”,其中还包括其他相关即将发布的模型,如医疗领域的华佗 GPT 模型(huatuogpt.cn)、法律 GPT 模型、多模态大模型和检索增强的大模型等。具体请见其 Github 主页的技术报告。


项目地址:https://github.com/FreedomIntelligence/LLMZoo
名字的哲学:凤凰和奇美拉
阻碍大模型发展最大的瓶颈是没有足够的候选名称可用于命名语言模型,LLAMA、Guanaco、Vicuna 和 Alpaca 已经被使用了,而且骆驼家族中已经没有更多的成员了。王本友教授团队将多语言的大模型命名为 “凤凰”。在中国文化中,“凤凰” 通常被视为鸟类之王的象征。正如成语所说,“百鸟朝凤”,表明它能够与说不同的语言的鸟类沟通,称凤凰为能够理解和说出数百种(鸟类)语言的模型。更重要的是,“凤凰” 是 “香港中文大学(深圳)”(CUHKSZ)的图腾,开发团队来自这个高校。
专门针对拉丁语的 “凤凰” 版本被称为 “奇美拉”。奇美拉是希腊神话中类似的混合生物,由来自利基亚和小亚细亚的不同动物部分组成。凤凰和奇美拉分别代表了东方和西方文化的传说生物。将它们放在一个动物园里,以期望东西方人民之间共同协作,来平民化 ChatGPT,共同打破 Open (close) AI 的 AI 霸权。
凤凰的技术特点
Phoenix 模型有两点不同之处:
(1)微调技艺:指令式微调与对话式微调的完美结合
Phoenix 模型在后训练阶段精妙地融合了基于指令的微调(Instruction-based tuning)与基于对话的微调(Conversation-based tuning),实现了两者优势的有机互补。这一结合使 Phoenix 模型在处理各类问题时具有更高的灵活性和应变能力。以 Alpaca 为代表的基于指令微调方法能够使得语言模型严格遵循人类指令,有效满足用户的信息需求;以 Vicuna 为代表的基于对话的微调方法则能够提升模型与用户自然交流的能力,提升用户的对话交互体验。凤凰模型将两者结合,不仅提高了模型的实用性,更增强了其在各种应用场景的竞争力。

(2)驾驭多语言:四十余种语言的全球化视野
Phoenix 模型坚持拥抱全球化视野,在预训练(Pre-training)与后训练(Post-training)阶段均广泛运用多种语言的训练数据。这使得 Phoenix 模型在多语言场景下表现出色,能够满足全球使用者的需求。在预训练阶段, Phoenix 模型采用 BLOOM 作为基座模型,相较于仅使用拉丁语系数据训练的 LLaMA 模型, BLOOM 模型在包括拉丁语系和非拉丁语系的多种语言训练数据上训练而成,因此将其作为基座的凤凰模型对于非拉丁语系用户更加友好。在后训练阶段,凤凰模型的指令数据集和对话数据集都涵盖了超过 40 种语言的训练数据,进一步拓展了其多语言的支持能力。因此,凤凰模型不仅在英汉语言上表现卓越,还在已评测的十余种语言中,相较于其他开源模型具备显著优势。
实验结果

中文

团队成员采用与 Vicuna 一致的评测方式,即使用 GPT-4 作为评估模型,对凤凰模型在多种语言中的性能表现进行了自动评估。图中展示了 Phoenix 在中文语境下与流行的中文模型的对比结果。Phoenix 超其他流行的中文开源模型(包括 BELLE -7B 和 Chinese-Alpaca-13B 等)。这表明,尽管 Phoenix 是一个多语言的模型,但在所有开源的中文模型中,它实现了 SOTA 级别的性能。与其他开源的模型相似,Phoenix 面对 ChatGPT 和文心一言等闭源大规模语言模型时略显逊色(ChatGLM-6B 未开放数据和训练细节,只开源了权重,暂归为半闭源模型家族),但在效果上已能媲美百度开发的文心一言,人工评估中近三成例子比文心一言的输出更好。

多语言
除了中文,Phoenix 在多种语言上表现优异,包括但不限于西班牙语、法语、葡萄牙语、阿拉伯语、日语和韩语,涵盖了拉丁语系和非拉丁语系的多种语言。这是因为 Phoenix 在预训练阶段的基座模型、后训练阶段的指令式微调和对话式微调三个方面都采用了多语言的训练数据,使得其成为真正意义上的第一个多语言开源类 ChatGPT 大模型,为非拉丁语系的人群带来福音。特别地,Phoenix 模型的基座采用 BLOOM 模型,对商用更加友好,对普及 ChatGPT 至世界各个角落,特别是 OpenAI 限制的国家具有显著意义。想象一下,像灯泡和疫苗等现代科技产品都普及到了几乎所有发展中国家,划时代的 ChatGPT 同样应惠及全球所有人口,这正是 "democratize ChatGPT" 浪潮的应有之意。

英文
英文方面,在使用 GPT-4 进行评测时,Phoenix-7B 模型的表现超过了 Vicuna-7B 和 ChatGLM-6B,但略逊于 Vicuna-13B。造成这种差距的原因可能有多方面,一方面是模型大小仅为 Vicuna-13B 的一半;另一方面,作者认为 Phoenix 是在多语言环境下训练的,因此额外支付了 “多语言税”(multi-lingual tax),导致其主语言(英语)的表现不如专门针对拉丁语言(英文属于拉丁语言)的 Vicuna-13B。
为了抵消多语言税的影响,作者将多语言的基座模型(BLOOM)替换为仅包含拉丁语言的 LLaMA 模型,以测试其在拉丁语系,特别是英语上的表现。这个拉丁语言版的 Phoenix,被称为 “Chimera”(奇美拉)。再次使用 GPT-4 进行测试,Chimera 的表现达到了 96.6% 的 ChatGPT 水平,略超过 Vicuna-13B 和 BARD 等模型。


人工评测
虽然上述的自动评测方法源自 Vicuna 的评测方式,即用 GPT-4 作为评估模型进行评测,但是使用的评测数据无论是类型还是数量都是偏少的。出于对评估可靠性的进一步考虑,香港中文大学(深圳)的团队采用人工评测的方式来评估中文大模型。人工评测的结果与 GPT-4 在中文大模型评测的结果高度一致。人工评估效果顺序为:ChatGPT、ChatGLM-6B、文心一言、凤凰、BELLE 和 Chinese-LLaMA-Alpaca -- 这与 GPT 4 的评测一样。这也是首次将 GPT-4 的结果与人工评估结果进行比较的研究。


综上所述,Phoenix 和 Chimera 等开源大语言模型在中文和多种语言环境下都展现出了优异的表现,无论是在中文开源模型中还是在拉丁语系中。这些模型的发展将有助于推动 ChatGPT 技术在全球范围内的普及,让更多人受益于这一划时代的科技成果。

相关文章
|
1月前
|
数据采集 API 决策智能
华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一
 【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE,一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据,显著提升大型语言模型(LLM)的功能调用能力。实验结果显示,使用ToolACE数据训练的80亿参数模型性能媲美GPT-4,在伯克利功能调用排行榜上获得开源第一。
67 4
|
1月前
|
存储 数据采集 数据安全/隐私保护
商汤、清华、复旦等开源百亿级多模态数据集,可训练类GPT-4o模型
商汤科技、清华大学和复旦大学等机构联合开源了名为OmniCorpus的多模态数据集,规模达百亿级,旨在支持类似GPT-4级别的大型多模态模型训练。该数据集包含86亿张图像和1696亿个文本标记,远超现有数据集规模并保持高质量,具备广泛来源和灵活性,可轻松转换为纯文本或图像-文本对。经验证,该数据集质量优良,有望促进多模态模型研究,但同时也面临存储管理、数据偏见及隐私保护等挑战。
153 60
|
30天前
|
机器学习/深度学习 弹性计算 人工智能
大模型进阶微调篇(三):微调GPT2大模型实战
本文详细介绍了如何在普通个人电脑上微调GPT2大模型,包括环境配置、代码实现和技术要点。通过合理设置训练参数和优化代码,即使在无独显的设备上也能完成微调,耗时约14小时。文章还涵盖了GPT-2的简介、数据集处理、自定义进度条回调等内容,适合初学者参考。
204 6
|
1月前
|
机器学习/深度学习 测试技术
ACL杰出论文奖:GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
【10月更文挑战第6天】约翰斯·霍普金斯大学等机构提出了一项荣获ACL杰出论文奖的研究,旨在解决大模型在心智理论(ToM)上的不足。他们发布了首个MMToM-QA多模态ToM测试集,并提出BIP-ALM方法,从多模态数据中提取统一表示,结合语言模型进行贝叶斯逆规划,显著提升了模型的ToM能力。这一成果为机器与人类自然交互提供了新思路,尽管仍面临一些局限性和技术挑战。论文详情见:https://arxiv.org/abs/2401.08743。
48 6
|
1月前
|
人工智能 编解码 文字识别
阿里国际AI开源Ovis1.6,多项得分超GPT-4o-mini!
阿里国际AI团队提出了一种名为Ovis (Open VISion)的新型多模态大模型的架构。
|
2月前
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
2月前
|
数据采集 自然语言处理 监控
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
正是通过微调大模型使得GPT3成为了可以聊天发布指令的ChatGPT。聊天大模型在通用大模型的基础上加一层微调就实现人人能用的大模型,使得通用大模型的能力被更多人使用和了解。
58 4
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
|
1月前
|
开发工具 git
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
LLM-03 大模型 15分钟 FineTuning 微调 GPT2 模型 finetuning GPT微调实战 仅需6GB显存 单卡微调 数据 10MB数据集微调
59 0
|
2月前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
2月前
|
测试技术 人机交互
没有等来OpenAI开源GPT-4o,等来了开源版VITA
【9月更文挑战第9天】近日,论文《Towards Open-Source Interactive Omni Multimodal LLM》介绍了VITA,一种基于Mixtral 8×7B的新型开源多模态大语言模型,能处理视频、图像、文本和音频等多模态数据,并提供先进的人机交互体验,填补了开源模型在多模态能力上的空白。经多任务学习及指令微调,VITA在多个基准测试中表现出色,但仍存在基础能力和嘈杂音频处理等方面的局限。更多详情见论文:https://arxiv.org/pdf/2408.05211
49 3

热门文章

最新文章

下一篇
无影云桌面