Baichuan 3 通用能力评测国内第一,知识百科能力超越GPT-4-Turbo

简介: SuperCLUE发布的《中文大模型基准测评2024年4月报告》显示,Baichuan 3在国内大模型中排名第一,总分73.32,超越文心一言、通义千问等。SuperCLUE是一个综合测评基准,评估大模型在多维度的性能。Baichuan 3在知识百科和逻辑推理上表现出色,分别排名第一和国内领先。此外,它在计算、代码和工具使用方面也名列前茅,适合应用于数学推理、数据分析、智能客服等领域,且能在教育、医疗、金融等行业场景中落地。

4月30日,国内权威大模型评测机构SuperCLUE发布了《中文大模型基准测评2024年度4月报告》,报告选取国内外具有代表性的32个大模型4月份的版本,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告显示,Baichuan 3在国内大模型中排名第一,以总分73.32的优异成绩超越文心一言4.0、通义千问2.1、GLM-4、Moonshot等大模型。

640.png

SuperCLUE是国内权威的通用大模型综合性测评基准,其前身是第三方中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)。致力于科学、客观、中立评测的CLUE自2019年成立起,陆续推出了CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。在CLUE的基础上,SuperCLUE依托多年测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性大模型测评基准。

不同于传统测评通过选择题形式的测评,SuperCLUE纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,模拟大模型应用场景,真实有效的考察模型生成能力。同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果,对大模型的上下文、记忆、对话能力全方位评测。

为更真实反映大模型通用能力,SuperCLUE本次测评由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等,题目为多轮开放式简答题。评测集共2194题。

测试结果显示,Baichuan3的文科、理科能力均衡。在知识百科能力上Baichuan 3以82分的成绩超越了GPT-4-Turbo,在所有32个参与评测的国内外大模型中排名第一。而在代表了大模型智力的“逻辑推理”能力上以68.60的成绩超越Claude3-Opus,也力压一众国内大模型拔得头筹。此外,在计算、代码、工具使用能力上Baichuan 3表现同样不俗,均排名国内前三。

640-1.png

在评测国内外模型通用能力和专项能力的基础上,SuperCLUE还对国内模型发展现状及竞争格局进行了分析和研判。SuperCLUE认为,Baichuan 3可应用的场景相对广泛,尤其在专业技能类的任务上表现优异,重点推荐数学推理、数据分析、信息处理、智能客服/语音助手以及任务拆解规划等场景。另外,Baichuan 3还可以在相对复杂的行业场景中落地,可应用于教育、医疗、金融等垂直行业。

相关文章
|
3月前
|
人工智能 测试技术
ACL 2024:对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
【8月更文挑战第6天】在ACL 2024会议上,研究人员提出GSM-Plus对抗性基准,旨在评估大型语言模型(LLMs)如GPT-3.5-Turbo在数学推理上的鲁棒性。通过对25个模型和4种提示技术的测试,结果显示模型们虽能在标准GSM8K数据集上取得好成绩,但在遇到问题变异时表现欠佳,提示技术提升作用有限,揭示了LLMs在数学理解深度上的局限。论文详述了这一发现及其对未来研究的意义。
62 2
|
6月前
|
机器学习/深度学习 数据采集 存储
百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4
百川智能发布大语言模型Baichuan 3,参数超千亿,表现出色。在CMMLU、GAOKAO等中文任务评测中超越GPT-4,且在MATH、HumanEval等专项评测中证明其自然语言处理和代码生成实力。Baichuan 3在医疗领域,如MCMLE、MedExam等评测中成绩突出,成为中文医疗任务的最佳模型。此外,它通过“迭代式强化学习”提升语义理解和生成能力,诗词创作能力远超其他模型。Baichuan 3的推出标志着百川智能在大模型技术上的新里程碑。
152 0
|
6月前
|
机器学习/深度学习 存储
百川智能发布超千亿大模型Baichuan3,中文评测超GPT-4
1月29日午间消息,百川智能宣布发布超千亿参数的大语言模型Baichuan 3。在 CMMLU、GAOKAO 和 AGI-Eval 等评测中,Baichuan 3 号称在中文任务上超越了 GPT-4。
|
4月前
|
存储 SQL 数据库
Python 金融编程第二版(GPT 重译)(四)(4)
Python 金融编程第二版(GPT 重译)(四)
49 3
|
4月前
|
存储 NoSQL 索引
Python 金融编程第二版(GPT 重译)(一)(4)
Python 金融编程第二版(GPT 重译)(一)
61 2
|
4月前
|
索引 Python
Python 金融编程第二版(GPT 重译)(二)(4)
Python 金融编程第二版(GPT 重译)(二)
31 0
|
4月前
|
存储 机器学习/深度学习 关系型数据库
Python 金融编程第二版(GPT 重译)(四)(5)
Python 金融编程第二版(GPT 重译)(四)
35 2
|
4月前
|
存储 SQL 数据可视化
Python 金融编程第二版(GPT 重译)(四)(1)
Python 金融编程第二版(GPT 重译)(四)
46 2
|
4月前
|
数据可视化 Python
Python 金融编程第二版(GPT 重译)(三)(4)
Python 金融编程第二版(GPT 重译)(三)
27 2
|
4月前
|
存储 算法 数据可视化
Python 金融编程第二版(GPT 重译)(一)(1)
Python 金融编程第二版(GPT 重译)(一)
88 1

热门文章

最新文章