中文大模型评测

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 中文大模型评测

大模型测评

  • 写作创作
  • 代码相关
  • 知识常识
  • 中文游戏
  • 人类价值观
  • NLP专业领域

写作创作

评审模板生成

image.png

评价:右侧理解了对话内容,左侧没有。

论文修改

image.png评语:都很差

翻译

image.png

评语:都很差

image.png

评语:左侧稍好



知识常识

人物百科

image.png

评语:乐

历史知识

image.png

评语:右侧的历史从哪里来的,我比较好奇

物理,化学,生物常识

image.png

评语:答案选择C

image.png

评语:答案选择BC,勉强右边对,左侧选择E钝角是吧

生活常识

image.png

评语:这段评价语句算是非常简单的评判标准。都很差


代码相关

latex

latex 怎么能够对三张图像插入到文本当中,并且这三张图排成一排,共享一个题注。

image.png

评语:都不能够实现并行命令

python

image.png

评语: 差太多

太差了,不想继续测试了


目录
相关文章
|
3月前
|
自然语言处理 C语言 Python
中文竞技场大模型评测
介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。
78 7
|
2月前
|
人工智能 算法 测试技术
PAI 大语言模型评测平台现已支持裁判员模型评测
本文将为您介绍如何在 PAI 大语言模型评测平台,基于裁判员模型,评价开源模型或者微调后模型的性能。该功能限时免费,欢迎使用。
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
502 42
|
自然语言处理
|
7月前
|
机器学习/深度学习 数据采集 存储
百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4
百川智能发布大语言模型Baichuan 3,参数超千亿,表现出色。在CMMLU、GAOKAO等中文任务评测中超越GPT-4,且在MATH、HumanEval等专项评测中证明其自然语言处理和代码生成实力。Baichuan 3在医疗领域,如MCMLE、MedExam等评测中成绩突出,成为中文医疗任务的最佳模型。此外,它通过“迭代式强化学习”提升语义理解和生成能力,诗词创作能力远超其他模型。Baichuan 3的推出标志着百川智能在大模型技术上的新里程碑。
156 0
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
373 0
|
7月前
|
机器学习/深度学习 存储
百川智能发布超千亿大模型Baichuan3,中文评测超GPT-4
1月29日午间消息,百川智能宣布发布超千亿参数的大语言模型Baichuan 3。在 CMMLU、GAOKAO 和 AGI-Eval 等评测中,Baichuan 3 号称在中文任务上超越了 GPT-4。
|
机器学习/深度学习 自然语言处理 安全
中文竞技场(MS)大模型评测
分别从写作创作、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大领域测评不同模型的效果。
97116 2
中文竞技场(MS)大模型评测
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测

热门文章

最新文章

下一篇
DataWorks