中文大模型评测

简介: 中文大模型评测

大模型测评

  • 写作创作
  • 代码相关
  • 知识常识
  • 中文游戏
  • 人类价值观
  • NLP专业领域

写作创作

评审模板生成

image.png

评价:右侧理解了对话内容,左侧没有。

论文修改

image.png评语:都很差

翻译

image.png

评语:都很差

image.png

评语:左侧稍好



知识常识

人物百科

image.png

评语:乐

历史知识

image.png

评语:右侧的历史从哪里来的,我比较好奇

物理,化学,生物常识

image.png

评语:答案选择C

image.png

评语:答案选择BC,勉强右边对,左侧选择E钝角是吧

生活常识

image.png

评语:这段评价语句算是非常简单的评判标准。都很差


代码相关

latex

latex 怎么能够对三张图像插入到文本当中,并且这三张图排成一排,共享一个题注。

image.png

评语:都不能够实现并行命令

python

image.png

评语: 差太多

太差了,不想继续测试了


目录
相关文章
|
9月前
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
301 0
|
9月前
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
|
9月前
|
搜索推荐 安全 测试技术
中文大模型测评
中文大模型测评
|
9月前
|
机器人 测试技术 开发者
ModelScope中文模型测评
Modelscope可以帮助研究人员和开发者对模型进行性能分析等。本次我体验了知识常识,人类价值观和写作创作相关这三个对话类型场景,下面是我对测试模型的分析与看法
280 1
 ModelScope中文模型测评
|
9月前
中文竞技场大模型体验评测分析
中文竞技场大模型体验
398 0
中文竞技场大模型体验评测分析
|
9月前
|
自然语言处理
|
8月前
|
机器学习/深度学习 自然语言处理 测试技术
中文大模型测评-我有话说
近年来,随着深度学习技术的快速发展,中文自然语言处理领域取得了显著的进展。中文大模型如GPT-3、BERT和T5等已经成为广泛应用于各种任务的核心工具。本文对中文大模型的性能测评进行了深入研究,探讨了多个关键方面,包括任务性能、语法和语义准确性、多样性、生成速度等。我们还考察了模型的数据效应、抗攻击性、用户满意度以及对隐私和安全性的关注。最后,我们讨论了中文大模型的可维护性、领域适用性以及模型大小和资源消耗等问题,并展望了未来的研究方向。
386 0
|
8月前
|
人工智能
中文竞技场大模型评测
中文竞技场大模型评测
1106 0
中文竞技场大模型评测
|
8月前
|
Java Python
中文竞技场评测
中文竞技场大模型评测
|
8月前
|
机器学习/深度学习 自然语言处理 安全
中文竞技场(MS)大模型评测
分别从写作创作、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大领域测评不同模型的效果。
97003 2
中文竞技场(MS)大模型评测