中文大模型评测

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: 中文大模型评测

大模型测评

  • 写作创作
  • 代码相关
  • 知识常识
  • 中文游戏
  • 人类价值观
  • NLP专业领域

写作创作

评审模板生成

image.png

评价:右侧理解了对话内容,左侧没有。

论文修改

image.png评语:都很差

翻译

image.png

评语:都很差

image.png

评语:左侧稍好



知识常识

人物百科

image.png

评语:乐

历史知识

image.png

评语:右侧的历史从哪里来的,我比较好奇

物理,化学,生物常识

image.png

评语:答案选择C

image.png

评语:答案选择BC,勉强右边对,左侧选择E钝角是吧

生活常识

image.png

评语:这段评价语句算是非常简单的评判标准。都很差


代码相关

latex

latex 怎么能够对三张图像插入到文本当中,并且这三张图排成一排,共享一个题注。

image.png

评语:都不能够实现并行命令

python

image.png

评语: 差太多

太差了,不想继续测试了


目录
相关文章
|
搜索推荐 安全 测试技术
中文大模型测评
中文大模型测评
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
|
机器人 测试技术 开发者
ModelScope中文模型测评
Modelscope可以帮助研究人员和开发者对模型进行性能分析等。本次我体验了知识常识,人类价值观和写作创作相关这三个对话类型场景,下面是我对测试模型的分析与看法
316 1
 ModelScope中文模型测评
|
自然语言处理
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
347 0
|
机器学习/深度学习 自然语言处理 安全
中文竞技场(MS)大模型评测
分别从写作创作、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大领域测评不同模型的效果。
97080 2
中文竞技场(MS)大模型评测
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测
|
12月前
|
人工智能
中文竞技场大模型评测
中文竞技场大模型评测
1126 0
中文竞技场大模型评测
|
自然语言处理 程序员
中文竞技场大语言模型评测
本文分别体验了知识常识领域、人类价值观领域、NLP专业领域这三个方向,对两个模型进行评测。
274 0

热门文章

最新文章