大模型测评
- 写作创作
- 代码相关
- 知识常识
- 中文游戏
- 人类价值观
- NLP专业领域
写作创作
评审模板生成
评价:右侧理解了对话内容,左侧没有。
论文修改
评语:都很差
翻译
评语:都很差
评语:左侧稍好
知识常识
人物百科
评语:乐
历史知识
评语:右侧的历史从哪里来的,我比较好奇
物理,化学,生物常识
评语:答案选择C
评语:答案选择BC,勉强右边对,左侧选择E钝角是吧
生活常识
评语:这段评价语句算是非常简单的评判标准。都很差
代码相关
latex
latex 怎么能够对三张图像插入到文本当中,并且这三张图排成一排,共享一个题注。
评语:都不能够实现并行命令
python
评语: 差太多
太差了,不想继续测试了