文档备案控制台

开发者社区人工智能文章正文

中文竞技场大模型测评后续之模型自动对话

2023-09-19 787

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 中文竞技场大模型测评延续中，模型自动对话场景测评

写在前言

关于中文竞技场和大模型的的相关介绍，可以参考主测评文章（中文竞技场大模型测评-龙虎榜），在这里就不重复介绍了，本次主要介绍模型自动对话场景，目标是评估模型的回应能力、信息准确性、流畅度以及多领域适应性。

我们将在不同的对话场景下，从苹果专卖店到医院，从火车站台到餐馆，测试这些模型的实际表现。通过多轮自动对话，我们将观察模型之间的互动，以期为NLP领域的发展提供有益的见解和反馈。

单模型对话测评，→点我直达

双模型匿名对话，→点我直达

由于模型自动对话目前无法支持编辑，所以我们只能根据版本提供的对话，进行测评。

模型表现

通过多次模型自动对话，我们观察到模型A和模型B在不同对话类型下的回答。模型的回应能力、信息准确性和流畅度都是我们关注的重点。不同对话类型可能需要不同的语境理解和信息处理，因此，我们期待看到模型在各个领域都能有出色的表现。

苹果专卖店

模型A表现更好，模型B的回答重复了

驾校

模型A作为被服务方，却问模型B是否需要服务，这个逻辑是有问题的。

码头

在这段对话中，模型A表现更好，模型B没有直接回应对话。

火车站台

可能这段对话比较简单，模型A和模型B表现都很好。

跳蚤市场

模型B没有理解自己的角色，没有正确回答问题。

旅游团

模型A和模型B完全理解自己的角色，有问有答，表现不错。

餐馆

模型A和模型B完全理解自己的角色，有问有答，表现不错。

游轮

模型B是作为被服务方，反而问模型A是否需要服务。

理发店

模型A没有提供回答结果。

灾难现场

模型A作为消防员角色，并给出满意回答，模型B很好的理解了自己角色并提出问题。

保险公司

模型B并没有理解自己的角色，一直在重复模型A的回答。

法庭

模型A和模型B都没有理解自己的角色，也没有提出相关问题。

学校

飞机内部

超市

书店

医院

模型A和模型B只有一问一答，没有提供更多的互动。

菜市场

博物馆

模型B的提问很有针对性。

教培中心

模型A提供的答案很全面和准确。

结尾

通过对中文竞技场-模型自动对话的多轮测评，我们深入了解了不同大模型在对话和互动中的表现。在各种对话类型的挑战下，模型A和模型B都展现出了令人印象深刻的能力。

我们观察到模型A和模型B在不同领域的回应能力和信息处理上都表现出色。无论是解答消费者的购物问题，还是协助病人预约医生，这些模型都能提供有用的信息和指导。模型之间的互动也呈现出多样性和创造力，这为未来的自然语言处理应用带来了无限可能性。

但是，我们也认识到模型的发展仍在不断进行，存在改进的空间。在一些复杂的对话情境下，仍然存在挑战，需要更精确的理解和推理能力。这将是未来研究和开发的方向之一。

总的来说，中文竞技场-模型自动对话的实验为我们提供了深入了解NLP模型互动性的机会。AI技术的不断发展将继续推动对话系统的进步，为更多领域提供更好的智能支持。

文章标签：

自然语言处理

人工智能

凌云Cloud

目录

相关文章

探索云世界

|

10月前

|

人工智能自然语言处理 IDE

模型微调不再被代码难住！PAI和Qwen3-Coder加速AI开发新体验

通义千问 AI 编程大模型 Qwen3-Coder 正式开源，阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型，并可在交互式建模环境中使用 Qwen3-Coder 模型。

探索云世界

1442 109 110

modelscope

|

10月前

|

分布式计算测试技术 Spark

科大讯飞开源星火化学大模型、文生音效模型

近期，科大讯飞在魔搭社区（ModelScope）和Gitcode上开源两款模型：讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly，助力前沿化学技术研究，以及声音生成技术和应用的探索。

modelscope

799 2 2

探索云世界

|

11月前

|

文字识别算法语音技术

基于模型蒸馏的大模型文案生成最佳实践

本文介绍了基于模型蒸馏技术优化大语言模型在文案生成中的应用。针对大模型资源消耗高、部署困难的问题，采用EasyDistill算法框架与PAI产品，通过SFT和DPO算法将知识从大型教师模型迁移至轻量级学生模型，在保证生成质量的同时显著降低计算成本。内容涵盖教师模型部署、训练数据构建及学生模型蒸馏优化全过程，助力企业在资源受限场景下实现高效文案生成，提升用户体验与业务增长。

探索云世界

1046 23 24

探索云世界

|

11月前

|

存储人工智能自然语言处理

告别文字乱码！全新文生图模型Qwen-Image来咯

通义千问团队开源了Qwen-Image，一个20B参数的MMDiT模型，具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局，适用于多场景图像生成与编辑任务，已在魔搭社区与Hugging Face开源。

探索云世界

1862 2 2

代码bug生产队

|

9月前

|

人工智能搜索推荐程序员

当AI学会“跨界思考”：多模态模型如何重塑人工智能

当AI学会“跨界思考”：多模态模型如何重塑人工智能

代码bug生产队

1258 120 120

汀丶人工智能

|

10月前

|

机器学习/深度学习人工智能自然语言处理

AI Compass前沿速览：Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型

AI Compass前沿速览：Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型

汀丶人工智能

1222 13 13

AI Compass前沿速览：Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型

modelscope

|

10月前

|

自然语言处理机器人图形学

腾讯混元图像3.0正式开源发布！80B，首个工业级原生多模态生图模型

腾讯混元图像3.0，真的来了——开源，免费开放使用。正式介绍一下：混元图像3.0（HunyuanImage 3.0），是首个工业级原生多模态生图模型，参数规模80B，也是目前测评效果最好、参数量最大的开源生图模型，效果可对…

modelscope

1965 2 3

腾讯混元图像3.0正式开源发布！80B，首个工业级原生多模态生图模型

热门文章

最新文章

中文竞技场（MS）大模型评测

科普神文，一次性讲透AI大模型的核心概念

本地部署开源大模型的完整教程：LangChain + Streamlit+ Llama

DeepSeek加持的通义灵码2.0 AI程序员实战案例：助力嵌入式开发中的算法生成革新

通义灵码都能帮你写代码了～

深思考人工智能 CEO 杨志明：多模态语义理解，是机器能否实现智能的关键 | 2019 WISE 超级进化者大会

PolarDB开源数据库进阶课15 集成DeepSeek等大模型

通义灵码进阶指南：解锁智能编程的隐藏技能

面向中文大模型价值观的评估与对齐研究：“给AI的100瓶毒药”并解毒，守护AI纯净之心

蚂蚁金服“生物特征识别多模态融合”IEEE标准成功立项

大模型强化学习的熵控制：CE-GPPO、EPO与AsyPPO技术方案对比详解

当AI开始“思考”：为什么大模型的尽头是推理？

大模型分布式推理：张量并行与流水线并行技术

构建AI智能体：一、初识AI大模型与API调用

【大模型微调】一文掌握5种大模型微调的方法

从“看见”到“预见”：合合信息“多模态文本智能技术”如何引爆AI下一场革命。

AI Agent的未来之争：任务规划，该由人主导还是AI自主？——阿里云RDS AI助手的最佳实践

C3仓库AI代码门禁通用实践：基于Qwen3-Coder+RAG的代码评审

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

AI Agent越用越笨？阿里云AnalyticDB「AI上下文工程」一招破解！

相关课程

更多

阿里云大模型能力培训（永耀）

国家电网大模型ACP培训

大模型 Clouder认证：基于PAI ArtLab的AIGC设计基础

阿里云大模型工程师ACA认证课程

阿里云百炼大模型产品实践

相关电子书

更多

OpenSearch向量检索和大模型方案

通义万相：视觉生成大模型的进化与应用

达摩院通义视觉生成大模型

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！