备案控制台

开发者社区人工智能文章正文

中文竞技场大模型测评后续之模型自动对话

2023-09-19 597

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 中文竞技场大模型测评延续中，模型自动对话场景测评

写在前言

关于中文竞技场和大模型的的相关介绍，可以参考主测评文章（中文竞技场大模型测评-龙虎榜），在这里就不重复介绍了，本次主要介绍模型自动对话场景，目标是评估模型的回应能力、信息准确性、流畅度以及多领域适应性。

我们将在不同的对话场景下，从苹果专卖店到医院，从火车站台到餐馆，测试这些模型的实际表现。通过多轮自动对话，我们将观察模型之间的互动，以期为NLP领域的发展提供有益的见解和反馈。

单模型对话测评，→点我直达

双模型匿名对话，→点我直达

由于模型自动对话目前无法支持编辑，所以我们只能根据版本提供的对话，进行测评。

模型表现

通过多次模型自动对话，我们观察到模型A和模型B在不同对话类型下的回答。模型的回应能力、信息准确性和流畅度都是我们关注的重点。不同对话类型可能需要不同的语境理解和信息处理，因此，我们期待看到模型在各个领域都能有出色的表现。

苹果专卖店

模型A表现更好，模型B的回答重复了

驾校

模型A作为被服务方，却问模型B是否需要服务，这个逻辑是有问题的。

码头

在这段对话中，模型A表现更好，模型B没有直接回应对话。

火车站台

可能这段对话比较简单，模型A和模型B表现都很好。

跳蚤市场

模型B没有理解自己的角色，没有正确回答问题。

旅游团

模型A和模型B完全理解自己的角色，有问有答，表现不错。

餐馆

模型A和模型B完全理解自己的角色，有问有答，表现不错。

游轮

模型B是作为被服务方，反而问模型A是否需要服务。

理发店

模型A没有提供回答结果。

灾难现场

模型A作为消防员角色，并给出满意回答，模型B很好的理解了自己角色并提出问题。

保险公司

模型B并没有理解自己的角色，一直在重复模型A的回答。

法庭

模型A和模型B都没有理解自己的角色，也没有提出相关问题。

学校

飞机内部

超市

书店

医院

模型A和模型B只有一问一答，没有提供更多的互动。

菜市场

博物馆

模型B的提问很有针对性。

教培中心

模型A提供的答案很全面和准确。

结尾

通过对中文竞技场-模型自动对话的多轮测评，我们深入了解了不同大模型在对话和互动中的表现。在各种对话类型的挑战下，模型A和模型B都展现出了令人印象深刻的能力。

我们观察到模型A和模型B在不同领域的回应能力和信息处理上都表现出色。无论是解答消费者的购物问题，还是协助病人预约医生，这些模型都能提供有用的信息和指导。模型之间的互动也呈现出多样性和创造力，这为未来的自然语言处理应用带来了无限可能性。

但是，我们也认识到模型的发展仍在不断进行，存在改进的空间。在一些复杂的对话情境下，仍然存在挑战，需要更精确的理解和推理能力。这将是未来研究和开发的方向之一。

总的来说，中文竞技场-模型自动对话的实验为我们提供了深入了解NLP模型互动性的机会。AI技术的不断发展将继续推动对话系统的进步，为更多领域提供更好的智能支持。

文章标签：

自然语言处理

人工智能

凌云Cloud

目录

相关文章

叶秋学长

|

人工智能测试技术 Java

【中文竞技场】大模型深度体验与测评

简介：本次，我深入体验了中文竞技场中的大语言模型，尝试了写作创作、代码编写和中文游戏三个领域，以下是我详细的评测报告。

叶秋学长

370 10 10

【中文竞技场】大模型深度体验与测评

蚝油菜花

|

2月前

|

机器学习/深度学习人工智能测试技术

PsycoLLM：开源的中文心理大模型，免费 AI 心理医生，支持心理健康评估与多轮对话

PsycoLLM 是合肥工业大学推出的中文心理大语言模型，基于高质量心理数据集训练，支持心理健康评估、多轮对话和情绪识别，为心理健康领域提供技术支持。

蚝油菜花

1098 51 52

PsycoLLM：开源的中文心理大模型，免费 AI 心理医生，支持心理健康评估与多轮对话

蚝油菜花

|

3月前

|

机器学习/深度学习人工智能文字识别

Kimi 上线视觉思考模型，K1 系列强化学习模型正式开放，无需借助外部 OCR 处理图像与文本进行思考并回答

k1视觉思考模型是kimi推出的k1系列强化学习AI模型，具备端到端图像理解和思维链技术，能够在数学、物理、化学等领域表现优异。本文详细介绍了k1视觉思考模型的功能、技术原理、使用方法及其在多个应用场景中的表现。

蚝油菜花

294 68 69

Kimi 上线视觉思考模型，K1 系列强化学习模型正式开放，无需借助外部 OCR 处理图像与文本进行思考并回答

草莓er

|

16天前

|

SQL 人工智能 Java

放弃单一模型！通义灵码多模型混搭调参实战 - 实测Qwen2.5代码通过率提升27%

本报告展示了模型性能压测结果，使用Python脚本对多个AI模型（如DeepSeek-R1、Qwen2.5-72B、DeepSeek-V3）进行测试。任务包括代码补全、SQL生成和测试用例生成，记录响应时间及Tokens消耗，并统计代码通过率。结果显示，各模型在不同任务上的表现有所差异，Qwen2.5-72B在代码补全任务中表现出色，平均响应时间为3.8秒，代码通过率达95%。

草莓er

151 4 5

蚝油菜花

|

23天前

|

机器学习/深度学习存储人工智能

Satori：快速体验MIT与哈佛推出7B参数的推理专家模型，具备自回归搜索和自我纠错能力

Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型，专注于提升推理能力，具备强大的自回归搜索和自我纠错功能。

蚝油菜花

43 5 5

穿过生命散发芬芳

|

4月前

|

弹性计算自然语言处理搜索推荐

活动实践 | 基于函数计算部署GPT-Sovits模型实现语音生成

通过阿里云函数计算部署GPT-Sovits模型，可快速实现个性化声音的文本转语音服务。仅需少量声音样本，即可生成高度仿真的语音。用户无需关注服务器维护与环境配置，享受按量付费及弹性伸缩的优势，轻松部署并体验高质量的语音合成服务。

穿过生命散发芬芳

107 6 6

hannahc001

|

7月前

|

数据采集人工智能监控

赌你一定想要！OpenDataLab首款大模型多模态标注平台Label-LLM正式开源

Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具，支持团队协作，让标注工作变得简单高效。它不仅涵盖丰富的任务类型，如回答采集、偏好收集和内容评估等，还支持多模态数据标注，包括图像、视频和音频。Label-LLM具备预标注载入功能，能大幅提升工作效率，并提供全方位的任务管理与可视化分析，确保标注质量。快来体验这款强大的标注平台吧！[部署文档](https://github.com/opendatalab/LabelLLM)

hannahc001

1403 0 0

赌你一定想要！OpenDataLab首款大模型多模态标注平台Label-LLM正式开源

小七天

|

算法安全测试技术

中文竞技场大模型体验报告

本次测评的主要目标是评估中文竞技场提供的大模型在写作创作相关、知识常识和代码相关方面的表现。我们进入“中文竞技场”体验了这些模型，并在以下方面进行了测试和评估。

小七天

258 30 30

楠竹11

|

10月前

|

机器学习/深度学习人工智能算法

仅靠开源数据复刻出LLaMA3指令学习效果，在线迭代RLHF全流程解决方案来了

【5月更文挑战第27天】在线迭代RLHF方案使用开源数据复现LLaMA3指令学习效果，提供了一种动态收集和更新模型的新方法，提升大型语言模型的性能。通过代理偏好模型模拟人类反馈，降低训练成本，促进技术民主化。虽然面临数据利用、探索与利用平衡等挑战，且需解决长尾分布数据处理问题，该方案已在多基准测试中展现优秀性能，为LLM训练提供高效途径。论文链接：https://arxiv.org/pdf/2405.07863

楠竹11

118 1 1

fw4jufwdlu26q

|

10月前

|

机器学习/深度学习人工智能自然语言处理

OpenAI 推出 GPT-4o，免费向所有人提供GPT-4级别的AI ，可以实时对音频、视觉和文本进行推理，附使用详细指南

GPT-4o不仅提供与GPT-4同等程度的模型能力，推理速度还更快，还能提供同时理解文本、图像、音频等内容的多模态能力，无论你是付费用户，还是免费用户，都能通过它体验GPT-4了

fw4jufwdlu26q

474 1 1

热门文章

最新文章

开源之夏 | 阿里开源近百任务上线，顶级导师&万元奖金等你

错误”ORA-12560: TNS: 协议适配器错误“解决方法

【微信小程序】一文带你了解数据绑定、事件绑定以及事件传参、数据同步

2020年阿里云ACE线下活动-杭州ACE阿里云视觉开放平台Workshop开发者沙龙圆满落幕

传统老三样品牌重新焕发新春，上海凤凰宣布与ofo战略合作

OfficeScan5.58升级到7.38

【实验】DOS基本命令

水晶按钮最终效果图

android4.4系统解决“ERRORcouldn't find native method”方法

《数据浪潮中的航向校准：DataWorks里AI应对概念漂移之策》

《鱼与熊掌兼得：DataWorks中AI驱动的数据脱敏与可用性平衡术》

《驯服PB级时序数据：DataWorks中AI的超凡技艺》

《数据治理破局：DataWorks中AI驱动流程的自修复之道》

《量子潮涌下，DataWorks中AI模型训练框架的变革征途》

理解API：应用程序之间的桥梁

Claude 3.7登顶webdev榜首，国内怎么使用Claude 3.7

从Postman到Apipost：我的动态参数测试实战踩坑记

OmniAlign-V：20万高质量多模态数据集开源，让AI模型真正对齐人类偏好

Proxy Lite：仅3B参数的开源视觉模型！快速实现网页自动化，支持在消费级GPU上运行

相关课程

更多

基于通义灵码实现高效 AI 编码

创空间应用训练个性化模型

AI情绪鼓励师模型微调实操教学

云原生AI套件：五分钟微调宝可梦风格StableDiffusion

个性化语音合成模型微调

阿里小蜜中的机器阅读技术

相关电子书

更多

翻译是一种分享为的是让我们更好的与世界沟通

七牛AI训练业务的K8S实践

魔搭中文开源模型社区 · 模型即服务

相关实验场景

更多

基于百炼构建可以划重点、规划学习计划的学习助手

一键生成毛茸萌宠形象，基于函数计算极速部署ComfyUI生图系统

以客服场景意图分类为例写Prompt

如何快速体验调用通义大模型

使用PAI+LLaMA Factory微调Qwen2-VL模型，搭建文旅领域知识问答机器人

流水线运行出错排查难？AI帮你智能排查

下一篇

通义万相：视觉生成大模型再进化