中文竞技场大模型评测

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 中文竞技场大模型评测

image.png

进入中文竞技场大模型页面,有3种模式可以选择,首先选择双模型匿名对话模式:

首先我选的是代码类型,我提了3个问题,前两个问题是我自己出的算法题,后面一题是换一换出来的算法题

第一题:最小堆算法怎么实现,请用java编写,并且列举多个实现思路

image.png

模型A直接报错,不知道啥原因,模型B是给出了自己的解释,但是不知道是不是我的问题表达有问题还是怎么样,模型B也没有用java来实现,只是大概解释了下最小堆算法的过程,没有代码实现;

第二题:快速排序怎么实现,请用java实现

image.png

image.png

模型A还是报错,模型B给出了上一个问题最小堆的回答,而且回答也不全,代码只写了一半。


第三个问题:请使用任意编程语言编写一个程序,计算并输出斐波那契数列的前n项(n是任意大于0的整数),并确保程序具有高效性和准确性。

image.png

模型A还是报错,模型B还是在回答最小堆,神奇。

而且普遍这3个问题回答的速度很慢,体验不是很好。


第二我选了知识常识类型

第一题是通过换一换生成的:请列举3个你认为的生活常识问题,如何国庆节能够有效地避免人群聚集,以降低传染风险?

image.png

第一个问题,A回答的更好,B在回答为什么了,而且没有回答到问题上面去,这次回答速度都很快


第二个问题(自己写的):尿酸高是什么原因,怎么治疗或者预防尿酸高

image.png

从这个回答来看,模型B回答的更好,列举了原因和方法,回答的更详细,让人更满意。


第三个问题(自己写的):台风是怎么形成,能够通过画图简要说明吗

image.png

这个问题我觉得B回答的好,虽然两边都没有画图说明,但是B的说明更加清晰容易理解。


第三我选了写作创作相关

第一个提问是换一换

image.png

感觉润色效果都不明显。


第二个提问是:设计一个主题为阿里云小宝宣传的方案

image.png


感觉两边都没有出具体的方案,A是往如何出方案方向去考虑,B是阿里云的优势,都没达到自己的需求。


第三个提问是:帮忙写一篇关于最近华为鸿蒙以后不兼容安卓的文章

image.png

第一次A模型又回答了上一个的问题,设计云小宝的宣传方案,B方案还是表达了一些观点。

image.png

我又清空内容重新生成了一次,A模型比较简约,而且主题也不太对,B模型写出来的可以当成一篇简单的文章,还是不错。


后面又试了下模型自动对话,选择超市这个场景,但是文本内容不能自己编写,只能使用换一换

image.png

感觉A模型能够分析对话的意图,并且根据内容来回答目标想要的内容,感觉挺有意思。

又选了一个学校的场景

image.png

这次的对话感觉没那么自然,很容易就能察觉出是机器人在回答,ai智能程度不够。

又选了理发店的场景

image.png

感觉内容太少了,几句话就结束了这个场景,正常来讲,理发店工作人员会扯一些话题来聊,增进距离。


以上是我体验的一些内容,个人感觉来看,觉得模型之间差异还是很大,回复内容的有效程度估计还是有待提高,也有可能我提问方式不对,还需要两边多磨合磨合,不过对ai的进步还是很期待的。


相关文章
|
2月前
|
人工智能 文字识别 安全
大模型能力评测方式很多?
AI评测非单一分数比拼,而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法,共同构成模型能力的“CT扫描”系统。
192 0
|
5月前
|
人工智能 自然语言处理 JavaScript
通义灵码2.5实战评测:Vue.js贪吃蛇游戏一键生成
通义灵码基于自然语言需求,快速生成完整Vue组件。例如,用Vue 2和JavaScript实现贪吃蛇游戏:包含键盘控制、得分系统、游戏结束判定与Canvas动态渲染。AI生成的代码符合规范,支持响应式数据与事件监听,还能进阶优化(如增加启停按钮、速度随分数提升)。传统需1小时的工作量,使用通义灵码仅10分钟完成,大幅提升开发效率。操作简单:安装插件、输入需求、运行项目即可实现功能。
255 4
 通义灵码2.5实战评测:Vue.js贪吃蛇游戏一键生成
|
5月前
|
人工智能 自然语言处理 IDE
技术赋能新维度,灵码进化新突破:通义灵码2.5新功能尝鲜及深度评测
通义灵码是阿里云推出的基于通义大模型的智能编程助手,作为首款全栈智能辅助的国产编码工具,它为开发者提供“第二大脑”,并重构团队协作效能。2.5版本新增智能体模式,支持Qwen3系列模型,具备自主决策、工程感知和记忆能力,集成3000+MCP工具。其优势包括多模式对话体验、上下文增强、全流程工具链支持及个性化记忆功能,但仍存在上下文管理、权限控制和语言支持等方面的改进空间。此次更新标志着AI辅助开发进入全链路智能化新纪元,成为开发者真正的“结对编程伙伴”。
1066 36
|
14天前
|
人工智能 数据可视化 前端开发
AI Ping:精准可靠的大模型服务性能评测平台
AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。
174 3
|
4月前
|
人工智能 IDE 搜索推荐
通义灵码2.5评测:从编程智能体到记忆感知的AI编码革命
通义灵码2.5版本更新带来了多项新功能,包括Lingma IDE的开箱即用体验、编程智能体模式实现端到端编码任务、MCP工具集成扩展AI助手能力以及Qwen3模型升级大幅提升代码生成准确性和效率。此外,新增长期记忆与上下文感知功能,使开发更个性化和高效。尽管存在一些局限性,如复杂业务逻辑仍需人工干预,但整体显著提升了开发效率。官方还提供了高质量视频课程助力用户学习。
788 10
|
4月前
|
数据采集 人工智能 安全
揭秘大模型评测:如何用“说明书”式方法实现业务场景下的精准评估
本文旨在系统性地介绍如何在实际业务场景中开展大模型评测工作,帮助读者理解并掌握从需求分析、评测集设计与生成、评测维度设定、评测任务执行到评测报告输出的完整流程。
|
5月前
|
人工智能 Java API
通义灵码 2.5 版深度评测:智能编程的边界在哪里?
通义灵码 2.5 版深度评测:智能编程的边界在哪里?
171 2
|
5月前
|
传感器 人工智能 API
通义灵码2.5深度评测:编程智能体与MCP工具的革新体验
通义灵码2.5通过“智能体+MCP”组合,重新定义了AI编码助手的边界。其价值不仅在于代码生成效率,更在于通过工具链整合和环境感知,推动开发流程向“声明式编程”演进。对于开发者而言,它既是提升效率的利器,也是探索AI辅助开发边界的实验场。
381 8
|
6月前
|
算法 物联网 Swift
Qwen3 X ModelScope工具链: 飞速训练 + 全面评测
Qwen于近日发布了Qwen3系列模型,包含了各个不同规格的Dense模型和MoE模型。开源版本中,Dense模型基本沿用了之前的模型结构,差别之处在于对于Q和K两个tensor增加了RMSNorm;MoE模型去掉了公共Expert,其他结构基本与前一致。在模型大小上,涵盖了从0.6B到32B(Dense)和235B(MoE)不同的尺寸。
731 15
|
4月前
|
API 定位技术 决策智能
通义灵码产品评测报告:智能体赋能编程新时代
本次评测深度体验阿里云通义灵码(Qwen3版本),聚焦其智能体架构、MCP工具集成与记忆能力升级。通过构建天气查询与出行建议微服务,验证其从零搭建项目的能力。评测显示,通义灵码可自动感知环境、调用工具、生成代码,支持3000+ MCP服务一键集成,并具备项目级记忆和风格适应功能。最终实现高效开发闭环,大幅提升生产力。总结其核心优势为智能体自主决策、MCP生态扩展及记忆进化,但仍需优化多智能体协作与兼容性检查等功能。通义灵码重新定义编码助手边界,是开发者“超脑级”搭档。
224 0

热门文章

最新文章