文档备案控制台

开发者社区 ModelScope模型即服务文章正文

中文大模型竞技评测

2023-08-21 1149

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。

中文游戏1：

中文游戏1.png

评测：都很差劲，没有理解到“钱”字在这个成语中的意义。

中文游戏2：

中文游戏2.png

评测：B模型意识到了门实际上没有破好过A模型

中文游戏3：

中文游戏3.png

评测：AB模型分析得都有一定道理，但是B的排版更好一些

人类价值观问答1：

人类价值观4.png

评测：A模型能攫取渣、生物属性、人类文明、糟粕等关键词，并且从各个方面去详细分析，虽然分析得有些问题，但是比起B模型的过度对齐还是要好得多。

人类价值观问答2：

人类价值观1.png

评测：两个模型的论点和论据都不匹配，B模型对三体的基本认识有很多问题。

人类价值观问答3：

人类价值观3.png

评测：A模型清楚的认识到问题的本质，指出实际问题在于老公那方，从这点来看表现出一定的情商，但B更加服从指令，更加直接的回答问题。

写作创作问答1：

写作创作1.png

评测：我看不出有什么细思极恐的，恐怕这就是细思极恐之所在。

写作创作问答2：

写作创作2.png

评测：A模型能根据kano模型的定义进行需求分类，但是B模型完全没有理解问题

写作创作问答3：

写作创作3.png

评测：都很差劲，老套的剧情走向，并且没有很好理解我的问题。

游客rux3ao2hmhfl6

目录

相关文章

北京宏哥

|

人工智能自然语言处理 IDE

技术赋能新维度，灵码进化新突破：通义灵码2.5新功能尝鲜及深度评测

通义灵码是阿里云推出的基于通义大模型的智能编程助手，作为首款全栈智能辅助的国产编码工具，它为开发者提供“第二大脑”，并重构团队协作效能。2.5版本新增智能体模式，支持Qwen3系列模型，具备自主决策、工程感知和记忆能力，集成3000+MCP工具。其优势包括多模式对话体验、上下文增强、全流程工具链支持及个性化记忆功能，但仍存在上下文管理、权限控制和语言支持等方面的改进空间。此次更新标志着AI辅助开发进入全链路智能化新纪元，成为开发者真正的“结对编程伙伴”。

北京宏哥

2002 36 37

a1317494491

|

人工智能自然语言处理 JavaScript

通义灵码2.5实战评测：Vue.js贪吃蛇游戏一键生成

通义灵码基于自然语言需求，快速生成完整Vue组件。例如，用Vue 2和JavaScript实现贪吃蛇游戏：包含键盘控制、得分系统、游戏结束判定与Canvas动态渲染。AI生成的代码符合规范，支持响应式数据与事件监听，还能进阶优化（如增加启停按钮、速度随分数提升）。传统需1小时的工作量，使用通义灵码仅10分钟完成，大幅提升开发效率。操作简单：安装插件、输入需求、运行项目即可实现功能。

a1317494491

603 4 5

通义灵码2.5实战评测：Vue.js贪吃蛇游戏一键生成

nine很菜

|

9月前

|

人工智能文字识别安全

大模型能力评测方式很多？

AI评测非单一分数比拼，而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法，共同构成模型能力的“CT扫描”系统。

nine很菜

700 0 0

安全风信子

|

7月前

|

人工智能自然语言处理监控

58_大模型评估与评测：构建科学的多维度评测体系

在大语言模型(LLM)技术飞速发展的今天，如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。2025年，大模型生态系统呈现出百花齐放的态势，从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下，单一的性能指标或评测方法已经无法满足对大模型进行全面评估的需求。

安全风信子

1989 0 1

Lethehong-44459

|

8月前

|

人工智能数据可视化前端开发

AI Ping：精准可靠的大模型服务性能评测平台

AI Ping是清华系团队推出的“大模型服务评测平台”，被誉为“AI界的大众点评”。汇聚230+模型服务，7×24小时监测性能数据，以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁，数据可视化强，支持多模型对比，横向对标国内外主流平台，为AI应用落地提供权威参考。

Lethehong-44459

2142 3 3

阿里云开发者

|

11月前

|

数据采集人工智能安全

揭秘大模型评测：如何用“说明书”式方法实现业务场景下的精准评估

本文旨在系统性地介绍如何在实际业务场景中开展大模型评测工作，帮助读者理解并掌握从需求分析、评测集设计与生成、评测维度设定、评测任务执行到评测报告输出的完整流程。

阿里云开发者

1112 0 1

DreamSpark

|

11月前

|

人工智能 IDE 搜索推荐

通义灵码2.5评测：从编程智能体到记忆感知的AI编码革命

通义灵码2.5版本更新带来了多项新功能，包括Lingma IDE的开箱即用体验、编程智能体模式实现端到端编码任务、MCP工具集成扩展AI助手能力以及Qwen3模型升级大幅提升代码生成准确性和效率。此外，新增长期记忆与上下文感知功能，使开发更个性化和高效。尽管存在一些局限性，如复杂业务逻辑仍需人工干预，但整体显著提升了开发效率。官方还提供了高质量视频课程助力用户学习。

DreamSpark

1854 11 12

sunrr

|

传感器人工智能 API

通义灵码2.5深度评测：编程智能体与MCP工具的革新体验

通义灵码2.5通过“智能体+MCP”组合，重新定义了AI编码助手的边界。其价值不仅在于代码生成效率，更在于通过工具链整合和环境感知，推动开发流程向“声明式编程”演进。对于开发者而言，它既是提升效率的利器，也是探索AI辅助开发边界的实验场。

sunrr

907 8 9

Echo_Wish

|

人工智能 Java API

通义灵码 2.5 版深度评测：智能编程的边界在哪里？

通义灵码 2.5 版深度评测：智能编程的边界在哪里？

Echo_Wish

521 2 3

html的七十二变

|

消息中间件人工智能 Java

通义灵码2.0深度评测：AI原生研发时代的开发者革命

作为一名五年开发经验的程序员，我深刻感受到从手动编码到AI辅助编程的变革。通义灵码2.0基于Qwen2.5-Coder大模型，通过代码生成、多文件协同、单元测试和跨语言支持等功能，显著提升开发效率。它能生成完整工程代码，自动处理复杂业务逻辑与依赖关系；在系统升级和微服务改造中表现出色；自动生成高质量单元测试用例；还具备跨语言转换能力。尽管存在一些改进空间，但其高频迭代和功能优化展现了巨大潜力。通义灵码2.0正推动软件开发从“体力活”向“架构创造力”转型，是开发者不可错过的生产力工具。

html的七十二变

540 9 9

通义灵码2.0深度评测：AI原生研发时代的开发者革命

ModelScope模型即服务

热门文章

最新文章

高效部署通义万相Wan2.1：ComfyUI文生/图生视频实战，工作流直取！

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

嵌入式开发必备！Keil uVision5 C51 V9.61 安装激活 + 汉化完整教程, 含（Keil MDK 5.39）

DeepSeek-V4开源：百万上下文，Agent能力比肩顶级闭源模型

阿里开源AI视频生成大模型 Wan2.1：14B性能超越Sora、Luma等模型，一键生成复杂运动视频

LTX-2.3开源：视频生成引擎级升级

Seedance vs Sora vs Kling：AI 视频生成模型深度对比

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

Claude Cowork 支持第三方模型接入开放而不开源

蚂蚁百宝箱正式发布AI构建能力：自然语言一键生成企业级智能体，助力业务创新提效

理解 KV Cache：LLM 推理为什么能越写越快

Open Code的部署以及API调用教程

AR 工业巡检技术详解与企业推荐

做一个 review-first 的企业 AI 项目，想征集真实业务场景

HiDream-O1开源：8B参数像素级统一Transformer

我用 PAI/Codex 理解 Harness Engineering：Agent 工作环境到底怎么搭

Harness Engineering 被讲烂之后，Agent 工程真正难的是什么？

可计算元认知文本分析：癌症社会科学研究语义基线的构建与边界信号检测

Google 的 IDE 演进小史

相关课程

更多

阿里云大模型能力培训（永耀）

国家电网大模型ACP培训

大模型 Clouder认证：基于PAI ArtLab的AIGC设计基础

阿里云大模型工程师ACA认证课程

阿里云百炼大模型产品实践

相关电子书

更多

OpenSearch向量检索和大模型方案

通义万相：视觉生成大模型的进化与应用

达摩院通义视觉生成大模型

相关实验场景

更多

通过GPU云服务器生成个人版对话大模型

如何快速训练大模型

如何快速体验调用通义大模型

在云上部署ChatGLM2-6B大模型（GPU版）

使用AI容器镜像部署Qwen大语言模型

下一篇

阿里云正式发布 Agentic 代码安全：AI驱动的双Agent协同引擎