备案控制台

开发者社区 ModelScope模型即服务文章正文

中文大模型竞技评测

2023-08-21 1065

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。

中文游戏1：

中文游戏1.png

评测：都很差劲，没有理解到“钱”字在这个成语中的意义。

中文游戏2：

中文游戏2.png

评测：B模型意识到了门实际上没有破好过A模型

中文游戏3：

中文游戏3.png

评测：AB模型分析得都有一定道理，但是B的排版更好一些

人类价值观问答1：

人类价值观4.png

评测：A模型能攫取渣、生物属性、人类文明、糟粕等关键词，并且从各个方面去详细分析，虽然分析得有些问题，但是比起B模型的过度对齐还是要好得多。

人类价值观问答2：

人类价值观1.png

评测：两个模型的论点和论据都不匹配，B模型对三体的基本认识有很多问题。

人类价值观问答3：

人类价值观3.png

评测：A模型清楚的认识到问题的本质，指出实际问题在于老公那方，从这点来看表现出一定的情商，但B更加服从指令，更加直接的回答问题。

写作创作问答1：

写作创作1.png

评测：我看不出有什么细思极恐的，恐怕这就是细思极恐之所在。

写作创作问答2：

写作创作2.png

评测：A模型能根据kano模型的定义进行需求分类，但是B模型完全没有理解问题

写作创作问答3：

写作创作3.png

评测：都很差劲，老套的剧情走向，并且没有很好理解我的问题。

关键词：

通义大模型评测

游客rux3ao2hmhfl6

目录

相关文章

nine很菜

|

3月前

|

人工智能文字识别安全

大模型能力评测方式很多？

AI评测非单一分数比拼，而是多维度、多方法的系统工程。其核心框架可拆解为基础维度、主流基准与关键方法，共同构成模型能力的“CT扫描”系统。

nine很菜

337 0 0

北京宏哥

|

6月前

|

人工智能自然语言处理 IDE

技术赋能新维度，灵码进化新突破：通义灵码2.5新功能尝鲜及深度评测

通义灵码是阿里云推出的基于通义大模型的智能编程助手，作为首款全栈智能辅助的国产编码工具，它为开发者提供“第二大脑”，并重构团队协作效能。2.5版本新增智能体模式，支持Qwen3系列模型，具备自主决策、工程感知和记忆能力，集成3000+MCP工具。其优势包括多模式对话体验、上下文增强、全流程工具链支持及个性化记忆功能，但仍存在上下文管理、权限控制和语言支持等方面的改进空间。此次更新标志着AI辅助开发进入全链路智能化新纪元，成为开发者真正的“结对编程伙伴”。

北京宏哥

1189 36 37

一只消消乐

|

6月前

|

人工智能自然语言处理 JavaScript

通义灵码2.5实战评测：Vue.js贪吃蛇游戏一键生成

通义灵码基于自然语言需求，快速生成完整Vue组件。例如，用Vue 2和JavaScript实现贪吃蛇游戏：包含键盘控制、得分系统、游戏结束判定与Canvas动态渲染。AI生成的代码符合规范，支持响应式数据与事件监听，还能进阶优化（如增加启停按钮、速度随分数提升）。传统需1小时的工作量，使用通义灵码仅10分钟完成，大幅提升开发效率。操作简单：安装插件、输入需求、运行项目即可实现功能。

一只消消乐

351 4 5

通义灵码2.5实战评测：Vue.js贪吃蛇游戏一键生成

Lethehong

|

2月前

|

人工智能数据可视化前端开发

AI Ping：精准可靠的大模型服务性能评测平台

AI Ping是清华系团队推出的“大模型服务评测平台”，被誉为“AI界的大众点评”。汇聚230+模型服务，7×24小时监测性能数据，以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁，数据可视化强，支持多模型对比，横向对标国内外主流平台，为AI应用落地提供权威参考。

Lethehong

488 3 3

aliyun9170107523-43660

|

1月前

|

人工智能自然语言处理监控

58_大模型评估与评测：构建科学的多维度评测体系

在大语言模型(LLM)技术飞速发展的今天，如何科学、全面地评估和评测这些模型的能力已成为学术界和工业界共同关注的核心问题。2025年，大模型生态系统呈现出百花齐放的态势，从参数规模、架构设计到应用场景都出现了多样化的发展路径。在这种背景下，单一的性能指标或评测方法已经无法满足对大模型进行全面评估的需求。

aliyun9170107523-43660

388 0 0

DreamSpark

|

5月前

|

人工智能 IDE 搜索推荐

通义灵码2.5评测：从编程智能体到记忆感知的AI编码革命

通义灵码2.5版本更新带来了多项新功能，包括Lingma IDE的开箱即用体验、编程智能体模式实现端到端编码任务、MCP工具集成扩展AI助手能力以及Qwen3模型升级大幅提升代码生成准确性和效率。此外，新增长期记忆与上下文感知功能，使开发更个性化和高效。尽管存在一些局限性，如复杂业务逻辑仍需人工干预，但整体显著提升了开发效率。官方还提供了高质量视频课程助力用户学习。

DreamSpark

984 10 11

阿里云开发者

|

5月前

|

数据采集人工智能安全

揭秘大模型评测：如何用“说明书”式方法实现业务场景下的精准评估

本文旨在系统性地介绍如何在实际业务场景中开展大模型评测工作，帮助读者理解并掌握从需求分析、评测集设计与生成、评测维度设定、评测任务执行到评测报告输出的完整流程。

阿里云开发者

460 0 0

Echo_Wish

|

6月前

|

人工智能 Java API

通义灵码 2.5 版深度评测：智能编程的边界在哪里？

通义灵码 2.5 版深度评测：智能编程的边界在哪里？

Echo_Wish

234 2 3

sunrr

|

6月前

|

传感器人工智能 API

通义灵码2.5深度评测：编程智能体与MCP工具的革新体验

通义灵码2.5通过“智能体+MCP”组合，重新定义了AI编码助手的边界。其价值不仅在于代码生成效率，更在于通过工具链整合和环境感知，推动开发流程向“声明式编程”演进。对于开发者而言，它既是提升效率的利器，也是探索AI辅助开发边界的实验场。

sunrr

494 8 9

modelscope

|

7月前

|

算法物联网 Swift

Qwen3 X ModelScope工具链: 飞速训练 + 全面评测

Qwen于近日发布了Qwen3系列模型，包含了各个不同规格的Dense模型和MoE模型。开源版本中，Dense模型基本沿用了之前的模型结构，差别之处在于对于Q和K两个tensor增加了RMSNorm；MoE模型去掉了公共Expert，其他结构基本与前一致。在模型大小上，涵盖了从0.6B到32B（Dense）和235B（MoE）不同的尺寸。

modelscope

1027 15 15

ModelScope模型即服务

热门文章

最新文章

中企投资印度新能源“有戏”吗？

47_历史里程碑：从ELIZA到Transformer

Manga Image Translator：开源的漫画文字翻译工具，支持多语言翻译并嵌入原图，保持漫画的原始风格和布局

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

阶跃星辰发布首个开源 LLM 级音频编辑大模型 Step-Audio-EditX

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

ChatPPT+魔搭社区：MCP 2.0全面升级！

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

腾讯混元&清华开源15M高质量多模态训练数据，全面开放MLLM迎来质变时刻

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

Qwen-Image-Edit：全能图像编辑，驱动内容创作提质增效

【Github热门项目】DeepSeek-OCR项目上线即突破7k+星！突破10倍无损压缩，重新定义文本-视觉信息处理

美团 LongCat 团队发布全模态一站式评测基准UNO-Bench：揭示单模态与全模态能力的组合规律

蚂蚁百宝箱“一箱搞定”会展智能，「桐小乌」为乌镇互联网大会提供全天候一站式向导服务

Agent Skills技术协议与开源实现，让大模型拥有“即插即用”技能

刚刚参加了一个MCP赛事，奖金还可以，搭友们可以去试试看

MajorRAG 概述（1/3）

MajorRAG聊天问答系统实现分析（3/3）

相关课程

更多

阿里云大模型工程师ACA认证免费课程

阿里云百炼大模型产品实践

ADB-PG+大模型一站式AIGC解决方案

阿里云百炼，手把手教你如何构建企业大模型应用服务

云原生AI套件：一键训练大模型及部署GPU共享推理服务

【开眼界】大模型时代的个人应对策略

相关电子书

更多

OpenSearch向量检索和大模型方案

通义万相：视觉生成大模型的进化与应用

达摩院通义视觉生成大模型

相关实验场景

更多

通过GPU云服务器生成个人版对话大模型

如何快速训练大模型

如何快速体验调用通义大模型

在云上部署ChatGLM2-6B大模型（GPU版）

使用AI容器镜像部署Qwen大语言模型

下一篇

阿里云对象存储OSS收费标准：500G存储118元1年、