WritingBench:阿里最新大模型写作能力多维测评工具,开源32B深度思考写作模型

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。

00.导语

近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。

论文链接:

https://arxiv.org/pdf/2503.05244

项目地址:

https://github.com/X-PLUG/WritingBench

01.WritingBench项目背景

现有AI写作评估多局限于单一领域和短文本,大多聚焦于文学小说创作,而商业文书、法律文书以及因社交媒体发展催生的营销类写作等领域则成为评估盲区。此外,传统评估方法多采用固定标准来衡量不同的复杂场景。数据表明,传统评估方法与人类判断的一致性不足65%,严重制约了创作型AI的发展。

数据基建:最懂行业的写作题库

两级领域体系

WritingBench从现实需求中提炼出六大场景:

学术与工程

金融与商业

政治与司法

文学与艺术

教育

宣传营销

在这些场景下进一步细分为100个子类,例如「金融与商业」涵盖投资分析撰写、行业白皮书、商务信笺等20个实用场景。「宣传营销」则包括了当前热门的社交平台推广文案和多媒体运营脚本的撰写。

(图:WritingBench的6大领域分布)

四阶段人机协同构建

(图:评测集构建流程)

团队耗时三个月,经过四个阶段流程完成评测集构建。首先,由模型从100个子领域需求池中生成简单写作任务,再对指令进行复杂化处理(如风格调整、格式遵循、长度限制、个性化、内容颗粒度、表达语气)并提供真实场景可能需要的素材建议。接着,由人工补充开源素材,如财报、法律条文等输入料。最后,由专家对所有文本进行内容质检。下图展示的是一条WritingBench中影视解读向视频脚本的创作需求。

(图:WritingBench写作查询示例)

与其他写作相关评测基准对比,WritingBench领域和素材来源更为广泛,并额外支持了「风格」、「格式」、「长度」维度的能力评测。

(图:与相关写作评测基准对比)

因题施评:基于写作意图的动态评估体系

使用单一标准评估无法适应不同写作意图的需求,就像"悬疑小说"和"儿童启蒙故事"显然有着不同的价值导向。因此,WritingBench设计了一种基于写作意图自动生成评测指标的方法,模型可以针对每个写作输入自动生成五个评测指标的名称、描述和评测细则,以更好地结合素材和用户实际需求(如仿照上传素材的风格、格式或结合提供的事例进行材料撰写)。此动态评估策略实现了87%的人类一致性得分,团队还配套训练了一个评分模型,能够根据不同指标自适应地给出1-10分的评分及具体理由。

(图:动态评估指标示例)

02.如何使用WritingBench评估工具

「安装与下载」

🚀 Github仓库链接:

https://github.com/X-PLUG/WritingBench

在benchmark_query文件夹下提供了评测全集benchmark_all.jsonl和三维度子集,读入需要评测的jsonl文件后将结果保存至新的jsonl,每一条需要记录"index"和"response"字段。

「评测打分」

选项一:Critic Model打分

为打分模型配置本地路径和设置,并设置--evaluator critic。

Critic Model下载链接:

https://www.modelscope.cn/models/iic/WritingBench-Critic-Model-Qwen-7B

选项二:LLM API调用打分

在evaluator/llm.py中为LLM配置API,仓库中提供claude调用参考,即--evaluator claude。

「结果对比」

(图:不同模型在WringBench上表现对比)

教育领域(D5)在各个模型中的表现均较好,其次是学术和工程领域(D1)。文学与艺术(D5)是得分最低的领域,不同模型表现出显著的差异。具备链式思维(CoT)能力的模型如Deepseek-R1和o1-preview在处理叙述性和创意内容上表现优于其非CoT对照模型,表明CoT在处理此类内容时的潜力。

(图:不同模型在100个子领域上的得分热力图,颜色越红代表分数表现越好,越蓝表示表现越差)

在100个子领域上进一步对比,发现小说续写、招投标书和白皮书等领域仍存在挑战,这些任务需要更高水平的知识、长文本生成能力和对上下文的一致性要求。

更多WritingBench上模型间对比实例可在在线体验链接中查看:https://modelscope.cn/studios/iic/DeepWriting

03.写作深度思考模型

12K通用写作的SFT数据上基于Qwen-2.5-32B-Instruct模型训练了一个写作深度思考模型。结果显示,其在创意型写作任务上具有显著优势,超越了同系列大尺寸的Qwen-Max,表现可媲美R1。

(图:32B创作模型思维链消融实验)

「如何使用」

模型链接:

https://www.modelscope.cn/models/iic/Writing-Model-Qwen-32B-thinking

下面提供一段vllm调用代码:

「写作示例」

示例一:小红书迪士尼攻略

示例二:火锅店评论

示例三:小说创作(武侠版的'魁地奇')

更多写作体验可前往:

https://modelscope.cn/studios/iic/DeepWriting

04.结语

随着生成式AI技术的迅猛发展,我们正站在文学与科技交汇的新时代入口。生成式写作的未来,或许不在于独自取代人类,而是在于与人类携手,建立创作共生协议,探索更为广阔的创意疆域。

🔗 项目开源:

📜 论文:

https://arxiv.org/abs/2503.05244

💻 仓库:

https://github.com/X-PLUG/WritingBench

✍️ ModelScope在线体验:

https://modelscope.cn/studios/iic/DeepWriting

🤖 模型:

└─ Critic: https://www.modelscope.cn/models/iic/WritingBench-Critic-Model-Qwen-7B

└─ Writer-7B: https://www.modelscope.cn/models/iic/Writing-Model-Qwen-7B

└─ Writer-32B-thinking: https://www.modelscope.cn/models/iic/Writing-Model-Qwen-32B-thinking

点击阅读原文,即可跳转体验~

深度思考写作助手

目录
相关文章
|
23天前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
296 109
|
7天前
|
存储 编解码 监控
针对3-15分钟视频的抽帧策略:让Qwen2.5 VL 32B理解视频内容
针对3-15分钟视频,提出高效抽帧策略:通过每5-10秒定间隔或关键帧检测方法,提取30-100帧关键图像,结合时间均匀采样与运动变化捕捉,降低冗余,提升Qwen2.5 VL 32B对视频内容的理解效率与准确性。
|
1月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
202 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
16天前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
191 2
|
29天前
|
存储 人工智能 自然语言处理
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了Qwen-Image,一个20B参数的MMDiT模型,具备卓越的文本渲染和图像编辑能力。支持复杂中英文文本生成与自动布局,适用于多场景图像生成与编辑任务,已在魔搭社区与Hugging Face开源。
337 2
|
9天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
1171 87
|
1月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
372 0
|
5天前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
80 1
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
10天前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
347 1
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
23天前
|
机器学习/深度学习 人工智能 JSON
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1,展现“思考更聪明”而非“更长”的AI推理新方向。
97 8
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型

热门文章

最新文章