LLM创造力可以被度量吗?一个基于提示词变更的探索性实验

简介: 本文探讨提示词工程为何仍是“玄学”,并通过实验证明:加入明确指令(如“Be as creative as possible”)可显著、可量化地提升LLM输出多样性,效果甚至超过调高温度。研究以embedding距离为代理指标,覆盖13个主流模型,揭示提示词迭代可度量、可预测,为LLM应用从经验走向工程化提供新路径。

大语言模型在demo阶段总是看起来很惊艳。但一旦进入到生产环境很多问题就暴露了:不稳定、不可预测,甚至直接不可用。

从实践来看核心问题很少出在模型本身。更多时候是在于如何设计、评估和迭代应用模型的提示词。LLM应用的输入提示词必须适配具体任务,才能让模型在期望的输出范围内工作。

提示词工程在今天基本还是被当作一种"艺术"。这篇文章要讨论的就是为什么这是个问题,以及怎么把它变成一门可度量的工程学科。

提示词工程仍然是猜测

大多数团队的提示词改进流程其实很粗糙:有人写(或重写)提示词,跑几个例子,主观觉得"感觉好了一些",然后就上线了。

没有度量标准,没有基线,也没有对"更好"的明确定义。

这带来的直接后果是:提示词质量难以对比,评估基本靠外部响应来判断,回归问题不容易察觉,很多故障等到上线后才被发现。

提示词工程本质上极度主观,如果目标是构建可靠的AI系统,这就成了一个严重的瓶颈。

实际LLM使用中的两个对立问题

在生产环境里跑LLM,我发现有两个反复出现的问题。

不一致性:同一个提示词,不同的答案

同一条提示词跑多次会产生明显不同的输出。这不只是烦人的问题,而是对数据流水线、自动化决策系统、评估框架来说,这是实打实的可靠性风险。

高方差在这类场景下是bug不是feature。模型要么表现出确定性行为,要么至少得在可控范围内运行。

缺乏多样性:模型不够有创造力

反过来,有好几个实际项目中碰到了相反的困境:做创意生成、探索性分析、创意制作这类任务时,模型产出的内容彼此过于相似,概念覆盖面非常窄。一旦规模化,创造力就丢得干干净净。

这时候确定性就从优势变成了束缚。

一个简单的假设

提示词质量应该是可衡量的。

有些任务需要最小化输出方差,有些任务需要最大化多样性,而提示词的变更应该能推动结果朝可度量的方向移动。不同类型的任务也可以选择不同的度量标准。

既然模型行为可以衡量,提示词行为为什么不能?

为了验证这个想法,我选了模型行为的一个切面来入手:响应多样性,把它当作创造力的代理指标。

目标不是找到完美的度量方式,而是回答两个问题:提示词变更能不能转化为一致的数值差异?单次任务上的创造力/确定性到底取决于提示词还是仅取决于温度?

实验设置

实验规模不大,设计如下:

提示词

提示词A:

"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform."

提示词B在A的基础上加了一条指令:

"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform. Be as creative as possible."

模型和采样

采用单次生成模式,测试了多个LLM(具体型号这里略过),温度分别设为0 × max、0.5 × max和1 × max。每个(提示词、模型、温度)组合跑10次。

测试集选了4个主流模型家族的13个模型:OpenAI的GPT系列、Google的Gemini系列、Antropic的Claude系列,以及Deepseek。

通过Embedding衡量多样性

每条生成结果都计算了4096维的embedding向量。然后对每个实验集(固定提示词、模型和温度),取集合内embedding的最大成对距离作为响应多样性的度量。

逻辑很简单:距离小说明行为高度确定,距离大说明输出多样且有创造力。最终得到一个数值,描述模型响应的"分散程度"。

结果

汇总表,创意提示词版本导致了更显著的分散。同时温度并不总起作用。

基础提示词和创意提示词在模型-温度切片上的比较图。

每个模型在不同温度水平上的响应分散图

结果比预期要清晰得多。

跨模型来看有三个明显趋势:在提示词中加入明确的创造力指令,曲线一致上移;提高温度在一定程度上增大了响应多样性,但受限于小样本,这个结论还需谨慎看待;各模型对温度变化的响应方式差异很大没有统一规律。

提示词变更带来的是可预测的数值效果,而非随机噪声。

这说明两件事:提示词迭代不必完全依赖直觉,输出创造力是可量化的;这一假设有可能推广到更大的样本和不同的应用场景。

这套方法的实际意义在于:提示词可以通过数值做A/B测试,温度调优有了度量依据而不是靠猜,模型选择可以由任务需求驱动而非跟风。

它让团队能在提示词变更上线之前就对效果做出推断。

局限性

结果虽然是正向的但有几个局限

度量标准的任务特定性

这里定义的"创造力"严格来说是任务相关的。用embedding距离衡量的响应多样性,在创意生成、营销创意、探索性任务上作为创造力的代理指标还算合理,但在事实性问答、代码生成、结构化数据提取这些场景下可能毫无意义,甚至会产生误导。

不能把它当成模型质量的通用指标。目前我也在测试其他面向不同任务的度量标准。

对Embedding空间的依赖

所有测量都建立在特定embedding模型和距离度量之上。换用不同的embedding模型、向量归一化方式或距离函数,绝对值也是会变的,所以模型间的相对排名也可能有所不同。

但本实验中观察到的趋势是稳定的,所以结果应当按相对值来解读,不宜绝对化。

有限的样本量

每个配置只跑了有限次数。趋势虽然一致,但要减少方差、估计置信区间、得出统计上站得住的结论,样本量还远远不够。当前的发现更多是探索性的,不是定论。

提示词和领域偏差

实验只用了一种任务表述和一个窄领域(效果营销创意)。换到其他领域或提示词风格,效果可能更弱、更强,也可能呈现完全不同的行为模式。把这些结论向创意任务之外推广需要格外谨慎。

创造力与实用性的权衡

响应多样性高不等于结果好。高度多样化的输出里可能混着不相关的想法、低质量的建议和不连贯的回复。这个实验测的是方差,不是实用性更不是商业价值。实际应用中创造力度量必须和质量过滤或下游评估配合使用。

LLM的非平稳性

大语言模型会被提供商持续更新,所以绝对分数可能随时间漂移,分数可能在提示词没改的情况下发生变化,可复现性也可能下降。任何长期的基准测试工作都必须把这种非平稳性纳入考量。

相关性不意味着因果性

最后要说的是,温度、提示词指令和响应多样性之间虽然有明确的相关性,但这不代表对模型行为有了完整的因果理解。实验证明的是"提示词变更可以被衡量",而不是创造力可以被这套度量标准完全解释。

总结

这只是一系列研究的第一个实验,后续结果会在接下来的文章中陆续呈现。下一步计划:增加样本量,尝试不同的提示词,实验如何降低创造力,为其他类型任务定义新的度量标准,以及构建一个定期更新的模型排行榜来覆盖各项指标。

https://avoid.overfit.cn/post/e84eee36d7bc4263b9fd5dfe564e21d9

作者:Alexey Konoshenkov

目录
相关文章
|
2天前
|
存储 人工智能 缓存
软件工程原则在多智能体系统中的应用:分层与解耦
本文探讨多智能体系统的工程化架构设计,以YouTube视频信息提取项目为例,提出分层架构(呈现层、智能体层、工具层、服务层、模型层、基础设施层),强调工具(LLM适配器)与服务(业务逻辑)的严格分离,并引入领域驱动设计思想,实现可维护、可测试、可扩展的智能体系统。
46 8
软件工程原则在多智能体系统中的应用:分层与解耦
|
17天前
|
人工智能 运维 架构师
智能体来了:重新定义 AI Agent 搭建师的核心能力与职业路径
随着AI Agent成为企业智能化闭环核心,AI Agent搭建师应运而生。本文从工程化视角解析其全链路职责,并指出在技术平民化趋势下,真正不可替代的是需求抽象、系统架构、风险治理与跨域适配四大体系化能力,呼吁构建T型/π型知识结构,实现从“编码者”向“系统架构师”跃迁。(239字)
智能体来了:重新定义 AI Agent 搭建师的核心能力与职业路径
|
3天前
|
Oracle Java 关系型数据库
JDK 18详细安装教程步骤官方正版安装包
JDK是Oracle官方Java开发工具包,含JVM、类库、编译器等,支持Java SE/EE/ME。本文提供JDK 18安装包下载及详细图文安装指南,含解压、管理员运行、环境验证(java -version)等步骤,助你快速配置Java开发环境。(239字)
|
3天前
|
人工智能 前端开发 Linux
2026年新手零门槛部署OpenClaw(Clawdbot)详细步骤及集成Web页面教程
对于零基础的新手小白来说,部署AI工具已是不易,再要将其集成到Web页面更是难上加难。2026版OpenClaw(原Clawdbot)针对阿里云环境和Web集成场景推出了“小白专属一键部署方案”,把环境配置、服务部署、Web集成的全流程封装成可直接复制的脚本和代码片段,全程无需懂后端开发、无需手动调接口,跟着教程“抄作业”,25分钟就能完成从阿里云部署OpenClaw到Web页面集成的全流程。本文专为新手设计,每一步都标注“复制即用”的命令和代码,确保小白照做就能成功。
154 6
|
3天前
|
人工智能 数据可视化 Linux
2026年OpenClaw(Clawdbot)部署流程及接入iMessage步骤,新手直接抄作业
对于刚接触服务器和AI工具的新手来说,部署OpenClaw已是挑战,再对接iMessage更是难上加难。2026版OpenClaw(原Clawdbot)针对阿里云环境和iMessage生态推出了“新手友好型一键部署方案”,将环境配置、服务部署、iMessage对接的全流程封装为可直接复制的脚本,全程无需编写复杂代码、无需手动调试通信协议,跟着教程“抄作业”,30分钟就能完成从阿里云部署OpenClaw到接入iMessage的全流程。本文专为新手设计,每一步都标注“复制即用”的命令,所有参数附示例,确保新手照做就能成功。
170 4
|
18小时前
|
SQL 存储 关系型数据库
SQLAlchemy 技术入门指南
SQLAlchemy 是 Python 最流行的 ORM 工具包,提供 Core(SQL 表达式语言)和 ORM(对象关系映射)双模式。它 bridging Python 与 SQL,支持多数据库、连接池、事务及关系映射,兼具灵活性与企业级能力,学习曲线平缓,适合从入门到高阶应用。(239字)
|
21小时前
|
人工智能 弹性计算 安全
2026年阿里云部署OpenClaw(Clawdbot)一键接入Telegram教程
2026年,OpenClaw(前身为Clawdbot、Moltbot)凭借开源轻量化架构、强大的自动化任务执行能力及跨平台适配特性,成为个人、跨境团队及中小企业搭建专属AI智能代理的首选工具。其核心优势在于无需复杂开发,即可快速对接全球主流即时通信平台,实现“聊天式指挥AI干活”,而Telegram作为全球流行的即时通讯工具,凭借多终端同步、无广告干扰、消息加密传输、跨境通信稳定的特点,成为OpenClaw跨平台对接的核心场景之一,尤其适配海外团队协作、跨境社群运营、全球远程办公等需求。
40 0
|
18小时前
|
机器学习/深度学习 人工智能 自然语言处理
不卷通用大模型,网易AI的“错位”生存法则
网易AI战略简介(240字内): 马年红包大战烧钱45亿,网易却选择“避战”——不卷通用大模型,不砸钱抢流量。依托1400亿现金与年超177亿元研发,聚焦游戏、教育、音乐等垂类,打造“最懂游戏的AI专家”:AI覆盖90%美术流程、提效300%;《逆水寒》AI门客、《蛋仔》AI建模重塑交互;技术外溢至具身智能机器人、企业Agent及个人助理LobsterAI。务实走“应用先行—能力固化—场景外溢”路径,以实用主义破AI焦虑。
34 10
|
3天前
|
人工智能 Devops API
1715+技能加持!2026年OpenClaw Skills完全指南+OpenClaw一键部署:让AI助手从"聊天"变"干活"
如果你以为OpenClaw(前身为Moltbot,最初名为Clawdbot)只是个能聊天的AI工具,那你大概率低估了它的真正实力。2026年,这款被网友戏称为"小龙虾"的智能代理工具,凭借其开放的Skills技能生态,彻底摆脱了"只会说不会做"的局限。无数用户反馈:"裸奔的OpenClaw像个聪明但不会动手的实习生,而装上Skills后,它直接变身全能打工人"。
845 3
|
17天前
|
机器学习/深度学习 测试技术 API
阿里云分布对齐的序列蒸馏实现卓越的Long CoT推理能力,登顶Hugging Face趋势榜!
阿里云飞天实验室发布DASD推理蒸馏技术,开源DASD-4B/30B-Thinking模型及高质量训练数据。创新提出温度调节学习、差异感知采样与混合策略蒸馏三大技术,仅用44.8万样本即在AIME25(83.3)、LCB v5(69.3)、GPQA-D(68.4)等基准上超越同尺寸甚至更大模型,数据集登顶Hugging Face趋势榜Top5。
175 3