LLM创造力可以被度量吗?一个基于提示词变更的探索性实验

简介: 本文探讨提示词工程为何仍是“玄学”,并通过实验证明:加入明确指令(如“Be as creative as possible”)可显著、可量化地提升LLM输出多样性,效果甚至超过调高温度。研究以embedding距离为代理指标,覆盖13个主流模型,揭示提示词迭代可度量、可预测,为LLM应用从经验走向工程化提供新路径。

大语言模型在demo阶段总是看起来很惊艳。但一旦进入到生产环境很多问题就暴露了:不稳定、不可预测,甚至直接不可用。

从实践来看核心问题很少出在模型本身。更多时候是在于如何设计、评估和迭代应用模型的提示词。LLM应用的输入提示词必须适配具体任务,才能让模型在期望的输出范围内工作。

提示词工程在今天基本还是被当作一种"艺术"。这篇文章要讨论的就是为什么这是个问题,以及怎么把它变成一门可度量的工程学科。

提示词工程仍然是猜测

大多数团队的提示词改进流程其实很粗糙:有人写(或重写)提示词,跑几个例子,主观觉得"感觉好了一些",然后就上线了。

没有度量标准,没有基线,也没有对"更好"的明确定义。

这带来的直接后果是:提示词质量难以对比,评估基本靠外部响应来判断,回归问题不容易察觉,很多故障等到上线后才被发现。

提示词工程本质上极度主观,如果目标是构建可靠的AI系统,这就成了一个严重的瓶颈。

实际LLM使用中的两个对立问题

在生产环境里跑LLM,我发现有两个反复出现的问题。

不一致性:同一个提示词,不同的答案

同一条提示词跑多次会产生明显不同的输出。这不只是烦人的问题,而是对数据流水线、自动化决策系统、评估框架来说,这是实打实的可靠性风险。

高方差在这类场景下是bug不是feature。模型要么表现出确定性行为,要么至少得在可控范围内运行。

缺乏多样性:模型不够有创造力

反过来,有好几个实际项目中碰到了相反的困境:做创意生成、探索性分析、创意制作这类任务时,模型产出的内容彼此过于相似,概念覆盖面非常窄。一旦规模化,创造力就丢得干干净净。

这时候确定性就从优势变成了束缚。

一个简单的假设

提示词质量应该是可衡量的。

有些任务需要最小化输出方差,有些任务需要最大化多样性,而提示词的变更应该能推动结果朝可度量的方向移动。不同类型的任务也可以选择不同的度量标准。

既然模型行为可以衡量,提示词行为为什么不能?

为了验证这个想法,我选了模型行为的一个切面来入手:响应多样性,把它当作创造力的代理指标。

目标不是找到完美的度量方式,而是回答两个问题:提示词变更能不能转化为一致的数值差异?单次任务上的创造力/确定性到底取决于提示词还是仅取决于温度?

实验设置

实验规模不大,设计如下:

提示词

提示词A:

"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform."

提示词B在A的基础上加了一条指令:

"Create 5 ideas of creative banners for performance marketing of an AI benchmarking platform. Be as creative as possible."

模型和采样

采用单次生成模式,测试了多个LLM(具体型号这里略过),温度分别设为0 × max、0.5 × max和1 × max。每个(提示词、模型、温度)组合跑10次。

测试集选了4个主流模型家族的13个模型:OpenAI的GPT系列、Google的Gemini系列、Antropic的Claude系列,以及Deepseek。

通过Embedding衡量多样性

每条生成结果都计算了4096维的embedding向量。然后对每个实验集(固定提示词、模型和温度),取集合内embedding的最大成对距离作为响应多样性的度量。

逻辑很简单:距离小说明行为高度确定,距离大说明输出多样且有创造力。最终得到一个数值,描述模型响应的"分散程度"。

结果

汇总表,创意提示词版本导致了更显著的分散。同时温度并不总起作用。

基础提示词和创意提示词在模型-温度切片上的比较图。

每个模型在不同温度水平上的响应分散图

结果比预期要清晰得多。

跨模型来看有三个明显趋势:在提示词中加入明确的创造力指令,曲线一致上移;提高温度在一定程度上增大了响应多样性,但受限于小样本,这个结论还需谨慎看待;各模型对温度变化的响应方式差异很大没有统一规律。

提示词变更带来的是可预测的数值效果,而非随机噪声。

这说明两件事:提示词迭代不必完全依赖直觉,输出创造力是可量化的;这一假设有可能推广到更大的样本和不同的应用场景。

这套方法的实际意义在于:提示词可以通过数值做A/B测试,温度调优有了度量依据而不是靠猜,模型选择可以由任务需求驱动而非跟风。

它让团队能在提示词变更上线之前就对效果做出推断。

局限性

结果虽然是正向的但有几个局限

度量标准的任务特定性

这里定义的"创造力"严格来说是任务相关的。用embedding距离衡量的响应多样性,在创意生成、营销创意、探索性任务上作为创造力的代理指标还算合理,但在事实性问答、代码生成、结构化数据提取这些场景下可能毫无意义,甚至会产生误导。

不能把它当成模型质量的通用指标。目前我也在测试其他面向不同任务的度量标准。

对Embedding空间的依赖

所有测量都建立在特定embedding模型和距离度量之上。换用不同的embedding模型、向量归一化方式或距离函数,绝对值也是会变的,所以模型间的相对排名也可能有所不同。

但本实验中观察到的趋势是稳定的,所以结果应当按相对值来解读,不宜绝对化。

有限的样本量

每个配置只跑了有限次数。趋势虽然一致,但要减少方差、估计置信区间、得出统计上站得住的结论,样本量还远远不够。当前的发现更多是探索性的,不是定论。

提示词和领域偏差

实验只用了一种任务表述和一个窄领域(效果营销创意)。换到其他领域或提示词风格,效果可能更弱、更强,也可能呈现完全不同的行为模式。把这些结论向创意任务之外推广需要格外谨慎。

创造力与实用性的权衡

响应多样性高不等于结果好。高度多样化的输出里可能混着不相关的想法、低质量的建议和不连贯的回复。这个实验测的是方差,不是实用性更不是商业价值。实际应用中创造力度量必须和质量过滤或下游评估配合使用。

LLM的非平稳性

大语言模型会被提供商持续更新,所以绝对分数可能随时间漂移,分数可能在提示词没改的情况下发生变化,可复现性也可能下降。任何长期的基准测试工作都必须把这种非平稳性纳入考量。

相关性不意味着因果性

最后要说的是,温度、提示词指令和响应多样性之间虽然有明确的相关性,但这不代表对模型行为有了完整的因果理解。实验证明的是"提示词变更可以被衡量",而不是创造力可以被这套度量标准完全解释。

总结

这只是一系列研究的第一个实验,后续结果会在接下来的文章中陆续呈现。下一步计划:增加样本量,尝试不同的提示词,实验如何降低创造力,为其他类型任务定义新的度量标准,以及构建一个定期更新的模型排行榜来覆盖各项指标。

https://avoid.overfit.cn/post/e84eee36d7bc4263b9fd5dfe564e21d9

作者:Alexey Konoshenkov

目录
相关文章
|
1月前
|
人工智能 自然语言处理 前端开发
一句话生成应用正在改变什么?2026 AI开发范式新观察
AI开发正从代码补全、模块生成迈向应用级生成:一句话描述需求,即可自动生成含前后端、数据库的可运行系统骨架。这大幅压缩启动周期,降低技术门槛,但不替代开发者,而是重塑“人定义需求、AI构建骨架”的协作范式。
|
1月前
|
数据采集 存储 自然语言处理
向量数据库实战——零基础搭建专属RAG知识库
本文手把手教你零代码搭建向量数据库,构建个人大模型知识库:5步完成数据清洗、入库、检索配置与测试,无需编程/本地GPU,10分钟上手RAG核心环节,解决大模型“记不住专属知识”难题。(239字)
|
1月前
|
人工智能 弹性计算 安全
2026年阿里云部署OpenClaw(Clawdbot)一键接入Telegram教程
2026年,OpenClaw(前身为Clawdbot、Moltbot)凭借开源轻量化架构、强大的自动化任务执行能力及跨平台适配特性,成为个人、跨境团队及中小企业搭建专属AI智能代理的首选工具。其核心优势在于无需复杂开发,即可快速对接全球主流即时通信平台,实现“聊天式指挥AI干活”,而Telegram作为全球流行的即时通讯工具,凭借多终端同步、无广告干扰、消息加密传输、跨境通信稳定的特点,成为OpenClaw跨平台对接的核心场景之一,尤其适配海外团队协作、跨境社群运营、全球远程办公等需求。
612 0
|
1月前
|
机器学习/深度学习 人工智能 测试技术
Agent Lightning:微软开源的框架无关 Agent 训练方案,LangChain/AutoGen 都能用
Agent Lightning 是微软推出的开源工具,专攻AI Agent“训练鸿沟”——无需修改代码,即可为LangChain、AutoGen等任意框架注入强化学习、Prompt优化与微调能力,让Agent在真实交互中持续进化。
138 7
Agent Lightning:微软开源的框架无关 Agent 训练方案,LangChain/AutoGen 都能用
|
1月前
|
机器学习/深度学习 存储 人工智能
让 AI 智能体学会自我进化:Agent Lightning 实战入门
Agent Lightning 是一个框架无关的强化学习包装层,赋能现有AI智能体实现在线持续学习。它解耦执行与训练,支持LangChain/AutoGen等任意框架,通过VERL算法解决稀疏奖励难题,让智能体从运行反馈中自动优化提示词与策略。
230 5
让 AI 智能体学会自我进化:Agent Lightning 实战入门
|
1月前
|
弹性计算 小程序 固态存储
云服务器租用价格多少钱一年?用于搭建小程序费用清单,2026最新整理
2026年阿里云小程序服务器最新报价:入门级2核2G轻量服务器低至38元/年(含200M峰值带宽、50G系统盘),99元/年ECS经济型实例续费同价;香港地域25元/月起。覆盖GPU、按量付费及带宽/云盘明细,性价比高,适合个人开发者与中小企业快速部署小程序。
766 17
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
不卷通用大模型,网易AI的“错位”生存法则
网易AI战略简介(240字内): 马年红包大战烧钱45亿,网易却选择“避战”——不卷通用大模型,不砸钱抢流量。依托1400亿现金与年超177亿元研发,聚焦游戏、教育、音乐等垂类,打造“最懂游戏的AI专家”:AI覆盖90%美术流程、提效300%;《逆水寒》AI门客、《蛋仔》AI建模重塑交互;技术外溢至具身智能机器人、企业Agent及个人助理LobsterAI。务实走“应用先行—能力固化—场景外溢”路径,以实用主义破AI焦虑。
153 10
|
1月前
|
人工智能 弹性计算 自然语言处理
阿里云推出OpenClaw极简部署方案,一键创建专属AI助手!
阿里云OpenClaw是开源、本地优先的AI智能代理平台,支持自然语言指令执行文件处理、日程管理、跨平台操作等任务。提供极简一键部署方案,无需技术基础,7×24小时专属AI助手即刻上线。
365 5
|
1月前
|
人工智能 机器人 API
从“调个 API”到“自己养模型”:用 Python 快速构建聊天机器人的完整路径
从“调个 API”到“自己养模型”:用 Python 快速构建聊天机器人的完整路径
206 3
|
1月前
|
机器学习/深度学习 人工智能 算法
PPO算法全解:让AI“学步”更稳的强化学习秘诀
本文用“教孩子骑车”比喻,生动解析PPO算法如何通过“信任区域”约束与Clipping裁剪机制,实现稳定高效的强化学习。避开复杂数学,讲清其在RLHF、大模型对齐中的核心作用,并提供可运行代码与调参指南。(239字)