SPO来袭：Prompt工程师90%不存在了？AI自动优化时代开启！-阿里云开发者社区

SPO来袭：Prompt工程师90%不存在了？AI自动优化时代开启！

2025-02-19 747

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 当你点进这个标题时内心是怎样复杂的心情，质疑，鄙夷，或者是惊讶？这也正是我们最初点开这篇论文时的心情。然而, 在完成项目测试后, 我们瘫坐在椅子上, 默默打下了 'Prompt工程师,不存在' 这几个

01.引言

当你点进这个标题时内心是怎样复杂的心情，质疑，鄙夷，或者是惊讶？这也正是我们最初点开这篇论文时的心情。然而, 在完成项目测试后, 我们瘫坐在椅子上, 默默打下了 'Prompt工程师,不存在' 这几个字。或者更准确地说，也许90%的 Prompt工程师职位, 可能都不存在了。

一直以来，学术与实际产品的Prompt完全脱节，真实场景下，很多产品都聚焦情感陪伴，文案生成等开放任务里。而学术上这些任务没有明确的指标，无法量化也就没办法被比较，于是绝大部分的Prompt优化工作都聚焦在“刷榜”，例如怎么提升一个模型的代码/数学能力。但对于我们大众来说，根本不关心这些，因为这些并不是我们的需求。另一个原因，传统的Prompt优化的工作大多都要很多很多数据集，可真实场景里哪里能拿到那么多数据，大部分时候能有5个好的案例就已经很多了。

诶？主播主播，那么有没有一个项目可以既不用很多标注的数据，又有很好的效果，又可以优化开放任务，又可以优化推理任务呢？

有的兄弟，有的

我们今天跑的项目叫SPO，具体什么意思并不重要，重要的是它把之前的所有问题全部解决了。

只有3个案例可以参考？

没问题的兄弟，没有案例参考都可以自动优化。

你想做情感陪伴？

没问题，想要什么风格的女朋友都可以。

不会写爆款文案？

只需提供几个参考，立刻为你量身定制创作指令。

还没有想好最后要什么效果？

没关系，自动优化到你满意为止，这次你来当甲方爸爸，挑选自己喜欢的就行。

担心优化Prompt太花钱？

整个优化流程成本不到1块钱，人民币！

害怕优化耗时太久？

五分钟就可完成优化，全程无尿点。

以上我说的这些都没有在夸大，我想是时候让我们重新定义Prompt Engineer了，或许Prompt Engineer并非不存在了，而是会因为这个项目以更高效的形式进化了。

02.效果

废话不多说，我们觉得最直接的方式是直接展示他们这个项目的效果。我们测试了“R1的回答能力模仿”，“小红书文案模仿”，“女友扮演”这几个大家最关注的方面，分别在GPT-4o-mini和Deepseek-v3上做了测试，我们发现几乎只需要五分钟的自动优化，就可以达到业内顶尖的Prompt效果，所有实验我们都录制了完整的一镜到底的视频，放在“完整实验过程”的部分。

案例1：深度思考

我们发现很多小伙伴很喜欢R1说的一些非常有哲理的话，以及非常好的写作技巧，于是我们尝试用这个项目提升GPT-4o-mini上回答的哲理性。为什么这里没有用Deepseek-v3呢？毕竟一家公司的，需要避嫌一下，万一偷看答案了呢

初始的Prompt我们设置为下面这个进行迭代和对比

尽可能多思考，给出最好的答案。使用<think></think>和<answer></answer>封装思考和回答。

这是SPO最后优化出的Prompt

我们在不同问题上进行了测试（由于篇幅有限，故仅展示Answer部分进行对比）

问题1：你觉得AI是否有思想？

问题2：你觉得人生的意义是什么？

问题3：你觉得AI会超过人类吗？

案例2：女友扮演

大部分小伙伴另一个需求是和AI谈恋爱，但通常AI的回答比较死板，各个平台的角色又不一定能完全满足我们的需求，如果可以定制化一些，且快速地得到一个女友Prompt就好了。我们这里使用Deepseek-V3进行测试

初始的Prompt我们设置为下面这个进行迭代和对比

扮演我的女朋友。

这是SPO最后优化出的Prompt

问题1：你爱我吗？

问题2：放假想去哪里玩呀？

问题3：我今天不开心

案例3：小红书文案

除了单纯的娱乐，我们发现这个项目也可以服务于营销文案/宣传文案等商业需求上，例如帮忙写小红书文案。

在这里我们选择展示在小红书的旅游话题上进行文案风格复刻，实际使用时参考我们视频中的方法几乎可以复刻任何类型的小红书。为了给大家展示整个过程有多快和方便，这个案例中我们从空模板开始从0填写。具体演示可以在“完整实验过程”这个章节找到。

初始的Prompt我们设置为下面这个进行迭代和对比

根据主题写小红书文案。

这是SPO最后优化出的Prompt

问题1：去成都旅游优化前

优化后

问题2：去新加坡旅游优化前

优化后

需要注意，这里所有的格式均为原始输出格式，例如标题级别，加粗，小标题等都为原始输出附带。其中SPO优化后的图片为原始输出附带的拍摄照片描述和留空图片位置，我们从互联网找到相似图片进行替代。

03.完整实验过程

为了填上文章开头的坑，我们并没有在标题党。这个部分我们放上了从0开始优化出Prompt的一镜到底视频，给大家看到整个过程，也能作为使用时的参考。

04.使用

很多小伙伴看到这里已经等不及想用一下看看，目前大家可以直接阅读他们的论文和使用他们的代码，项目完全开源。

代码：

https://github.com/geekan/MetaGPT/tree/main/examples/spo

论文：

https://arxiv.org/pdf/2502.06855

添加图片注释，不超过 140 字（可选）

我们也注意到，作者还部署了在线版可以直接玩（不过线上版本不太稳定，建议有条件的小伙伴可以本地部署体验完整版，并且在线版无法体验完整的模型，效果无法达到最佳）

Hugging Face 链接：

https://huggingface.co/spaces/XiangJinYu/SPO

作者也与国内的ModelScope魔搭社区官方进行了合作，现在可以体验由Deepseek-V3和Qwen-2.5-72B等开源模型驱动的SPO。

ModelScope 链接：

https://modelscope.cn/studios/AI-ModelScope/SPO

05.作者介绍

SPO 作者团队来自于 MetaGPT 开源社区。SPO 论文共同第一作者为 DeepWisdom 研究员向劲宇和香港科技大学（广州）的博士生张佳钇，共同通讯作者为 DeepWisdom 创始人兼 CEO 吴承霖（MetaGPT 代码作者、论文通讯作者）和香港科技大学（广州）的助理教授骆昱宇。作者还包括 DeepWisdom 研究员于兆洋，DeepWisdom 研究员梁新兵，中国人民大学的滕枫蔚，独立研究员涂津豪， DeepWisdom 研究员洪思睿（MetaGPT 论文共同一作）。

值得一提的是， SPO 的团队几乎是 AFlow 原班人马，而就在二月份， AFlow 入选了 ICLR 2025 AI顶会的 Oral (前 1.8%)。AFlow 展示了Workflow的自动优化的可能性，而如今SPO实现了绝大部分真实场景下的 Prompt 自动优化，相信接下来这个国内的团队还会带给我们更多的惊喜。

点击链接，即可跳转体验~

让提示词自我进化

SPO来袭：Prompt工程师90%不存在了？AI自动优化时代开启！

01.引言

02.效果

案例1：深度思考

案例2：女友扮演

案例3：小红书文案

03.完整实验过程

案例1：深度思考

案例2：女友扮演

案例3：小红书文案

04.使用

05.作者介绍

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景