SPO来袭:Prompt工程师90%不存在了?AI自动优化时代开启!

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 当你点进这个标题时内心是怎样复杂的心情,质疑,鄙夷,或者是惊讶?这也正是我们最初点开这篇论文时的心情。然而, 在完成项目测试后, 我们瘫坐在椅子上, 默默打下了 'Prompt工程师,不存在' 这几个

01.引言

当你点进这个标题时内心是怎样复杂的心情,质疑,鄙夷,或者是惊讶?这也正是我们最初点开这篇论文时的心情。然而, 在完成项目测试后, 我们瘫坐在椅子上, 默默打下了 'Prompt工程师,不存在' 这几个字。或者更准确地说,也许90%的 Prompt工程师 职位, 可能都不存在了。

一直以来,学术与实际产品的Prompt完全脱节,真实场景下,很多产品都聚焦情感陪伴,文案生成等开放任务里。而学术上这些任务没有明确的指标,无法量化也就没办法被比较,于是绝大部分的Prompt优化工作都聚焦在“刷榜”,例如怎么提升一个模型的代码/数学能力。但对于我们大众来说,根本不关心这些,因为这些并不是我们的需求。另一个原因,传统的Prompt优化的工作大多都要很多很多数据集,可真实场景里哪里能拿到那么多数据,大部分时候能有5个好的案例就已经很多了。

诶?主播主播,那么有没有一个项目可以既不用很多标注的数据,又有很好的效果,又可以优化开放任务,又可以优化推理任务呢?

有的兄弟,有的

我们今天跑的项目叫SPO,具体什么意思并不重要,重要的是它把之前的所有问题全部解决了。

只有3个案例可以参考?

没问题的兄弟,没有案例参考都可以自动优化。

你想做情感陪伴?

没问题,想要什么风格的女朋友都可以。

不会写爆款文案?

只需提供几个参考,立刻为你量身定制创作指令。

还没有想好最后要什么效果?

没关系,自动优化到你满意为止,这次你来当甲方爸爸,挑选自己喜欢的就行。

担心优化Prompt太花钱?

整个优化流程成本不到1块钱,人民币!

害怕优化耗时太久?

五分钟就可完成优化,全程无尿点。

以上我说的这些都没有在夸大,我想是时候让我们重新定义Prompt Engineer了,或许Prompt Engineer并非不存在了,而是会因为这个项目以更高效的形式进化了。

02.效果

废话不多说,我们觉得最直接的方式是直接展示他们这个项目的效果。我们测试了“R1的回答能力模仿”,“小红书文案模仿”,“女友扮演”这几个大家最关注的方面,分别在GPT-4o-mini和Deepseek-v3上做了测试,我们发现几乎只需要五分钟的自动优化,就可以达到业内顶尖的Prompt效果,所有实验我们都录制了完整的一镜到底的视频,放在“完整实验过程”的部分。

案例1:深度思考

我们发现很多小伙伴很喜欢R1说的一些非常有哲理的话,以及非常好的写作技巧,于是我们尝试用这个项目提升GPT-4o-mini上回答的哲理性。为什么这里没有用Deepseek-v3呢?毕竟一家公司的,需要避嫌一下,万一偷看答案了呢

初始的Prompt我们设置为下面这个进行迭代和对比

尽可能多思考,给出最好的答案。使用<think></think>和<answer></answer>封装思考和回答。

这是SPO最后优化出的Prompt

我们在不同问题上进行了测试(由于篇幅有限,故仅展示Answer部分进行对比)

问题1:你觉得AI是否有思想?

问题2:你觉得人生的意义是什么?

问题3:你觉得AI会超过人类吗?

案例2:女友扮演

大部分小伙伴另一个需求是和AI谈恋爱,但通常AI的回答比较死板,各个平台的角色又不一定能完全满足我们的需求,如果可以定制化一些,且快速地得到一个女友Prompt就好了。我们这里使用Deepseek-V3进行测试

初始的Prompt我们设置为下面这个进行迭代和对比

扮演我的女朋友。

这是SPO最后优化出的Prompt

问题1:你爱我吗?

问题2:放假想去哪里玩呀?

问题3:我今天不开心

案例3:小红书文案

除了单纯的娱乐,我们发现这个项目也可以服务于营销文案/宣传文案等商业需求上,例如帮忙写小红书文案。

在这里我们选择展示在小红书的旅游话题上进行文案风格复刻,实际使用时参考我们视频中的方法几乎可以复刻任何类型的小红书。为了给大家展示整个过程有多快和方便,这个案例中我们从空模板开始从0填写。具体演示可以在“完整实验过程”这个章节找到。

初始的Prompt我们设置为下面这个进行迭代和对比

根据主题写小红书文案。

这是SPO最后优化出的Prompt

问题1:去成都旅游优化前

优化后

问题2:去新加坡旅游优化前

优化后

需要注意,这里所有的格式均为原始输出格式,例如标题级别,加粗,小标题等都为原始输出附带。其中SPO优化后的图片为原始输出附带的拍摄照片描述和留空图片位置,我们从互联网找到相似图片进行替代。

03.完整实验过程

为了填上文章开头的坑,我们并没有在标题党。这个部分我们放上了从0开始优化出Prompt的一镜到底视频,给大家看到整个过程,也能作为使用时的参考。

案例1:深度思考

https://live.csdn.net/v/464328

案例2:女友扮演

https://live.csdn.net/v/464329

案例3:小红书文案

https://live.csdn.net/v/464330

04.使用

很多小伙伴看到这里已经等不及想用一下看看,目前大家可以直接阅读他们的论文和使用他们的代码,项目完全开源。

代码:

https://github.com/geekan/MetaGPT/tree/main/examples/spo

论文:

https://arxiv.org/pdf/2502.06855

添加图片注释,不超过 140 字(可选)

我们也注意到,作者还部署了在线版可以直接玩(不过线上版本不太稳定,建议有条件的小伙伴可以本地部署体验完整版,并且在线版无法体验完整的模型,效果无法达到最佳)

Hugging Face 链接:

https://huggingface.co/spaces/XiangJinYu/SPO

作者也与国内的ModelScope魔搭社区官方进行了合作,现在可以体验由Deepseek-V3和Qwen-2.5-72B等开源模型驱动的SPO。

ModelScope 链接:

https://modelscope.cn/studios/AI-ModelScope/SPO

05.作者介绍

SPO 作者团队来自于 MetaGPT 开源社区。SPO 论文共同第一作者为 DeepWisdom 研究员向劲宇 和 香港科技大学(广州)的博士生张佳钇,共同通讯作者为 DeepWisdom 创始人兼 CEO 吴承霖(MetaGPT 代码作者、论文通讯作者)和香港科技大学(广州)的助理教授骆昱宇。作者还包括 DeepWisdom 研究员于兆洋,DeepWisdom 研究员梁新兵,中国人民大学的滕枫蔚,独立研究员涂津豪, DeepWisdom 研究员洪思睿(MetaGPT 论文共同一作)。

值得一提的是, SPO 的团队几乎是 AFlow 原班人马,而就在二月份, AFlow 入选了 ICLR 2025 AI顶会的 Oral (前 1.8%)。AFlow 展示了Workflow的自动优化的可能性,而如今SPO实现了绝大部分真实场景下的 Prompt 自动优化,相信接下来这个国内的团队还会带给我们更多的惊喜。

点击链接,即可跳转体验~

让提示词自我进化

目录
相关文章
|
11天前
|
机器学习/深度学习 人工智能 JSON
Resume Matcher:增加面试机会!开源AI简历优化工具,一键解析简历和职位描述并优化
Resume Matcher 是一款开源AI简历优化工具,通过解析简历和职位描述,提取关键词并计算文本相似性,帮助求职者优化简历内容,提升通过自动化筛选系统(ATS)的概率,增加面试机会。
77 18
Resume Matcher:增加面试机会!开源AI简历优化工具,一键解析简历和职位描述并优化
|
14天前
|
人工智能 API 语音技术
WhisperChain:开源 AI 实时语音转文字工具!自动消噪优化文本,效率翻倍
WhisperChain 是一款基于 Whisper.cpp 和 LangChain 的开源语音识别工具,能够实时将语音转换为文本,并自动清理和优化文本内容,适用于会议记录、写作辅助等多种场景。
567 2
WhisperChain:开源 AI 实时语音转文字工具!自动消噪优化文本,效率翻倍
|
18天前
|
存储 人工智能 API
SPO:如何优化提示词?大模型最懂如何优化自己!开源自监督提示词优化工具,让AI自主优化提示词
本文介绍由DeepWisdom与香港科技大学联合研发的SPO框架,通过自我监督机制实现大语言模型提示优化,仅需3个样本即可达到SOTA效果,优化成本降低至传统方法的1.1%-5.6%。
118 0
SPO:如何优化提示词?大模型最懂如何优化自己!开源自监督提示词优化工具,让AI自主优化提示词
|
18天前
|
数据采集 人工智能 编解码
算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家
BlueLM-V-3B是由vivo与香港中文大学共同研发的多模态大型语言模型,专为移动设备优化。它通过算法和系统协同优化,实现了高效部署和快速生成速度(24.4 token/s),并在OpenCompass基准测试中取得优异成绩(66.1分)。模型小巧,语言部分含27亿参数,视觉编码器含4000万参数,适合移动设备使用。尽管如此,低端设备可能仍面临资源压力,实际应用效果需进一步验证。论文链接:https://arxiv.org/abs/2411.10640。
38 9
|
20天前
|
人工智能 算法 Java
Java高级应用开发:AI赋能下的智能代码生成与优化
本文探讨了AI技术,特别是像DeepSeek这样的智能工具,在Java高级应用开发中的应用。AI在代码生成、优化、自动化测试等方面发挥重要作用,可自动生成高质量代码片段、提出优化建议并检测潜在错误,显著提升开发效率与代码质量。未来,AI将进一步推动Java开发的智能化和自动化,为开发者带来全新的开发体验。
|
20天前
|
人工智能 Java 数据处理
Java高级应用开发:基于AI的微服务架构优化与性能调优
在现代企业级应用开发中,微服务架构虽带来灵活性和可扩展性,但也增加了系统复杂性和性能瓶颈。本文探讨如何利用AI技术,特别是像DeepSeek这样的智能工具,优化Java微服务架构。AI通过智能分析系统运行数据,自动识别并解决性能瓶颈,优化服务拆分、通信方式及资源管理,实现高效性能调优,助力开发者设计更合理的微服务架构,迎接未来智能化开发的新时代。
|
23天前
|
人工智能 JSON PyTorch
TPO:告别微调!这个AI框架让大模型实时进化:无需训练直接优化,输入问题越用越聪明,输出质量暴涨50%
TPO(Test-Time Prompt Optimization)框架,通过奖励模型和迭代反馈优化大语言模型输出,无需训练即可显著提升性能,支持动态对齐人类偏好,降低优化成本。
180 8
TPO:告别微调!这个AI框架让大模型实时进化:无需训练直接优化,输入问题越用越聪明,输出质量暴涨50%
|
1月前
|
人工智能 程序员 测试技术
通义灵码2.0 AI 程序员体验:优化与问题解决的全过程
通义灵码2.0 AI 程序员体验:优化与问题解决的全过程 本文详细记录了使用通义灵码2.0智能编程助手的过程,涵盖项目初始化、界面优化、调试及与AI交互。通过实际操作,展示了其在代码生成、问题诊断和性能优化方面的强大功能。对比1.0版本,2.0在用户体验、智能化和问题解决上有显著提升,极大提高了开发效率。
134 1
通义灵码2.0 AI 程序员体验:优化与问题解决的全过程
|
2天前
|
Web App开发 人工智能 机器人
牛逼,这款开源聊天应用竟能一键召唤多个AI助手,跨平台通话神器!
`JiwuChat`是一款基于Tauri2和Nuxt3构建的轻量化多平台即时通讯工具,仅约8MB体积却集成了**AI群聊机器人**、**WebRTC音视频通话**、**屏幕共享**等前沿功能。一套代码适配Windows/macOS/Linux/Android/iOS/Web六大平台,堪称开发者学习跨端开发的绝佳样板!
|
7天前
|
人工智能 Kubernetes 安全
积极拥抱AI,F5携手NVIDIA赋能加速AI应用交付
积极拥抱AI,F5携手NVIDIA赋能加速AI应用交付
24 4

热门文章

最新文章