作为一名在读博士生,我在日常是如何与 AI 协作的?
前言:当同事,不当工具
我是一名人工智能方向的在读博士生,大概在 ChatGPT 出来以后还是 GPT-3.5 的时候就比较重度使用 AI 以及 AI 工具了。几年下来,AI 已经渗透到我工作和学习很多环节,有一些心得想分享一下~
当同事,不当工具(我认为至少未来几年,应该是人机协作的时代)
我的几个方法论,贯穿后文的所有场景:
元提示词思维:让 AI 写操纵 AI 的 Prompt,人做微调
苏格拉底追问:让 AI 从多角度逼问自己,把模糊的想法变清晰
多模型协作:不同任务用不同模型(后文会在各个场景展开)
经验沉淀:把流程固化为 Skill(Agent 中的术语)或 GPTs(Prompts 库),越用越快
一、日常使用:AI 作为随身顾问
划词工具栏
我现在主要用的是豆包的划词工具栏功能,它能在电脑全局实现划词唤醒。最方便的是支持自定义划词动作——比如我写了一个"概念解释器",划词后直接给出学术概念的通俗解释,省去了每次都要打开浏览器搜索的麻烦。市面上类似的工具还有夸克、飞书等提供的划词工具栏。更进阶的方案比如 Pot Desktop、Cherry Studio 支持自定义 API(可以接入更强的模型),但目前豆包对我来说够用了,等哪天能力不足再迭代。(如果有其他能够在电脑全局实现划词唤醒并支持自定义 API 的工具,大家可以多多推荐。)
我一般拿来做日常问答(有了 AI 以后感觉充满好奇心)以及翻译这些比较简单的事情。
OpenClaw
目前还在调,让 OpenClaw 和我的 CodeAgent 联动起来,把 OpenClaw 当成一个秘书。很喜欢佬友的 OpenClaw 使用经验,盗帖人太可恶了,大家多多举报!我还看到盗帖者在评论区维持人设来着——(被盗帖了!求助佬友!)OpenClaw 调教手册:从"能用"到"离不开" - 开发调优 - LINUX DO
大家在日常使用 AI 的时候可以刻意降低使用 AI 的摩擦力,让 AI 的入口尽可能贴近你的工作流。摩擦力越低,越愿意用,AI 能被挖掘出来的价值就容易越大。
二、科研文献阅读
我把文献阅读分成四个阶段:调研→筛选→精读→整合。
阶段一:课题调研
我主要用 OpenAI 的 Deep Research 做课题调研(个人认为比 Gemini 的 Deep Research 要好用),我会要求 AI 不仅提供最新文献,还必须包含该领域的开山之作。
我个人比较喜欢从历史脉络的时间线来分析,这时会有一些自己感兴趣的工作,可以标记收藏下来。
阶段二:文献网络分析(Literature Network Analysis)
找到几篇感兴趣的论文以后,借助 Paper Connect 等工具,可视化文献间的引用关系,快速判断研究热度与技术脉络。
做成适合 Agent 用的 Skill,调研的时候自动分析好文章的引与被引关系,和我交流这些文献,搞清楚这些文献之间的逻辑关系,最终自动下载相关论文以供后续引用或精读。如果某篇论文的引用网络图非常庞大,说明这个方向已经很"卷"了。反之,可能还是蓝海。
阶段三:确定精读 → 逐篇攻克
先与 Agent 商量,粗读论文,搞清楚当下研究到了什么样的一个地步,确定阅读顺序,去除无关或不感兴趣的论文。
精读环节,我会用两个模型配合:
Gemini 负责宏观视角:从 动机→数学建模→实验→结论→评述 五个角度分析一篇论文(这个格式也方便写周报,直接截图就行)
GPT 负责逐句精读:我做了一个专门的 Skill/GPTs,逐字逐句呈现原文,给出中文翻译和详细的"导师式解释",确保不遗漏论文中的任何细节
阶段四:知识整合
用 Zotero 管理文献,在原始 PDF 上增加笔记内容以及 HTML 页面(前面 Gemini 生成的),并 link 上当周的周报,形成一个闭环。
在使用的过程通过 Agent 的 Skill 打通各个环节,提升速度,带来复利。
三、关于科研绘图
我发现让模型去生成 Prompt 的水平远超我自己,尤其是科研绘图方面,让我自己描述我几乎完全描述不清楚。
科研绘图分为三类:第一是阐述论文思想的插图(Illustrations);第二是用于论文封面或学术主页的Teaser 图;第三是学术会议常用的Poster(海报),明白这些术语可以更好的操纵模型绘图。
插图(Illustrations):阐述论文思想的示意图
Teaser 图:在学术界,这通常指为一篇论文制作的高度浓缩、引人注目的视觉摘要,常见于顶级期刊的封面(Cover)或亮点介绍(Highlight)
Poster:学术海报,用于在会议上展示研究成果,要求信息密度高、逻辑清晰且视觉吸引力强
策略:让 AI 写操纵 AI 的 Prompt
我不会自己写图像生成的 Prompt——我会先让大语言模型理解我的论文内容,然后由它来创造和优化用于生成图像的详细 Prompt。具体来说:
把论文/想法丢给 AI,先问它在内容布局、配色、字体三个维度上如何规划
可以主动指定大风格,比如 “Nature/Science 风格”
一个很有效的技巧是使用参考图:把日常积累的优秀插图丢给 AI,让它分析风格,再基于你的论文内容生成新图像
一些实测对比
当前文生图模型在理解和呈现精确逻辑与符号方面的普遍短板。AI 可以很好地把握"概念",至少来说 Gemini 的理解效果很好。AI 工具目前还很难端到端地完美生成我们想要的科研绘图,整个过程需要不断迭代和"抽卡"。Gemini 的 Nano Banana 在风格迁移上比 GPT 好,但整体来说在文字渲染准确性上 GPT 更好。
多轮实验对比:
概念准确性与文字渲染: 在生成包含核心概念、图表和数学公式的图像时,GPT的表现远超对手。它能更准确地理解并呈现复杂的逻辑关系和符号(如 ≥),而nanobanana则频繁出错,文字和公式渲染质量很差。
生成速度: nanobanana的速度极快,几乎是即时出图;而 GPT则非常缓慢,有时需要数分钟才能完成。
风格模仿: 在模仿《Nature/Science》等顶级期刊的特定风格时,nanobanana在经过多次尝试(“多抽卡”)后,有时能产生在视觉风格上更逼真的结果,但内容准确性依然是短板。
复杂任务(Teaser图 & Poster): 在生成信息密度高、结构复杂的Teaser图和学术海报时,GPT再次展现压倒性优势。其生成的海报布局合理,文字内容基本准确,而nanobanana的版本则内容错乱,几乎不可用。
目前我还是把 AI 作为草图助手,出来草图以后尽可能让 Agent 帮我做出来 slides,然后我在 PPT 上微调。AI 绘图需要大量迭代和多次尝试。目前 AI 最适合的角色是作为创意激发和草图设计的助手,所有生成结果,尤其是涉及数据和逻辑的部分,必须经过严格的人工审核与修正。
四、Code Agent
工具演变
我最先接触 Code Agent 的是 Cursor,后面逐步进化到 Claude Code 与 Codex 这些。现在是 Claude Code、Codex、Gemini CLI 以及 OpenCode 四个一起用,通过 Claude-Code-Bridge(也就是常说的 CCB)来实现联动。但这些产品都还不够成熟,多 Agent 协作我还是拿来构思和写文档,写清楚以后交给 GPT-5.2 模型开 xhigh 模式,一步一步严格执行。通常就是睡一觉的功夫问题就解决好了。
复杂需求的处理流程
简单需求就不展开了。说说复杂需求怎么做(参考刘小排的经验):
- 先花数小时时间与多个模型讨论需求细节
把模糊的想法逐渐写清楚,能够落地。事实上我的很多个想法都是极其模糊的,可能我想的一两句话背后有十几个决策点需要关注。具体做法,我会先把一开始的需求同时发给四个 AI,让他们用自己的话术整理需求,然后向我提问,他们有一个共同的原则:宁可多探索 10 步,也不要问用户自己原本就可以找到的东西。
- 我不断回答各个 AI 提出的问题,AI 继续追问
这个过程要让 AI 多输出可视化的 ASCII 原型图,加深自己的理解。不断让 Claude 模型去整理各个会话的内容(Claude 的模型说的容易懂),不断迭代直到所有 AI 都认为当前的方案已经没有问题或者说问题可以忽略不计,最终交给 GPT 模型完成即可。
各个模型特点
GPT / Codex:比较严谨,速度比较慢,GPT-5.2 模型是我目前用的觉得是唯一一个能一丝不苟的干活的模型,但语言比较晦涩难懂。我主要用在编写代码以及 review 上。
Claude(Opus 4.6):表达能力强,速度快,工具调用各个能力都很优秀,但价格比较贵,不能随心所欲的用。
Gemini:前端能力很不错,综合能力也比较强,我主要就是拿来做前端的时候用,然后发散思维不错,有时候聊方案的时候会有意想不到的效果。
Grok:搜索能力很优秀,在审查上应该是最松的,有 NSFW 模式。
我最推荐的做法
多使用元 Prompt 或 Skill——比如造 Skill 的 Skill,把常用的工作流模板化
不会的多问 Agent——很多东西 Agent 可以给你讲懂,并且最终落实做出来可以用的东西。就不断迭代积累经验
多向社区学习——参考他人的经验,不断完善自己的工作流,让自己的 AI 越用越方便,让自己更擅长与 AI 协作