作为一名在读博士生,我在日常是如何与 AI 协作的

简介: 本文是一位AI方向博士生的AI协作实践手记:主张“当同事,不当工具”,提出元提示词、苏格拉底追问、多模型协同与经验沉淀四大方法论,覆盖划词问答、文献研读、科研绘图、代码开发等全科研场景,强调人机共生、流程提效与持续进化。

作为一名在读博士生,我在日常是如何与 AI 协作的?
前言:当同事,不当工具
我是一名人工智能方向的在读博士生,大概在 ChatGPT 出来以后还是 GPT-3.5 的时候就比较重度使用 AI 以及 AI 工具了。几年下来,AI 已经渗透到我工作和学习很多环节,有一些心得想分享一下~

当同事,不当工具(我认为至少未来几年,应该是人机协作的时代)

我的几个方法论,贯穿后文的所有场景:

元提示词思维:让 AI 写操纵 AI 的 Prompt,人做微调

苏格拉底追问:让 AI 从多角度逼问自己,把模糊的想法变清晰

多模型协作:不同任务用不同模型(后文会在各个场景展开)

经验沉淀:把流程固化为 Skill(Agent 中的术语)或 GPTs(Prompts 库),越用越快

一、日常使用:AI 作为随身顾问
划词工具栏
我现在主要用的是豆包的划词工具栏功能,它能在电脑全局实现划词唤醒。最方便的是支持自定义划词动作——比如我写了一个"概念解释器",划词后直接给出学术概念的通俗解释,省去了每次都要打开浏览器搜索的麻烦。市面上类似的工具还有夸克、飞书等提供的划词工具栏。更进阶的方案比如 Pot Desktop、Cherry Studio 支持自定义 API(可以接入更强的模型),但目前豆包对我来说够用了,等哪天能力不足再迭代。(如果有其他能够在电脑全局实现划词唤醒并支持自定义 API 的工具,大家可以多多推荐。)

我一般拿来做日常问答(有了 AI 以后感觉充满好奇心)以及翻译这些比较简单的事情。

OpenClaw
目前还在调,让 OpenClaw 和我的 CodeAgent 联动起来,把 OpenClaw 当成一个秘书。很喜欢佬友的 OpenClaw 使用经验,盗帖人太可恶了,大家多多举报!我还看到盗帖者在评论区维持人设来着——(被盗帖了!求助佬友!)OpenClaw 调教手册:从"能用"到"离不开" - 开发调优 - LINUX DO

大家在日常使用 AI 的时候可以刻意降低使用 AI 的摩擦力,让 AI 的入口尽可能贴近你的工作流。摩擦力越低,越愿意用,AI 能被挖掘出来的价值就容易越大。

二、科研文献阅读
我把文献阅读分成四个阶段:调研→筛选→精读→整合。

阶段一:课题调研
我主要用 OpenAI 的 Deep Research 做课题调研(个人认为比 Gemini 的 Deep Research 要好用),我会要求 AI 不仅提供最新文献,还必须包含该领域的开山之作。

我个人比较喜欢从历史脉络的时间线来分析,这时会有一些自己感兴趣的工作,可以标记收藏下来。

阶段二:文献网络分析(Literature Network Analysis)
找到几篇感兴趣的论文以后,借助 Paper Connect 等工具,可视化文献间的引用关系,快速判断研究热度与技术脉络。

做成适合 Agent 用的 Skill,调研的时候自动分析好文章的引与被引关系,和我交流这些文献,搞清楚这些文献之间的逻辑关系,最终自动下载相关论文以供后续引用或精读。如果某篇论文的引用网络图非常庞大,说明这个方向已经很"卷"了。反之,可能还是蓝海。

阶段三:确定精读 → 逐篇攻克
先与 Agent 商量,粗读论文,搞清楚当下研究到了什么样的一个地步,确定阅读顺序,去除无关或不感兴趣的论文。

精读环节,我会用两个模型配合:

Gemini 负责宏观视角:从 动机→数学建模→实验→结论→评述 五个角度分析一篇论文(这个格式也方便写周报,直接截图就行)

GPT 负责逐句精读:我做了一个专门的 Skill/GPTs,逐字逐句呈现原文,给出中文翻译和详细的"导师式解释",确保不遗漏论文中的任何细节

阶段四:知识整合
用 Zotero 管理文献,在原始 PDF 上增加笔记内容以及 HTML 页面(前面 Gemini 生成的),并 link 上当周的周报,形成一个闭环。

在使用的过程通过 Agent 的 Skill 打通各个环节,提升速度,带来复利。

三、关于科研绘图
我发现让模型去生成 Prompt 的水平远超我自己,尤其是科研绘图方面,让我自己描述我几乎完全描述不清楚。

科研绘图分为三类:第一是阐述论文思想的插图(Illustrations);第二是用于论文封面或学术主页的Teaser 图;第三是学术会议常用的Poster(海报),明白这些术语可以更好的操纵模型绘图。

插图(Illustrations):阐述论文思想的示意图

Teaser 图:在学术界,这通常指为一篇论文制作的高度浓缩、引人注目的视觉摘要,常见于顶级期刊的封面(Cover)或亮点介绍(Highlight)

Poster:学术海报,用于在会议上展示研究成果,要求信息密度高、逻辑清晰且视觉吸引力强

策略:让 AI 写操纵 AI 的 Prompt
我不会自己写图像生成的 Prompt——我会先让大语言模型理解我的论文内容,然后由它来创造和优化用于生成图像的详细 Prompt。具体来说:

把论文/想法丢给 AI,先问它在内容布局、配色、字体三个维度上如何规划

可以主动指定大风格,比如 “Nature/Science 风格”

一个很有效的技巧是使用参考图:把日常积累的优秀插图丢给 AI,让它分析风格,再基于你的论文内容生成新图像

一些实测对比
当前文生图模型在理解和呈现精确逻辑与符号方面的普遍短板。AI 可以很好地把握"概念",至少来说 Gemini 的理解效果很好。AI 工具目前还很难端到端地完美生成我们想要的科研绘图,整个过程需要不断迭代和"抽卡"。Gemini 的 Nano Banana 在风格迁移上比 GPT 好,但整体来说在文字渲染准确性上 GPT 更好。

多轮实验对比:

概念准确性与文字渲染: 在生成包含核心概念、图表和数学公式的图像时,GPT的表现远超对手。它能更准确地理解并呈现复杂的逻辑关系和符号(如 ≥),而nanobanana则频繁出错,文字和公式渲染质量很差。
生成速度: nanobanana的速度极快,几乎是即时出图;而 GPT则非常缓慢,有时需要数分钟才能完成。
风格模仿: 在模仿《Nature/Science》等顶级期刊的特定风格时,nanobanana在经过多次尝试(“多抽卡”)后,有时能产生在视觉风格上更逼真的结果,但内容准确性依然是短板。
复杂任务(Teaser图 & Poster): 在生成信息密度高、结构复杂的Teaser图和学术海报时,GPT再次展现压倒性优势。其生成的海报布局合理,文字内容基本准确,而nanobanana的版本则内容错乱,几乎不可用。
目前我还是把 AI 作为草图助手,出来草图以后尽可能让 Agent 帮我做出来 slides,然后我在 PPT 上微调。AI 绘图需要大量迭代和多次尝试。目前 AI 最适合的角色是作为创意激发和草图设计的助手,所有生成结果,尤其是涉及数据和逻辑的部分,必须经过严格的人工审核与修正。

四、Code Agent
工具演变
我最先接触 Code Agent 的是 Cursor,后面逐步进化到 Claude Code 与 Codex 这些。现在是 Claude Code、Codex、Gemini CLI 以及 OpenCode 四个一起用,通过 Claude-Code-Bridge(也就是常说的 CCB)来实现联动。但这些产品都还不够成熟,多 Agent 协作我还是拿来构思和写文档,写清楚以后交给 GPT-5.2 模型开 xhigh 模式,一步一步严格执行。通常就是睡一觉的功夫问题就解决好了。

复杂需求的处理流程
简单需求就不展开了。说说复杂需求怎么做(参考刘小排的经验):

  1. 先花数小时时间与多个模型讨论需求细节

把模糊的想法逐渐写清楚,能够落地。事实上我的很多个想法都是极其模糊的,可能我想的一两句话背后有十几个决策点需要关注。具体做法,我会先把一开始的需求同时发给四个 AI,让他们用自己的话术整理需求,然后向我提问,他们有一个共同的原则:宁可多探索 10 步,也不要问用户自己原本就可以找到的东西。

  1. 我不断回答各个 AI 提出的问题,AI 继续追问

这个过程要让 AI 多输出可视化的 ASCII 原型图,加深自己的理解。不断让 Claude 模型去整理各个会话的内容(Claude 的模型说的容易懂),不断迭代直到所有 AI 都认为当前的方案已经没有问题或者说问题可以忽略不计,最终交给 GPT 模型完成即可。

各个模型特点
GPT / Codex:比较严谨,速度比较慢,GPT-5.2 模型是我目前用的觉得是唯一一个能一丝不苟的干活的模型,但语言比较晦涩难懂。我主要用在编写代码以及 review 上。

Claude(Opus 4.6):表达能力强,速度快,工具调用各个能力都很优秀,但价格比较贵,不能随心所欲的用。

Gemini:前端能力很不错,综合能力也比较强,我主要就是拿来做前端的时候用,然后发散思维不错,有时候聊方案的时候会有意想不到的效果。

Grok:搜索能力很优秀,在审查上应该是最松的,有 NSFW 模式。

我最推荐的做法
多使用元 Prompt 或 Skill——比如造 Skill 的 Skill,把常用的工作流模板化

不会的多问 Agent——很多东西 Agent 可以给你讲懂,并且最终落实做出来可以用的东西。就不断迭代积累经验

多向社区学习——参考他人的经验,不断完善自己的工作流,让自己的 AI 越用越方便,让自己更擅长与 AI 协作

相关文章
|
26天前
|
人工智能 前端开发 网络安全
从 Clawdbot 到 OpenClaw:春节折腾一个月后的入门心得分享
本文是OpenClaw(龙虾)实战入门指南:涵盖Token获取(推荐CPA)、高质量模型渠道(anyrouter+Claude Opus)、VPS部署建议(2C4G裸机),及配置调优、多模态启用、模型组合策略(3Flash+Opus+Codex)、即时交互技巧等核心经验,助你高效玩转这一高定制化AI Agent。
|
26天前
|
人工智能 安全 图形学
OpenClaw(Clawdbot)阿里云+本地部署攻略:+Claude Code ECC、OMC插件兼容指南
在AI编程工具生态中,Claude Code的两大核心插件everything-claude-code(ECC)与oh-my-claudecode(OMC)以极强的互补性成为开发者首选:ECC聚焦工程质量,构建Rules规范体系与Agents专家团队,守住“90分质量门禁”;OMC主打工作流增强,凭借持久化记忆与多模型协作,实现“高效执行闭环”。但两者同时安装时的Agent命名冲突,成为困扰开发者的核心痛点。
1386 1
|
25天前
|
消息中间件 存储 NoSQL
Redis 十大经典使用场景 - Go 语言实战指南
本文详解 Redis 在 Go 中的 10 大核心应用场景:缓存、会话存储、限流、排行榜、消息队列、发布订阅、实时分析、分布式锁、地理位置、购物车,并提供完整可运行代码与最佳实践,助你高效构建高性能应用。(239字)
|
26天前
|
数据采集 存储 人工智能
阿里云为何要将数据采集开发套件开源
开源 LoongSuite ,成为 AI 可观测体系中的一块通用拼图。
193 14
|
26天前
|
人工智能 安全 前端开发
Team 版 OpenClaw:HiClaw 开源,5 分钟完成本地安装
HiClaw 基于 OpenClaw、Higress AI Gateway、Element IM 客户端+Tuwunel IM 服务器(均基于 Matrix 实时通信协议)、MinIO 共享文件系统打造。
9058 17
|
26天前
|
人工智能 自然语言处理 前端开发
告别Agent Skills, 拥抱 Agent Apps
在AI Agent时代,传统GUI为人类设计,而LLM缺乏视觉、双手与持续感知能力。AOTUI(面向Agent的文本界面)应运而生:以语义化Markdown替代像素渲染,用类型化引用(如`Contact:contacts[2]`)实现“选择”,以Tool函数调用替代鼠标操作,构建专为LLM优化的离散快照式交互范式。
237 9
|
2月前
|
人工智能 缓存 监控
重磅!Cursor确认现场出席D2并发表主题演讲:Cursor大规模agentic编程系统的工程实践
第20届D2大会重磅议题:Cursor核心工程师吴宇晨揭秘AI编程工程化实践——从单次补全到持续决策的Agentic系统,如何通过统一架构、多模型动态路由与延迟栈优化,实现毫秒级响应与百万级并发?现场首曝生产级性能黑科技!
864 18
|
26天前
|
人工智能 开发工具 数据安全/隐私保护
无需坐班写代码!OpenClaw(Clawdbot)阿里云/本地部署+GitHub自动化,手机遥控 AI 助手开发
“躺在床上动动手指,就让AI完成代码编写、效果预览、仓库提交”——这不是科幻场景,而是2026年OpenClaw(原Clawdbot)的常规操作。作为具备全流程开发能力的AI代理工具,OpenClaw能无缝衔接GitHub,实现“克隆仓库→需求开发→启动服务预览→提交代码”的一条龙服务,搭配飞书等移动交互渠道,真正做到“随时随地发指令,AI全程代劳开发”。
1327 1
|
27天前
|
人工智能 安全 应用服务中间件
3 分钟用 Docker 部署 CoPaw!你的专属AI个人助理
Copaw是AI个人助理领域新锐,支持多平台接入、本地/云端灵活部署及大模型无缝对接。本文提供Docker一站式部署指南,集成国内镜像加速,严格区分测试与生产环境配置,兼顾3分钟快速验证与企业级安全、高可用、可运维要求。
2780 4