DeepSeek三个百万token窗口对话内容三步语义分析法的整合与智能体封装
摘要
从主观预设到客观挖掘,再到主客观统一——三步法(垂钓、撒网、熔炉)完成了百万token窗口语义分析的方法论闭环。本文展示了三步法的工程化封装:垂钓法、撒网法、熔炉法被封装为可复用的 Skills,通过半智能体调度器实现人在环中的流程控制。更重要的是,本文提出了“主观向量”的概念——将人的洞察(元认知、领域理解)量化为可注入、可迭代的向量形式,作为机器向量(RAG、知识图谱)的意义层。主观向量不仅是对三步法的完形,更是从“工具”到“伙伴”的关键一跃,为后续真实项目的深度分析奠定方法论基础。
关键词:三步法;语义分析;智能体封装;主观向量;人在环中;元认知可计算
导言
1.1 从三步法到智能体:方法论的演进
在系列前三篇文章中,我们分别提出了垂钓法(主观预设)、撒网法(客观挖掘)和熔炉法(主客观融合),完成了百万token窗口语义分析的方法论构建。垂钓法以预设关键词为饵,捕捉研究者关注的核心概念;撒网法以全量统计为网,让数据自己说话;熔炉法以RAG和知识图谱为炉,将客观数据与主观理解熔于一炉。
然而,这三步法停留在“方法”层面——每一步都需要手动执行,每一步都需要人工介入。这引出了本文的核心问题:如何将三步法从“方法”转化为“工具”,再从“工具”转化为“智能体”?
1.2 本文工作
本文完成了三步法的工程化封装与智能体化改造:
- Skills封装:将垂钓法、撒网法、熔炉法封装为可复用的 Skill 模块,每个 Skill 有明确的输入输出和可调参数
- 半智能体调度器:构建 Orchestrator 协调三个 Skill 的执行,实现人在环中的流程控制(步骤选择、参数调整、结果审阅)
- 主观向量接口预留:提出“主观向量”概念,定义数据格式,预留注入接口,为后续将人的洞察(如元认知)注入机器向量奠定基础
1.3 文章结构
本文首先回顾三步法的核心内容,然后介绍Skills封装与智能体调度的实现,接着提出主观向量的概念框架,最后讨论方法论的意义与后续工作展望。
一、三步法回顾
1.1 垂钓法:主观预设
垂钓法基于研究者的理论预设,构建七大类关键词(环境/工具、操作/技术、项目领域、文档类型、项目核心词、对话特征、错误与纠错),统计三个窗口的词频分布。
核心产出:各窗口词频表、三窗口对比表
人在环中节点:预设词选择、结果审阅
1.2 撒网法:客观挖掘
撒网法采用无监督学习方法,不依赖任何预设,全量统计词频、提取TF-IDF特征词、进行LDA主题建模和层次聚类。
核心产出:特征词表、LDA主题词表、聚类树状图
人在环中节点:参数设置(min_freq、n_topics)、结果审阅
1.3 熔炉法:主客观融合
熔炉法将对话按轮次分块,向量化后构建RAG向量库(FAISS),同时提取高频概念构建知识图谱(NetworkX),实现RAG与图谱的联合查询。
核心产出:FAISS向量索引、知识图谱、中心度分析、社区发现
人在环中节点:分块策略选择、概念阈值设置、图谱审阅
二、Skills封装与智能体调度
2.1 Skills封装设计
每个Skill封装为一个Python类,具有统一的接口:

[图1:Skills 封装架构图]
2.2 半智能体调度器(Orchestrator)
Orchestrator 是三步法的调度中枢,功能包括:
- 统一调度:按顺序或按需执行三个 Skill
- 人在环中:执行前询问是否继续,执行后暂停供审阅
- 参数传递:将用户输入的参数分发给对应的 Skill
- 历史记录:记录每次执行的输入、输出和结果
[图2:Orchestrator 调度流程图]
2.3 人在环中的实现
人在环中体现在三个层次:

[图3:人在环中交互流程图]
三、主观向量:从工具到伙伴
3.1 客观向量与主观向量的区分
客观向量是“数据之形”,主观向量是“意义之魂”。机器可以告诉我们“所谓”出现了多少次,但只有人能告诉我们“所谓”为什么重要。
3.2 主观向量的层次
广义主观向量:人在环中的基本形态——三步法中的每一次参数设置、结果审阅、流程选择,都是主观向量的体现。人的判断被编码为机器可执行的指令。
狭义主观向量:人机理解的桥梁——人的洞察、念头、想法被量化为可注入、可迭代的向量形式,让机器不仅“执行指令”,更能“理解意图”。
3.3 主观向量的数据格式
我们定义了三种主观向量类型:
[图4:主观向量数据格式示例]
3.4 主观向量的双载体功能
主观向量是双向桥梁:人把自己的理解“告诉”机器(通过注入),机器把这种理解“内化”为能力(通过训练)。
3.5 元认知作为主观向量的意义
元认知框架(谬误分析、贝叶斯、涌现)本身就是宏观的主观向量:
当这些元认知能力被量化为向量注入系统,机器将从“被动生成”走向“主动推理”——不仅能回答问题,更能表达不确定性、识别认知边界、发现隐含模式。这是从“工具”到“伙伴”的关键一跃。
四、讨论
4.1 三步法的方法论意义
三步法完成了语义分析的完整闭环:垂钓法提出假设(主观),撒网法验证假设(客观),熔炉法融合主客观(统一)。这种“主观预设—客观验证—主客观统一”的范式,可迁移到任何文本分析任务。
4.2 智能体封装的价值
Skills封装与Orchestrator调度,将三步法从“方法”转化为“工具”,再从“工具”转化为“半智能体”。人在环中的设计,确保人的判断始终在场,避免“机器替代人”的异化。
4.3 主观向量的前瞻性
主观向量不仅是三步法的完形,更是从“可计算”走向“可理解”的关键。它让机器不再是冷冰冰的统计工具,而是承载人的洞察、延伸人的思考的认知伙伴。元认知框架的量化和注入,将开启“主动推理”的新可能。
4.4 局限性与展望
目前工作的局限主要包括:智能体调度器为“半智能体”,尚未实现自然语言意图理解; 主观向量的效果有待真实项目的检验。下一步将在项目预定的具体文本处理上,构建有规则的主观向量注入法,并实现完整的智能体,实现自然语言交互和自主规划
五、结论
- Skills封装:将垂钓法、撒网法、熔炉法封装为可复用的Skill模块,实现了三步法的工程化
- 半智能体调度:构建Orchestrator协调三个Skill的执行,实现人在环中的流程控制和参数调整
- 主观向量接口:提出主观向量概念,定义数据格式,预留注入接口,为后续将人的洞察注入机器向量奠定基础
- 方法论完形:三步法从“方法”到“工具”再到“半智能体”的演进,完成了从主观预设、客观挖掘到主客观融合的方法论闭环
参考文献
- DeepSeek百万token窗口实践全记录
- 长窗口的“信噪比红利”:基于DeepSeek百万Token项目的三阶量化研究
- 跨窗口记忆迁移六种方法的系统对比与实证研究
- tiktoken 对中文长文本的压缩率实证研究
- 基于 DeepSeek 百万 token 窗口的 3673 轮对话实录
- DeepSeek 双百万 token 窗口对话数据的量化对比分析
- 三个DeepSeek百万token窗口对话内容的语义学分析之一:垂钓法
- 三个百万token窗口语义学分析之二:“撒网法”——客观语义挖掘与主观预设的互补方法论
- 三个百万token窗口语义学分析之三:“熔炉法”——RAG与知识图谱的融合构建
技术参考: - Johnson, J., Douze, M., & Jégou, H. (2019). Billion-scale similarity search with GPUs. IEEE Transactions on Big Data, 7(3), 535-547. (FAISS)
- Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence embeddings using Siamese BERT-networks. Proceedings of EMNLP.
- Blondel, V. D., Guillaume, J. L., Lambiotte, R., & Lefebvre, E. (2008). Fast unfolding of communities in large networks. Journal of statistical mechanics.
(作者相关研究发布平台:
• CSDN博客:https://blog.csdn.net/T_Wang_Lab?type=blog
• 阿里云开发者社区:https://developer.aliyun.com/profile/ul4n4qhqvhsfe
• GitHub:https://github.com/tpwang-lab/tpwang-lab.github.io)
附录
A. Skills 封装代码结构(节选)
B. 主观向量数据格式定义(节选)
C. 人在环中交互示例(节选)