三个百万token窗口语义学分析之二：“撒网法” ——客观语义挖掘与主观预设的互补方法论-阿里云开发者社区

三个百万token窗口语义学分析之二：“撒网法”
——客观语义挖掘与主观预设的互补方法论

摘要
本研究为百万token窗口语义学分析系列的第二篇。在“垂钓法”（主观预设关键词）的基础上，采用“撒网法”——即全量词频统计、TF-IDF特征提取、LDA主题建模、层次聚类等无监督学习方法，对三个窗口的语义特征进行系统性识别。研究发现：（1）三个窗口在语义空间上完全分离，分别对应“技术基建期”“实验探索期”“框架构建期”，验证了垂钓法的窗口划分；（2）垂钓法预设的核心概念（元认知、框架、涌现、谬误分析、贝叶斯）均在窗口三显著激增，主观预设得到客观验证；（3）撒网法发现了“minimind”“memsearch”“支柱”等未预设的新词，揭示了主观预设之外的意外模式；（4）垂钓法与撒网法形成“主观预设—客观验证—新发现”的认知闭环，共同构成百万token窗口语义分析的完整方法论。本研究揭示了人机协同研究中客观数据与主观理解的辩证关系。
关键词：百万token窗口；撒网法；无监督学习；客观语义挖掘；主观预设验证

导言
1.1 从“垂钓”到“撒网”：方法论的内在逻辑
在系列第一篇“垂钓法”中，我们采用主观预设关键词的方法，基于项目内容构建七大类词汇，统计三个窗口的词频分布。这一方法的优势在于理论驱动、目标明确，能够快速捕捉研究者关心的核心概念。正如文中所述：“垂钓法”以“预设关键词集”为饵，从海量对话文本中“钓取”研究者关注的概念。
然而，任何主观预设方法都面临两个根本局限：其一，可能遗漏未知模式——研究者关心的概念未必是数据中最重要的概念；其二，依赖研究者的主观判断——不同研究者可能预设不同的关键词，导致结果差异。在方法论上，这是“理论驱动”研究固有的张力：理论聚焦带来深度，但也可能遮蔽视野。
“撒网法”正是对“垂钓法”局限性的回应。如果说“垂钓”是有目标地捕捉特定概念，“撒网”则是将整个语义空间一网打尽，让数据自己说话。这一方法不预设任何关键词，而是通过全量词频统计、特征提取、主题建模、聚类分析等无监督学习技术，客观地呈现数据的语义结构。
两种方法构成了人机协同研究中的一对基本张力：主观预设与客观发现。本文的核心命题是：这两种方法不是替代关系，而是互补关系。客观撒网为主观垂钓提供验证与扩展，主观垂钓为客观发现注入意义与解释。
1.2 研究问题
基于上述方法论定位，本文提出四个研究问题：

客观特征：三个窗口在语义空间上的分布特征是什么？（撒网法的回答）
主观验证：垂钓法预设的核心概念是否在客观数据中得到验证？（垂钓法与撒网法的对话）
意外发现：撒网法能发现哪些“垂钓法”遗漏的客观模式？（新发现）
方法论整合：主观预设与客观发现如何形成认知闭环？（方法论讨论）
1.3 论文结构
本文首先介绍数据来源与分析方法，强调无监督学习的客观性；然后呈现三部分结果——客观发现、主观验证、意外新发现；在此基础上讨论垂钓法与撒网法的互补关系，揭示人机协同认知的闭环机制；最后总结方法论的整合意义。

一、数据与方法
1.1 数据来源
本研究的数据来自三个百万token窗口的完整人机对话记录：
完整人机对话记录.png

三个窗口的内容构成具有连续性：窗口一为项目起始阶段，涉及环境工具配置与数据库构建；窗口二穿插了窗口特性实验研究；窗口三以项目框架构建与完善为主。
1.2 数据预处理
为保障分析质量，所有 .jsonl 文件经过以下预处理流程：

提取content字段：保留用户与AI的对话内容，去除元数据
文本清洗：保留中文字符、英文字母及空白符，过滤代码符号、路径、数字、标点
分词：使用 jieba 分词，加载自定义词典（基于垂钓法七大类关键词）
停用词过滤：使用合并后的通用停用词表，过滤高频无意义词
最低词频阈值：过滤出现次数 < 3 的词
1.3 分析方法
本研究采用三种无监督学习方法，从不同维度揭示数据的语义结构：

这三种方法共同构成“撒网法”的技术内核：
这三种方法共同构成“撒网法”的技术内核：
• TF-IDF 回答：每个窗口的“指纹”是什么？
• LDA 回答：每个窗口的“主题”是什么？
• 层次聚类回答：窗口之间“有多相似”？
1.4 与垂钓法的对比定位
为便于后续讨论，本节明确两种方法的方法论差异：
方法比较.png

两种方法的方法论定位决定了它们不是替代关系，而是互补关系——这正是本文论证的核心。

二、结果
2.1 客观发现一：三窗口的语义指纹（TF-IDF）
TF-IDF（词频-逆文档频率）是一种客观的特征提取方法：它不依赖任何预设，而是根据词在文档内外的分布自动计算每个词对文档的“重要性”。通过这种方法，我们提取了每个窗口的 Top 20 特征词，作为窗口的“语义指纹”。
[表1：三个窗口的 Top 20 特征词]
三窗口特征词.png

[图1：三窗口特征词词云对比]（各窗口的词云图见附录 B）

客观解读：
特征词解读.png

这一指纹无需任何主观预设，完全由数据自动生成。它们构成了后续分析的基础。
2.2 客观发现二：文档间的相似性（层次聚类）
层次聚类是一种无监督的相似性分析方法：它不依赖任何预设分类，而是根据文档的向量表示自动计算两两之间的距离，并将距离近的文档聚为一类。
[图2：三窗口层次聚类树状图]

树状图显示：
• window1 与 window3 在距离约 0.25 处合并
• window2 在距离约 0.35 处加入
客观解读：
• window1 与 window3 在语义空间上更相似——这与我们的主观认知一致：两者都涉及技术工程（窗口一的基建、窗口三的工具链）
• window2 相对独立——这也与主观认知一致：窗口二以窗口特性实验为主，与其他两个窗口的技术路径不同
值得注意的是，这一模式完全由数据驱动，无需任何主观预设。
2.3 客观发现三：主题自动识别（LDA）
LDA（隐狄利克雷分配）是一种无监督的主题建模方法：它假设每个文档由若干主题混合而成，每个主题由若干词的概率分布构成。LDA 不依赖任何预设，而是从数据中自动发现主题。
为了考察主题的稳定性，我们尝试了 k=3、5、7 三种主题数。结果显示，k=3 时主题区分最为清晰：
[表2：LDA 自动发现的窗口主题（k=3）]
三窗口top10词.png

[表3：文档-主题分布（k=7）]
文档-主题分布（k=7）.png

[图3：文档-主题分布热力图]

客观解读：
• 三个窗口在主题空间上完全分离，权重均高于0.97
• 这一分离无需任何预设——LDA 自动将三个窗口划分为三个独立的主题簇
• 这表明三个窗口在语义构成上存在质的差异，而非量的差异
2.4 主观验证：垂钓法预设词的客观检验
垂钓法预设了七大类关键词，包括核心概念（元认知、框架、涌现、谬误分析、贝叶斯）、项目领域（人文、心理、社会）等。这些预设词在客观数据中的分布如何？这是检验主观预设是否合理的关键。
[表4：预设词在三窗口的客观分布]
表4：预设词在三窗口的客观分布.png

[图4：核心概念词频演进折线图]

客观解读：
• 所有预设的核心概念均在窗口三显著上升
• 元认知、框架、涌现、谬误分析等核心方法论概念的增长倍数在 4-6.6 倍之间
• 社会、心理、人文三支柱在窗口三全面展开，人文增长 15.8 倍
• 这一分布与垂钓法的预设高度吻合：主观预期得到了客观验证
2.5 客观新发现：撒网法的意外收获
除了验证预设词，撒网法还发现了大量未在垂钓法中预设的新词。这些词在客观数据中显著出现，但未被研究者主观预设。
[表5：撒网法发现的未预设新词]
表5：撒网法发现的未预设新词.png

客观解读：
• 窗口三出现了“minimind”训练尝试——这是项目演进中未曾预设的实践
• 窗口二出现了“memsearch”记忆搜索实验——揭示了窗口特性研究的深度
• 窗口三“md”激增至 1953 次——表明项目框架的文档化程度远超预期
• “支柱”一词在窗口三激增至 1449 次——对应三支柱框架的成形
• 社会、心理、人文三支柱在客观数据中全面展开，确认了项目方向的演进
这些意外发现的共同特征是：它们超出了主观预设的框架，但恰恰是项目演进的客观记录。这正是撒网法的价值所在——发现研究者未曾预料、但数据中客观存在的模式。
三、讨论
3.1 客观发现与主观预设的对话
基于上述结果，我们可以将客观发现与主观预设进行系统对比：
客观发现与主观预设的对话.png

这一对话揭示了两种方法的互补关系：
• 客观验证主观：撒网法确认了垂钓法预设的核心概念确实在窗口三激增
• 客观扩展主观：撒网法发现了垂钓法未预设的新词，为主观理解提供新维度
• 客观细化主观：撒网法揭示了窗口二的具体实验内容（memsearch），使主观的“窗口特性实验”更为具体
3.2 客观发现的“意外模式”及其意义
撒网法发现的三类意外模式各有其方法论意义：
第一类：技术实践的意外涌现（minimind）
窗口三出现“minimind”训练尝试，这是垂钓法未预设的。这一发现的意义在于：它揭示了项目演进中的实践性探索——研究者不满足于使用大模型API，开始尝试本地训练小模型。这一模式超出了理论预设，但恰恰是项目客观演进的重要组成部分。
第二类：实验细节的客观揭示（memsearch）
窗口二出现“memsearch”一词 642 次，远高于其他窗口。垂钓法预设的“窗口特性实验”是一个笼统的概念，而“memsearch”揭示了实验的具体内容——记忆搜索实验。客观数据提供了主观预设无法达到的细节深度。
第三类：框架成形的数据印证（支柱、三支柱）
窗口三“支柱”一词激增 1449 次，社会、心理、人文三支柱全面展开。这些客观数据印证了项目从“技术基建”向“元认知框架”演进的路径——这一路径在主观层面已经感知，但客观数据提供了量化证据。

3.3 认知闭环：从主观预设到客观验证再到新发现
垂钓法与撒网法的互补关系，本质上构成一个认知闭环：
主观预设（垂钓法）
↓ 提出假设
客观撒网（撒网法）
↓ 验证/修正/发现
认知更新
↓ 指导下一轮预设
主观预设（更新后）
在这一闭环中：
• 垂钓法提出假设：元认知是窗口三的核心，三支柱是项目方向
• 撒网法验证假设：核心概念在窗口三激增，三支柱全面展开
• 撒网法发现新模式：minimind 训练、memsearch 实验
• 认知更新：研究者对项目的理解得以深化，可指导下一轮预设
这一闭环是人机协同认知的核心机制。机器（撒网法）提供客观数据，人（垂钓法）赋予意义；人的理解指导下一轮预设，机器的发现修正人的理解。
3.4 方法论意义：客观与主观的辩证统一
本文论证的核心命题是：客观挖掘与主观预设不是替代关系，而是辩证统一关系。
极端问题
纯主观（只有垂钓法）可能遗漏、偏见、不可复现；研究者只看到自己想看到的
纯客观（只有撒网法）缺乏意义、无法解读、只见数据不见人；数据本身不会说话
极端问题
纯主观（只有垂钓法）可能遗漏、偏见、不可复现；研究者只看到自己想看到的
纯客观（只有撒网法）缺乏意义、无法解读、只见数据不见人；数据本身不会说话

正确的路径是：

用客观方法发现数据的内在结构（撒网法）
用主观理解赋予结构以意义（垂钓法）
用新理解指导下一轮客观分析（认知闭环）
这正是“垂钓法”与“撒网法”互补的哲学基础。在更广泛的层面上，这一方法论适用于所有人机协同研究：机器负责“知道有什么”，人负责“理解是什么”；机器提供客观证据，人注入主观意义。
3.5 局限性与展望
本研究存在以下局限：
仅分析了三个窗口，未进行更细粒度的轮次分析
未区分用户与AI的用词差异
LDA 主题数选择存在一定主观性（尽管尝试了多个k值）
停用词表可能影响词频统计
这些局限将在后续“熔炉法”中得到弥补。熔炉法将结合 RAG 与知识图谱，将客观分析结果与主观理解深度融合，形成可查询、可推理的项目知识体系。

四、结论

客观发现：撒网法成功识别了三个窗口的语义指纹。TF-IDF 显示窗口一以“向量”“qian”为特征，窗口二以“token”“memsearch”为特征，窗口三以“md”“元认知”“社会”为特征；层次聚类显示窗口一与窗口三在语义上更相似；LDA 将三个窗口自动划分为三个独立的主题簇，权重均高于0.97。
主观验证：垂钓法预设的核心概念在客观数据中得到验证。元认知、框架、涌现、谬误分析、贝叶斯等核心概念均在窗口三显著激增，增长倍数在1.8-6.6倍之间；社会、心理、人文三支柱在窗口三全面展开，人文增长15.8倍。主观预期得到客观确认。
意外发现：撒网法发现了“minimind”“memsearch”“支柱”等未预设的新词。窗口三出现模型训练尝试（minimind），窗口二出现记忆搜索实验（memsearch），窗口三“支柱”一词激增至1449次——这些客观模式超出了主观预设，但恰恰是项目演进的客观记录。
方法论整合：垂钓法（主观预设）与撒网法（客观挖掘）形成“主观预设—客观验证—新发现”的认知闭环。这一闭环是人机协同认知的核心机制：机器提供客观证据，人赋予主观意义；人的理解指导下一轮预设，机器的发现修正人的理解。两种方法的辩证统一，共同构成百万token窗口语义分析的完整方法论。

参考文献

DeepSeek百万token窗口实践全记录
长窗口的“信噪比红利”：基于DeepSeek百万Token项目的三阶量化研究
跨窗口记忆迁移六种方法的系统对比与实证研究
tiktoken 对中文长文本的压缩率实证研究
基于 DeepSeek 百万 token 窗口的 3673 轮对话实录
DeepSeek 双百万 token 窗口对话数据的量化对比分析
方法学参考：
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet allocation. Journal of machine Learning research, 3(Jan), 993-1022.
Salton, G., & McGill, M. J. (1983). Introduction to modern information retrieval. McGraw-Hill.
（作者相关研究发布平台：
• CSDN博客：https://blog.csdn.net/T_Wang_Lab?type=blog
• 阿里云开发者社区：https://developer.aliyun.com/profile/ul4n4qhqvhsfe
• GitHub：https://github.com/tpwang-lab/tpwang-lab.github.io）
附录
A：数据处理代码（节选）

B：LDA 主题词完整表（k=3,5,7）
[表A1：LDA主题词（k=5）]
主题 Top 10 词
topic_1 向量、这个、qian、一个、下载、复制、模型、数据、问题、窗口
topic_2 zhongshu、stage、milvus、mem、postgres、民国、temperature、schema、折扣、xe
topic_3 zhongshu、stage、milvus、mem、postgres、民国、temperature、schema、折扣、xe
topic_4 窗口、模型、md、python、方法、元认知、py、数据、text、文本
topic_5 token、方法、窗口、模型、一个、问题、数据、脚本、这个、ai
[表A2：LDA主题词（k=7）]
主题 Top 10 词
topic_1 向量、这个、qian、一个、下载、复制、模型、数据、问题、窗口
topic_2 外挂、mem、volume、界限、文明、ms、读出来、developer、成员、绕开
topic_3 外挂、mem、volume、界限、文明、ms、读出来、developer、成员、绕开
topic_4 窗口、模型、md、python、方法、元认知、py、数据、text、文本
topic_5 token、方法、窗口、模型、一个、问题、数据、脚本、这个、ai
topic_6 外挂、mem、volume、界限、文明、ms、读出来、developer、成员、绕开
注：k=5 和 k=7 时出现主题重复，说明窗口二的主题构成较为复杂，最优主题数为 k=3。
[三窗口词云图]
窗口一