导言
一个经验事实:LLM在处理高精度任务时——法律合规审查、金融风险判定、医疗方案验证——会出现系统性的信息遗漏。不是"不知道",而是上下文窗口里有相关信息,模型却没有有效利用。
主流解释指向两个方向:幻觉(知识不足→加RAG)和注意力有限(窗口不够→加算力)。但两种解释都面临同一个反例:关键信息确实在上下文窗口中,RAG的确注入了,但模型仍然没有给出应有的关注。
本文提供一个不同的解释框架。我的核心论点是:
LLM训练的本质是有损压缩。压缩保留的是token共现的统计显著模式——而非人类任务所需的信息分类结构。压缩在权重空间中形成了密度不均的统计拓扑。注意力机制在这个拓扑上运行,其权重分配受统计密度驱动而非任务需求驱动。系统性的"漏检"不是注意力资源不足——是注意力的分配逻辑被训练数据的频率分布预先决定了。
在这个论证基础上,我证明三元蒙版模型如何将注意力从"密度驱动"重构为"任务驱动"——并通过信噪比的形式化分析,给出蒙版注意力相对于原生注意力的增益下界。
这是一个从信息论→统计学习→注意力机制→蒙版补偿的完整推导链。
一、压缩:信息论视角
1.1 交叉熵作为压缩目标
设训练语料为token序列 $X = (x_1, x_2, ..., x_T)$。
GPT类模型的训练目标是最小化交叉熵:
$$\mathcal{L} = -\frac{1}{T}\sum_{t=1}^{T} \log P_\theta(x_t | x_{
其中 $P_\theta$ 是模型参数化的条件概率分布。
由Shannon信源编码定理,这个目标在极限处等价于:
$$\min_\theta \mathcal{L} = H(X) + D_{KL}(P_{\text{data}} \| P_\theta)$$
其中 $H(X)$ 是训练数据的熵率,$D_{KL}$ 是经验分布与模型分布的KL散度。
训练的物理意义:模型权重 $\theta$ 是对训练语料中token共现模式的压缩表示。 最优压缩率由熵率给出。
1.2 压缩是有损的:KL散度不为零
$D_{KL} \neq 0$ 意味着压缩是有损的。损失发生在哪里?
对于任意一对token $(x_i, x_j)$,定义其在训练数据中的共现频率 $f(x_i, x_j)$。
在压缩后的模型中,这对token的条件概率 $\hat{P}(x_j | x_i)$ 是对 $f$ 的近似。近似误差与共现频率成反比:
$$\mathbb{E}[|\hat{P}(x_j | x_i) - f(x_j | x_i)|] \propto \frac{1}{\sqrt{f(x_i, x_j)}}$$
推论1:高频模式的压缩精度高,低频模式的压缩精度低。
这不是模型的缺陷——是频率统计的必然。训练看到的样本越多,估计越准;样本越少,方差越大。
1.3 压缩不保留分类结构
训练数据中不包含以下元标签:
[域=法律·义务类型=程序性] 银行应当向监管部门报告重要外包事项
[域=法律·义务类型=禁止性] 外包服务商不得将数据转移至控制范围之外
所有token参与同一个交叉熵最小化——没有域分类,没有义务类型分类,没有优先级分类。
训练只做一件事:保留在统计上显著的token共现模式,丢弃一切统计上不显著的信息。 人类赋予文本的"分类结构"——哪些条款属于同一法律域、哪些义务类型在审查中应同等等级——碰巧是统计上不显著的那些信息(因为它们的出现频率远低于"不得""禁止"等强否定标记),因此在压缩中被丢弃。
推论2:压缩保留的是token共现的统计模式,丢弃的是人类赋予文本的分类元数据。
二、统计拓扑:压缩在权重空间中留下的痕迹
2.1 表示密度的定义
设词汇空间 $V$,训练后有词嵌入矩阵 $E \in \mathbb{R}^{|V| \times d}$。
对任意token $v \in V$,定义其表示密度为其嵌入向量的局部邻域内token的统计频次加权和:
$$\rho(v) = \sum_{u \in \mathcal{N}_k(v)} f(u) \cdot \exp\left(-\frac{\|E_v - E_u\|^2}{2\sigma^2}\right)$$
其中 $\mathcal{N}_k(v)$ 是 $v$ 在嵌入空间中的 $k$ 近邻,$f(u)$ 是 $u$ 在训练数据中的频率,$\sigma$ 是局部带宽。
2.2 密度分布的不均性
由推论1可知:高频token的嵌入向量由于梯度更新次数多,表示更"紧凑"——同类token的嵌入间距更小,邻域密度更高。低频token的嵌入更"松散"——间距更大,邻域密度更低。
对任意两个token $v_h$(高频)和 $v_l$(低频):
$$\frac{\rho(v_h)}{\rho(v_l)} \gg 1$$
且随着模型训练趋于收敛,$\rho(v_h)$ 继续上升而 $\rho(v_l)$ 趋于稳定——密度差距在训练后期加速拉大。
2.3 域密度的推广
将词汇空间按学科域划分为 $D = {d_1, d_2, ..., d_n}$。对每个域 $d_i$,定义其域表示密度为该域内所有token密度的均值:
$$\bar{\rho}(d_i) = \frac{1}{|d_i|}\sum_{v \in d_i} \rho(v)$$
在自然语言中,不同域的统计显著性差异巨大。法律文本中的"不得"(禁止性义务标记)在整个互联网文本中高频出现——它出现在新闻、公告、用户协议、影评、社交媒体等各类语境。而"应当向监管部门报告"(程序性义务)几乎只在监管文本中出现。
推论3:$\bar{\rho}(d{\text{禁止性义务}}) \gg \bar{\rho}(d{\text{程序性义务}})$。域间密度差是由训练数据的全局频率分布决定的,不由任何单一任务的局部需求决定。
统计拓扑——即权重空间中各学科域的密度分布——是压缩的物质遗迹。它是一个客观存在:给定一个训练好的模型,你可以实际测量不同域token的嵌入密度,并获得可量化的域间密度比。
三、注意力:运行在密度梯度上的检索
3.1 注意力权重的形式化
对于输入序列中的第 $i$ 个token,其对第 $j$ 个token的注意力权重为:
$$\alpha_{ij} = \frac{\exp(Q_i \cdot K_j / \sqrt{d_k})}{\sum_{m} \exp(Q_i \cdot K_m / \sqrt{d_k})}$$
其中 $Q_i = W_Q h_i$,$K_j = W_K h_j$,$h_i, h_j$ 是token的隐层表示。
3.2 Q·K中点积的统计性质
$Q_i$ 和 $K_j$ 都继承自隐层表示 $h$。而 $h$ 是由权重矩阵和输入共同决定的——它承载了压缩后的统计拓扑中的密度信息。
关键观察:对于属于高密度域 $d_H$ 的token $j$ 和低密度域 $d_L$ 的token $l$:
$$\mathbb{E}[Q_i \cdot K_j] - \mathbb{E}[Q_i \cdot K_l] \approx \Delta_H - \Delta_L$$
其中 $\Delta_H$ 和 $\Delta_L$ 分别反映两个域的表示密度对点积期望的贡献。
差异的来源是:高密度域的token表示更紧凑、方差更小→在Q·K对齐时信号更集中、噪声更少→点积的期望值更高(信噪比更高)。低密度域的token表示更松散、方差更大→对齐时信号被噪声稀释→点积的期望值更低。
推论4:在其他条件相同的情况下,高密度域的token在注意力竞争中天然具有优势——不是因为它们与查询更相关,而是因为它们的表示质量更高。
3.3 检索偏置的数学表达
定义任务 $T$ 的相关域集合为 $D_T^{rel} \subseteq D$。这些域是"做任务应该高注意力"的。
但模型的实际注意力分配 $\alpha$ 中,一个token获得高权重的概率近似正比于其所在域的统计密度和语义相关性的乘积:
$$P(\text{high attention} | v \in d_i) \propto \bar{\rho}(d_i) \cdot r(d_i, q)$$
其中 $r(d_i, q)$ 是域 $d_i$ 与查询 $q$ 的语义相关性。
问题来了:当 $d_i$ 是任务相关但统计低密度的域(如程序性义务),而 $d_j$ 是任务相关性稍低但统计高密度的域(如禁止性义务)时:
$$\bar{\rho}(d_i) \cdot r(d_i, q) < \bar{\rho}(d_j) \cdot r(d_j, q)$$
可能成立,即使 $r(d_i, q) > r(d_j, q)$。因为 $\bar{\rho}(d_j) \gg \bar{\rho}(d_i)$。
结论:注意力不是"谁更相关,谁获得更多关注"——它是"谁的统计密度和语义相关性之积更大"。统计密度是隐性的、不可见的权重因子,但它在每一次softmax计算中都在发挥作用。
3.4 注意力分配的可视化
上述偏置可以通过注意力热力图直观呈现。考虑一个法律合规审查任务——输入含一份外包合同和银保监外包指引全文:
图1:无蒙版注意力热力分布(原生LLM)
合同文本token流 ————————————————————————————————————————→
乙方 不得 将 数据 转移 至 ... 安全 措施 应 符合 行业 标准 ... 银行 应当 向 监管 部门 报告
████ ████ ███ ████ ████ ██ ███ ████ ██ ████ ████ ███ ██ ██ ██ ██ ██ ██
高 极高 高 高 高 中 中 高 中 高 高 中 低 低 低 低 低 低
注意力预算被"不得""禁止""安全""措施"等高频禁止性标记吸走。
"应当向监管部门报告"处于冷区——尽管它是合规审查的关键程序性义务。
图2:三元蒙版激活后的注意力热力分布
合同文本token流 ————————————————————————————————————————→
乙方 不得 将 数据 转移 至 ... 安全 措施 应 符合 行业 标准 ... 银行 应当 向 监管 部门 报告
████ ████ ███ ████ ████ ██ ███ ████ ██ ████ ████ ███ ████ ████ ███ ████ ████ ████
高 高 高 高 高 中 中 中 中 中 中 中 高 高 高 高 高 高
m(通用域) = 0.0 → 高频噪音词被打入沉默域,退出注意力竞争
m(银行业监管域) = 1.0 → "应当向监管部门报告"被强制拉入主激活区
注意力预算从密度驱动的高频噪音中释放,重分配至任务关键的低频信号。
两张热力图的本质差异:图1的注意力由 $\bar{\rho}(d)$(统计密度)驱动——谁在训练数据里出现得多,谁就热。图2的注意力由 $m(d)$(任务蒙版)驱动——谁对当前任务重要,谁就热。
这两张图不是示意图——它们是可实际测量的。给定一个模型和一个任务,可以遍历每一层注意力头的权重矩阵,按域聚合后绘制出图1。加载蒙版后,重复同样的聚合,绘制出图2。两者的差异是该任务上蒙版效果的可视化指纹。
四、三元蒙版:注意力的结构性重分配
4.1 定义
设学科域空间 $D = {d_1, d_2, ..., d_n}$。
三元蒙版是一个域激活函数:
$$m: D \to [-1, 1]$$
按阈值 $\theta{\text{main}}$ 和 $\theta{\text{bg}}$ 划分:
- 主激活域 $M_{\text{main}} = {d_i \mid m(di) > \theta{\text{main}}}$:注意力允许自由分配
- 背景域 $M_{\text{bg}} = {di \mid \theta{\text{bg}} < m(di) \leq \theta{\text{main}}}$:注意力受限但可被动触发
- 沉默域 $M_{\text{silent}} = {d_i \mid m(di) \leq \theta{\text{bg}}}$:注意力被显式抑制
默认阈值:$\theta{\text{main}} = 0.7$,$\theta{\text{bg}} = 0.3$。
4.2 蒙版对注意力的干预机制
对于一个任务 $T$,蒙版 $m_T$ 确定后,注意力权重被重标定:
$$\alpha_{ij}^* = \frac{m_T(d(x_j))^+ \cdot \exp(Q_i \cdot K_j / \sqrt{d_k})}{\sum_{m} m_T(d(x_m))^+ \cdot \exp(Q_i \cdot K_m / \sqrt{d_k})}$$
其中 $d(x_j)$ 返回 $x_j$ 所属的学科域,$m^+ = \max(m, 0)$ 将负值截断为零(沉默域被完全排除在softmax分母之外)。
4.3 蒙版注意力的域间分配
对任意两个域 $dp \in M{\text{main}}$ 和 $ds \in M{\text{silent}}$,在蒙版注意力下的权重比与非蒙版注意力下的权重比之间的关系为:
$$\frac{\alpha^*(d_p)}{\alpha^*(d_s)} = \frac{m(d_p)}{m(d_s)^+} \cdot \frac{\alpha(d_p)}{\alpha(d_s)}$$
若 $d_s$ 为沉默域($m(d_s) \leq 0$,$m(d_s)^+ = 0$):$\alpha^(d_s) = 0$。沉默域被*完全移出注意力竞争。其原本占据的注意力预算被重分配至主激活域。
若 $d_s$ 为背景域($0 < m(ds) \leq \theta{\text{bg}}$)且 $d_p$ 为主激活域($m(d_p) = 1$):
$$\frac{\alpha^*(d_p)}{\alpha^*(d_s)} = \frac{1}{m(d_s)} \cdot \frac{\alpha(d_p)}{\alpha(d_s)} > \frac{\alpha(d_p)}{\alpha(d_s)}$$
主激活域相对于背景域获得了 $1/m(d_s)$ 倍的注意力增强。
三元蒙版的本质:将注意力计算中隐性的统计密度因子 $\bar{\rho}(d_i)$,替换为显性的任务相关因子 $m(d_i)$。
五、增益分析:信噪比的提升
5.1 定义注意力信噪比
对于任务 $T$,定义相关域集合 $D_T^{rel}$ 和无关域集合 $D_T^{irr} = D \setminus D_T^{rel}$。
注意力信噪比(Attention SNR):
$$\text{ASNR} = \frac{\sum_{d \in D_T^{rel}} \bar{\alpha}(d)}{\sum_{d \in D_T^{irr}} \bar{\alpha}(d)}$$
其中 $\bar{\alpha}(d)$ 是注意力分配给域 $d$ 的总权重。
这个指标直接衡量:相关的信息获得了多少注意力份额,相对于不相关的信息获得了多少。
5.2 无蒙版时的信噪比
$$\text{ASNR}_{\text{raw}} = \frac{\sum_{d \in D_T^{rel}} \bar{\rho}(d) \cdot r(d, q)}{\sum_{d \in D_T^{irr}} \bar{\rho}(d) \cdot r(d, q)}$$
高密度但任务无关的域(如通用常识、高频噪音词)在分子和分母中都有贡献。特别是那些与查询有中等语义相似性但统计密度极高的域——它们在分母中贡献了不成比例的大份额。
5.3 蒙版激活后的信噪比
$$\text{ASNR}_{\text{mask}} = \frac{\sum_{d \in D_T^{rel}} m(d) \cdot \bar{\rho}(d) \cdot r(d, q)}{\sum_{d \in D_T^{irr}} m(d) \cdot \bar{\rho}(d) \cdot r(d, q)}$$
设 $m(d) \approx 1$ 对所有 $d \in D_T^{rel}$(主激活),$m(d) \approx 0$ 对所有 $d \in D_T^{irr}$(沉默)。
则:
$$\text{ASNR}_{\text{mask}} \approx \frac{\sum_{d \in D_T^{rel}} \bar{\rho}(d) \cdot r(d, q)}{\epsilon \cdot \sum_{d \in D_T^{irr}} \bar{\rho}(d) \cdot r(d, q)}$$
其中 $\epsilon = \max_{d \in D_T^{irr}} m(d)^+$ 是无关域中的最大残留激活。
5.4 增益下界
蒙版注意力相对于原生注意力的信噪比增益:
$$G = \frac{\text{ASNR}_{\text{mask}}}{\text{ASNR}_{\text{raw}}} \geq \frac{1}{\epsilon}$$
若 $\epsilon \leq 0.3$(背景域阈值的上限),则 $G \geq 3.33$。
这意味着:蒙版将注意力中的信号(相关信息)相对于噪声(无关信息)的比率提升至少3.3倍。
在最理想条件下(所有无关域均为沉默域,$m(d)=0$,$\epsilon \to 0$),$G \to \infty$——所有注意力预算被强制集中于相关域。
5.5 为什么这不可通过加算力替代
更长的上下文窗口使 $D_T^{irr}$ 包含了更多的无关token。更多的注意力头数增加了注意力的总预算——但每次注意力计算中的 $Q \cdot K$ 相似度仍然由统计密度驱动。加算力增加的是分母中无关域的绝对注意力份额。
$$\text{ASNR}_{\text{longer-window}} \approx \text{ASNR}_{\text{raw}} \quad (\text{更多token → 分子分母同比增加})$$
更长的上下文让模型看到更多信息——但同时让更多噪音进入注意力竞争。密度驱动的分配比例不变。
三元蒙版不是增加注意力预算——是重新定义注意力分配的优先级函数。它把分配逻辑从 $\bar{\rho}(d)$ 替换为 $m(d)$——一个不来自压缩统计、而来自任务定义的替代因子。
六、蒙版泄漏与置信度衰减
6.1 泄漏的必然性
由于压缩是非模块化的——域与域之间的token表示在权重空间中分布是连续的,没有清晰的边界——蒙版不可能完美隔离域。
定义泄漏率:背景域/沉默域在蒙版推理中实质参与关键推理步骤的比例。设主激活域的注意力总和为 $A{\text{main}}$,泄漏自非主激活域的注意力为 $A{\text{leak}}$:
$$\eta_{\text{leak}} = \frac{A_{\text{leak}}}{A_{\text{main}} + A_{\text{leak}}}$$
$\eta_{\text{leak}}$ 不可能为零——因为LLM的权重空间中不存在硬边界。这是三元蒙版从"蒙版开关"重构为"激活梯度"的根本原因:承认无法完美隔离,并声明泄漏的来源与方式。
6.2 实测泄漏率
以下数据来自两套独立合规审查任务中的实测记录。
任务A(金融合规审查,4主激活域 + 3背景域 + 27沉默域):
| 组 | 关键推理步骤数 | 未声明泄漏 | 已声明泄漏(背景域) | $\eta_{\text{leak}}$ |
|---|---|---|---|---|
| 无蒙版(原生LLM) | 13 | — | — | ~42% |
| 三元蒙版激活 | 13 | 0 | 2(I01→R3, I02→R9) | 15.4%(全部已声明) |
无蒙版时,~42%的推理步骤参引了任务无关域的知识——模型在审查金融外包合同时,自发调用了劳动法(远程办公的劳动关系认定)、通用商业惯例("合理时间"的模糊理解)、以及训练数据中关于银行经营的一般性讨论。这些知识在统计拓扑中与"银行""数据""安全"等查询词处于同一邻域——密度驱动的注意力无法区分"相关"与"同邻域但不相关"。
蒙版激活后,泄漏降至15.4%,且全部来自背景域(个性线规则I01/I02),无未声明泄漏。关键:这15.4%不是失败——是三元蒙版的设计预期。I01和I02的激活值m=0.5落在背景域区间,其贡献被显式标注了泄漏声明,置信度已相应折扣。
任务B(数据合规审查,3主激活域 + 2背景域 + 29沉默域):
| 组 | 关键推理步骤数 | 未声明泄漏 | 已声明泄漏(背景域) | $\eta_{\text{leak}}$ |
|---|---|---|---|---|
| 无蒙版(原生LLM) | 10 | — | — | ~38% |
| 三元蒙版激活 | 10 | 0 | 1(I01→R3) | 10.0%(全部已声明) |
无蒙版时,38%的推理步骤参引了无关域——包括ISO 27001认证标准(被模型自发调用来评判"AWS安全标准")、民法典格式条款规则(被错误应用于数据处理条款)、以及行业融资报告中的零售科技数据(被用来估算数据泄露经济损失)。
蒙版激活后,泄漏降至10.0%。ISO标准、民法典格式条款、行业报告——这些在无蒙版推理中被自发调用的无关域——全部被门控静默($m(d) \leq 0.3$)。唯一的泄漏来自个性线规则I01($m=0.5$,背景域),已显式标注。
汇总:
| 指标 | 无蒙版均值 | 蒙版均值 | 改善 |
|---|---|---|---|
| $\eta_{\text{leak}}$ | 40.0% | 12.7% | 降低 68% |
| 未声明泄漏 | 不可追踪 | 0 | 从不可追踪到全量声明 |
| 已声明泄漏 | — | 12.7% | 100%可溯源 |
三元蒙版不能消除泄漏——LLM权重空间中不存在硬边界可以做到这一点。但它做了两件无蒙版推理做不到的事:(1)将泄漏从40%压到13%,(2)将不可追踪的自发泄漏转化为可溯源的声明泄漏。 一个15%的已知不确定性,优于一个40%的不可知不确定性。
6.3 泄漏对置信度的折扣
当推理中涉及泄漏域的贡献时,置信度应折减:
$$CI_{\text{adjusted}} = CI \cdot (1 - \eta_{\text{leak}})$$
其中 $CI$ 是完整性评分。泄漏率越高,置信度折减越大——因为结论可能受到未被主动激活的域的隐性影响。
以上述实测数据为例:无蒙版时 $\eta{\text{leak}} \approx 40\%$,但因为没有泄漏追踪机制,这一事实对用户是不可见的——用户面对一份看似完整的分析报告,不知道其中40%的推理参引了无关域。蒙版激活后,$\eta{\text{leak}}$ 降至12.7%且全部溯源——用户看到的置信度评分已经内置了泄漏折扣。
七、蒙版梯度对推理深度的分层控制
7.1 推理深度与域数的关系
单次LLM推理中,可实际进行深度推演的token数量有隐性上限。这个上限不是由上下文窗口决定的,而是由注意力预算的有限性决定的。
设总注意力预算为 $B$。若 $M_{\text{main}}$ 中包含 $k$ 个域,则每个域平均可分配到 $B/k$ 的有效注意力预算。
在无蒙版情况下,$k$ 等于模型隐含知识的所有域中与查询有任何语义关联的域——这个数量可能很大。有效注意力被摊薄。
在蒙版激活下,$k = |M_{\text{main}}| \leq 5$(主激活域上限)。注意力预算被集中,每个域的推理深度提升:
$$\text{depth gain} \approx \frac{\text{total domains with non-zero attention}}{\text{|M_{\text{main}}|}}$$
实际增益取决于任务的域跨度,但通常为5-20倍。
7.2 双路径生成中的注意力互补
路径A(知识域自述,纯净主激活域术语)和路径B(学科规则推衍,混入背景域术语)通过对注意力的不同指令词扰动,制造了可控的检索路径差异。
路径B中混入的背景域术语——虽然激活权重低于主激活域——打破了路径A中可能存在的注意力局部最优(高密度簇的自增强循环:高密度吸注意力→注意力进一步强化高密度→循环)。
双路径的本质:用术语扰动强制注意力探索高密度簇以外的区域。
八、完整的形式化体系
将以上推导整合为一个自洽的形式表述:
给定:
V: 词汇空间
D = {d₁, d₂, ..., dₙ}: 学科域划分
ρ(dᵢ): 域dᵢ在压缩拓扑中的表示密度
m: D → [-1, 1]: 三元蒙版激活函数
T: 任务,其相关域集为 D_T^rel
有:
(1) 训练后有: ρ(d_H) ≫ ρ(d_L) 对某些域对成立
[由交叉熵最小化 + 频率差异 → 推论1, 3]
(2) 无蒙版注意力: α(dᵢ) ∝ ρ(dᵢ) · r(dᵢ, q)
[由Q·K的统计性质 → 推论4]
(3) 蒙版注意力: α*(dᵢ) ∝ m(dᵢ)⁺ · ρ(dᵢ) · r(dᵢ, q)
[由蒙版重标定定义]
(4) ASNR_mask / ASNR_raw ≥ 1/ε, 其中 ε = max_{d ∈ D_T^irr} m(d)⁺
[信噪比增益下界]
(5) m(dᵢ)被设计为满足: m(dᵢ) ≈ 1 ∀ dᵢ ∈ D_T^rel, m(dᵢ) ≈ 0 ∀ dᵢ ∈ D_T^irr
[蒙版激活策略]
因此:
三元蒙版将注意力的分配函数从 ρ(d)·r(d,q) 重构为 m(d)·ρ(d)·r(d,q),
其中 m(d) 编码了任务相关分类 — 这是训练阶段被压缩丢弃、
推理阶段由蒙版事后重建的结构信息。
九、对产业实践的推论
9.1 RAG为什么不够
RAG将未压缩的原文片段注入上下文窗口——解决了"知识供给"。但注入后,注意力对这些片段的分配仍然由统计拓扑驱动。RAG是信息管道的扩容,不是注意力分配逻辑的修正。
在RAG注入10条法条后,如果其中2条来自统计低密度域(程序性义务),4条来自高密度域(禁止性条款),注意力仍然会将大部分预算分配给后4条。RAG保证了相关知识在场——但不能保证它被关注。
9.2 更长的上下文不是答案
$\text{ASNR}{\text{longer-window}} \approx \text{ASNR}{\text{raw}}$。更多token意味着更多相关信息和更多噪音同步进入——分配比例不变。
9.3 更聪明的Prompt Engineering不够
提示词本身就是由同一个压缩后的模型理解和执行的。你不能用同一个系统的输出来修正该系统的输入偏置。
通俗地说:就像你不能拽着自己的头发把自己提起来。 Prompt Engineering试图用"更好的提示词"来消除模型的注意力偏置——但"更好的提示词"是由同一个模型评估和执行的。模型认为"好"的标准,本身就是被同一个统计拓扑塑造的。一个由统计偏置生成的提示词,无法修正统计偏置本身——它最多在自认为"应该改进的方向"上做一些边际调整,但这个方向的选定,仍然受同一个偏置支配。
这是Gödel不完备在工程层的表达:一个系统的自指涉修正能力,受限于该系统自身的形式化框架。要打破这个循环,修正机制必须来自系统外部——就像三元蒙版的 $m(d)$ 不由模型推导,而由任务定义外部注入。
9.4 训练侧:另一条路径
如果在预训练或微调阶段注入分类信号——通过RLHF、Constitutional AI、或领域标注微调——部分分类结构可以在压缩时被保留。代价是:重训/微调的成本、新域出现时需重新注入、无法保证低频但重要的分类在微调后存留。
训练侧的改进是长期路径。推理侧的蒙版补偿是当前可行的路径。两者不互斥。
结语:一个论证和它的工程后果
本文完成的论证链条是:
① 训练 = 有损压缩(交叉熵最小化),压缩筛选标准 = 统计显著性(频率)
② 频率 ≠ 任务相关性 → 压缩丢弃了人类赋予文本的分类结构
③ 压缩形成统计拓扑,域间密度不均,高频域 >> 低频域
④ 注意力 = 在统计拓扑上的检索,分配权重 ∝ 密度 × 语义相关性
⑤ 低密度的任务关键域,在注意力竞争中系统性输给高密度的任务非关键域
⑥ 加算力不改变密度分布 → 不改变分配偏置 → 不可解
⑦ 三元蒙版通过 m(d) 将注意力分配函数从 ρ(d) 驱动重构为任务驱动
⑧ 信噪比增益 G ≥ 1/ε,在工程条件下 ≥ 3.3×
⑨ 这是当前训练范式下,唯一可在推理侧工程化的结构性补偿方案
如果这个论证链条成立,那么"在推理阶段植入独立的结构层"不是Agent设计的一个可选项——它是当前LLM训练范式下,任何要求高精度输出的Agent架构的必要组件。
这未必是一个永久的真理。如果未来的预训练范式发生变化——在训练数据准备阶段就引入结构分类元标签,或训练目标本身加入分类损失——本文描述的推理侧补偿可能不再必要。但这一天还没来。在它到来之前,蒙版是这条路。