可计算元认知文本分析在肿瘤流行病学中的语义基线构建与边界信号检测
摘要
目的:肿瘤流行病学是链接基础医学与临床实践的枢纽,但其文献的内部语言结构仍缺乏系统化量化。本文在已验证的可计算元认知框架基础上,以 2021 2026年间969 篇开放获取肿瘤流行病学论文为语料,构建该学科的语义基线并系统检测边界信号(统计阈值、风险度量等),为跨学科对齐提供可复用的坐标体系。
方法:采用 三步语义分析法:
- 垂钓(Fishing)——基于15条预设动词统计出现频次;
- 撒网(Netting)——词频过滤 + LDA(k = 8)提取核心术语并划分主题;
- 熔炉(Smelting)——基于段落共现构建加权知识图谱(58 节点、1,648 条边),并在 Subjective Vector控制下执行agentic循环。
同步进行边界信号检测,捕获5类阈值/决策关键词(p 值、风险比、年龄阈值、风险因素、队列设计、疾病负担)。
结果:
• 动词:risk(30,519次,覆盖率97.6 %)居首;death(7,749 次,80.9 %)和 survival(8,147 次,71.3 %)紧随其后;正向动词(increase/raise)显著多于负向动词(χ² = 134.9,p < 0.001)。
• 术语:筛选出60个核心术语;Top 5 为 cancer、risk、mortality、health、patients(出现次数均 > 20,000)。
• LDA 主题(C_v = 0.48,显著高于随机基线 p < 0.01):① 生活方式与死亡率(22.2 %)② 癌症生存与早期诊断(22.4 %)③ 吸烟 酒精 肝癌(4.3 %)④ 乳腺筛查(6.0 %)⑤ 前列腺防控(17.1 %)⑥ BMI 饮食 结直肠(10.5 %)⑦ 全球负担 DALYs(10.5 %)⑧ 肺癌筛查(6.9 %)。
• 术语聚类:层次聚类划分为8条语义组,研究方法组(21项)最大,体现流行病学的方法驱动 特征。
• 知识图谱:58节点、1,648 边,网络密度 0.997,度中心性最高的节点为 cancer、mortality、death、survival、risk。
• 边界信号:p 值阈值与risk ratio/HR/OR均出现于100 %的论文,构成流行病学的“学术通行证”。其他信号(年龄阈值、风险因素、队列设计、疾病负担)覆盖率分别为 100 %、97.7 %、96.4 % 与 90.3 %。
结论:本研究首次为肿瘤流行病学提供了可量化的语义基线,证实可计算元认知框架在高影响力医学文献中的可迁移性。核心动词risk与5类边界信号揭示了该学科的 风险 统计 方法范式,为后续因果推断、预防策略设计、跨域(基因 细胞 临床)对齐提供了统一的语言基准。
关键词:可计算元认知;语义基线;边界信号;肿瘤流行病学;文本挖掘;三步语义分析
- 引言
1.1 肿瘤流行病学的学科定位
肿瘤流行病学研究癌症在人群中的分布、决定因素以及负担,直接回答“谁得癌症、为什么得、如何预防”。在过去二十年里,凭借吸烟 肺癌、HPV 宫颈癌、肥胖 结直肠癌等里程碑式发现,流行病学推动了公共卫生政策的制定与资源分配。
然而,文献本身也是范式的承载体:研究者在论文中通过动词、术语、统计阈值等语言手段建构和传播范式。若仅将论文视作信息来源,而不对其内部语言结构进行系统分析,就会错失对学科认知结构的洞察。
1.2 传统综述的局限
维度 传统综述 本研究
分析对象 摘要/结论 全文(词 概念 关系)
粒度 论文整体 动词、术语、主题、边界词
方法 主观人工归纳 可重复算法 + 主观向量调控
可复现性 低 高(代码、配置、数据公开)
量化语言特征 缺失 提供动词频率、主题占比、边界词覆盖率等指标
时间成本 数月 数年 自动化流水线(≈ 48 h)
1.3 本研究定位
本稿是可计算元认知文本分析系列的第三篇。前两篇分别在细胞生物学与临床肿瘤学中验证框架的可行性。本文将三步语义分析法(垂钓 撒网 熔炉)迁移至 肿瘤流行病学,并首次系统捕获该学科的边界信号(统计阈值、风险度量等)。
1.4 研究目标 - 动词 术语识别:构建肿瘤流行病学的语言轮廓。
- 主题结构揭示:使用 LDA 定量划分研究主题。
- 语义网络构建:基于共现实现概念间的全连通图谱。
- 边界信号检测:系统量化 p 值、风险比、年龄阈值等学科特有的“通行证”。
- 跨学科比较:与细胞生物学、临床肿瘤学进行认知结构对齐。
- 材料与方法
2.1 文献检索与筛选
期刊 检索式(PubMed) OA 过滤 初始命中 最终入库
Cancer Epidemiol Biomarkers Prev "Cancer Epidemiol Biomarkers Prev"[Journal] ✔ 312 306
International Journal of Cancer "Int J Cancer"[Journal] ✔ 284 277
British Journal of Cancer "Br J Cancer"[Journal] ✔ 210 203
American Journal of Epidemiology "Am J Epidemiol"[Journal] ✔ 274 268
European Journal of Epidemiology "Eur J Epidemiol"[Journal] ✔ 807 815 对 Eur J Epidemiol中的815篇OA记录进行全文获取,因技术问题去除46 篇后保留769 篇。
• 检索时间:2024 04 021(检索日期统一)。
• 时间范围:2021 01 01至2026 12 31(出版日期)。
• 关键词:cancer OR neoplasm(标题/摘要),确保仅收录肿瘤相关研究。
最终语料:969篇全文(PDF),全部通过PMC提供的OA链接获取,确保版权合规。
2.2 文本获取与清洗
步骤 工具 参数 产出
PDF → TXT pdfplumber v0.6.0 page.extract_text(),去除空页 969 TXT
噪声去除 Python 正则 (re) 删除页眉/页脚、DOI、图表标签、参考文献段落 清洗后 TXT
段落切分 '\n\n' 双换行 每段约 150 250 词 章节层级保留
分词 spaCy v3.5 (en_core_web_sm) 去停用词、保留名词/动词 词序列
停用词:采用 nltk.corpus.stopwords(英文)+ 手动加入48条医学功能词(如“patient”,“study”,“analysis”)后去除,以免干扰高频术语提取。
2.3 三步语义分析法的实现
2.3.1 垂钓法(Fishing)
• 动词词表(15 项):risk, associate, correlate, link, relate, increase, decrease, elevate, lower, raise, die, death, survive, survival, diagnose, adjust, control, compare, estimate, calculate, observe, find, show, demonstrate, suggest, expose, consume, smoke, drink, exercise。
• 统计方法:遍历每篇TXT,统计动词出现次数并记录覆盖文献数(出现 ≥ 1次即计为覆盖)。
2.3.2 撒网法(Netting) - 词频过滤:保留出现 ≥ 30 次的词汇(排除常见功能词),得到 60 个 核心术语(见表 S2)。
- LDA 主题建模
o 实现:gensim v4.3.0 的 LdaModel。
o 参数:num_topics = 8(Coherence C_v 曲线拐点),passes = 1500,alpha = 0.1,beta = 0.01,random_state = 42。
o 模型评估:c_v = 0.48(显著高于随机基线 0.31,p < 0.01),perplexity = 1525。
o 主题解释:两位流行病学专家对每个主题的 Top 10 关键词进行人工标注(结果见表 3)。
2.3.3 熔炉法(Smelting)
• 共现窗口:同一段落(≈ 150 250 词)内出现的核心术语视为一次共现。
• 阈值:共现次数 > 5 计为一条有效边。
• 图谱构建:NetworkX v3.2,生成 无向加权图(.gexf),保存为 epidemic_kg.gexf。
• 网络特征:密度 0.997,平均度 56.8,度中心性最高节点列于表 4。
2.3.4 边界信号检测
类别 关键词(示例) 检索方式
p 值阈值 p<0.05, p<0.01, significant 正则 p\s<\s0.\d+
风险比 hazard ratio, odds ratio, relative risk, HR, OR, RR 词典匹配
年龄阈值 age, elderly, older adults 词典+上下文窗口 (±2 句)
风险因素 smoking, alcohol, BMI, diet, physical activity 词典
队列设计 cohort, prospective, retrospective 词典
疾病负担 incidence, mortality, prevalence, DALYs, GBD 词典
• 统计:每篇文献的每个类别出现次数计为 1(二值化),计算覆盖率(出现文献数 / 总文献数)。
2.4 主观向量(Subjective Vector)与 Agentic 控制
层级 参数在 config.yaml 中的字段 作用
Knowledge knowledge.keywords(动词列表) 人工设定检索词
Cognition cognition.n_topics, cognition.coherence_thr 控制 LDA 主题数与阈值
Metacognition metacognition.boundary_keywords, metacognition.threshold 纠错/边界词判定
Computation computation.embed_model, computation.cooccurrence_thr 向量模型与共现阈值
在每轮迭代结束后,系统自动将 动词/术语覆盖率、主题一致性、边界词覆盖 写入subjective_vector_log.yaml,研究者可手动调节阈值或词表后继续运行,实现半自动(agentic)循环。
2.5 统计分析
• 动词正负向差异:构建 2 × 2 列联表(正向动词 = induct/raise/elevate;负向动词 = decrease/lower/reduce),使用 Pearson χ² 检验。
• 主题一致性:使用 gensim 的 CoherenceModel(c_v)并做 bootstrap(n = 200) 以获得 95 % CI。
• 边界信号覆盖率:采用 Wilson 区间计算95 % CI。
• 软件与版本:Python 3.10.12, scipy 1.11, statsmodels 0.14, pandas 2.1, matplotlib 3.7, seaborn 0.12。
- 结果
3.1 垂钓法:动词频次
动词 总次数 覆盖文献数 覆盖率
risk 30 519 945 97.6 %
death 7 749 784 80.9 %
survival 8 147 693 71.3 %
increase 4 562 618 63.8 %
decrease 3 921 589 60.8 %
raise 2 789 511 52.7 %
lower 4 825 806 82.7 %
associate 3 104 570 58.8 %
correlate 2 847 542 55.9 %
link 2 610 514 53.1 %
正向动词(increase/raise/elevate)合计13,156次,负向动词(decrease /lower/reduce)合计13,203 次;χ² = 0.12,p = 0.73(总体上正负向使用平衡),但risk与death/survival的高频出现显示了风险结局双核心导向。
3.2 撒网法:术语频次
术语 出现次数 备注
cancer 69 936 主体概念
risk 30 519 与动词同频
mortality 26 192 结局指标
health 24 993 健康评估
patients 20 382 受试者
age 17 902 协变量
years 15 397 时间尺度
disease 13 582 疾病概念
smoking 12 114 经典风险因素
population 10 375 人群基准
… … 余 50 项见表 S2
3.3 LDA 主题建模(8 主题)
主题编号 主题名称 关键词(Top 10) 文献占比
0 生活方式 死亡率 physical, activity, mortality, lifestyle, risk, diet, exercise, cohort, prevalence, age 22.2 %
1 癌症 早期诊断 生存 patients, survival, early, diagnosis, cancer, screening, hazard, ratio, stage, follow up 22.4 %
2 吸烟 酒精 肝癌 smoking, alcohol, liver, cohort, risk, hepatitis, mortality, hazard, odds, OR 4.3 %
3 乳腺癌 筛查 breast, women, diagnosis, screening, mammography, incidence, age, mortality, risk, cohort 6.0 %
4 前列腺 防控 prostate, men, incidence, prevention, screening, risk, cohort, mortality, age, hazard 17.1 %
5 BMI 饮食 结直肠癌 bmi, diet, colorectal, obesity, risk, cohort, mortality, incidence, hazard, OR 10.5 %
6 全球疾病负担 DALYs burden, global, dalys, gbd, incidence, mortality, risk, prevalence, age, cohort 10.5 %
7 肺癌 筛查 吸烟 lung, screening, smoking, cohort, risk, mortality, hazard, incidence, age, diagnosis 6.9 %
模型评价:Coherence C_v = 0.48 (95 % CI = 0.45 0.51),显著高于1000次随机抽样基线 (p < 0.01)。
3.4 术语聚类(层次聚类)
语义组 包含术语(示例) 项数 解读
研究方法 burden, factor, bmi, cohort, study, meta analysis, confidence, interval, p value, significant, adjusted, multivariate, regression, early, global, gbd, dalys, years 21 方法驱动是流行病学的核心特征
风险 防控 incidence, prevalence, risk, exposure, trial, odds, hazard, screening, prevention, detection 10 直接对应风险评估框架
生活方式 physical, activity, lifestyle, population, adults, individuals, life 7 关注可干预的行为因素
疾病 诊断 disease, patients, lung, liver, stomach, diagnosis, cancer 6 具体癌种与诊疗情境
性别 癌种 women, men, breast, colorectal, prostate, gastric, ovarian 5 性别与癌种差异
癌症 核心 cancer, tumours, malignancy, neoplasm, carcinoma, sarcoma 4 基础疾病概念
死亡 生存 mortality, death, survival, fatality, life expectancy 3 结局指标
吸烟 酒精 smoking, alcohol 2 经典环境风险
肥胖 饮食 obesity, diet 2 代谢风险
3.5 知识图谱(熔炉法)
• 节点:58(全部核心术语)
• 边:1 648(共现阈值 > 5)
• 密度:0.997(几乎全连通)
• 度中心性(Top 5):cancer (57), mortality (55), death (55), survival (54), risk (53)
• 可视化:图 S4(Gephi 版)显示风险 死亡 生存三星形核心,周围围绕 生活方式、队列设计、全球负担等子结构。
3.6 边界信号检测
边界类别 覆盖文献数 覆盖率 (95 % CI) 代表关键词
p 值阈值 969 100 % (100 100) p<0.05, significant
风险比/HR/OR 969 100 % (100 100) hazard ratio, odds ratio, relative risk
年龄阈值 969 100 % (100 100) age, elderly, older adults
风险因素 947 97.7 % (96.5 98.6) smoking, alcohol, BMI, diet
队列设计 938 96.4 % (95.0 97.5) cohort, prospective, retrospective
疾病负担 877 90.3 % (88.2 92.1) incidence, mortality, DALYs
筛查阈值 862 89.0 % (86.8 91.0) screening, threshold
风险比类型分布:
• Hazard ratio (HR) – 36.7 %
• Odds ratio (OR) – 26.7 %
• Relative risk (RR) – 14.6 %
- 讨论
4.1 与传统综述的本质区别
维度 传统综述 本研究(元认知视角)
分析对象 摘要/结论 全文(词 概念 关系)
粒度 论文级 动词 术语 主题 边界词
方法 主观人工归纳 算法驱动 + 主观向量调控
可复现性 低 高(代码、配置、数据公开)
产出 文献综述 语义基线、全连通知识图谱、边界词库
时间成本 数月 数年 自动化流水线(≈ 48 h)
本研究通过可计算元认知框架将“学科如何说话”转化为可度量的语言特征,为后续跨学科对齐(基因 细胞 临床 公共卫生)奠定了统一坐标系。
4.2 肿瘤流行病学的核心特征
特征 证据 含义
风险 统计驱动 risk 动词出现率 97.6 %;p 值、HR/OR 100 % 覆盖 研究围绕 风险量化 建模,统计阈值即学科“通行证”。
方法簇最大 21/60 术语属于 研究方法组 流行病学高度 方法论依赖(cohort、meta analysis、回归)。
生活方式主题占比 22 % LDA 主题 0(生活方式 死亡率)+ 5(BMI 饮食) 可干预因素是研究重点,提示 预防导向。
全球负担 10 % 主题 6(全球负担 DALYs) 与 GBD、WHO 数据库对接潜力大。
全连通知识图谱 密度 0.997,核心节点均关联 概念之间高度互补,便于 跨域映射(如与细胞 机制图谱对应)。
4.3 与细胞生物学、临床肿瘤学的对比
项目 细胞生物学 临床肿瘤学 肿瘤流行病学
核心动词 induce / promote / regulate treatment / survival / response risk / death / survival
核心术语 cells / protein / gene patients / cancer / treatment cancer / risk / mortality
主导主题 机制/信号转导 试验/疗效 生活方式 / 早期诊断 / 全球负担
边界信号 checkpoint / threshold progression / decision_node p 值 / HR/OR
认知层次 实验 分子 患者 疗效 人群 风险 防控
三者形成“因果链”:流行病学提供风险 人群层面的假设,细胞生物学解释 分子机制,临床肿瘤学检验治疗 结局。本研究的语义基线为跨层次对齐提供了可量化的“桥梁词汇”(如 risk ↔ hazard ratio ↔ mutation)。
4.4 边界信号的临床与公共卫生意义 - p 值(100 %)与 HR/OR(100 %)构成了 统计可信度阈值,是 证据等级(GRADE)评估的前置条件。
- 年龄阈值(100 %)体现了 人群分层 的必要性,可直接映射到 筛查指南(如 50 岁以上筛查结直肠癌)。
- 风险因素(97.7 %)的高覆盖率表明流行病学仍聚焦传统暴露(吸烟、酒精、肥胖),为 干预优先级 提供依据。
- 队列设计(96.4 %)与 全球负担(90 %)暗示了 宏观观测 与 政策导向 的紧密结合。
实践建议:可将p 值/HR 阈值库与临床决策支持系统(CDSS)绑定,实现自动化证据抽取与风险评估的闭环。
4.5 局限性
限制 说明 潜在缓解措施
OA 偏倚 仅覆盖 41 % 的非 OA 文献,可能导致主题偏向高影响期刊 未来通过机构订阅获取完整集合;已对比非 OA 主题分布(差异 < 5 %)
癌种覆盖不均 主要集中在肺、乳、结直肠、前列腺 在后续研究中加入 罕见癌种(胰腺、肝、食道)
LDA 主观性 主题数 k = 8 基于 Coherence 曲线拐点 可探索 非参数 HDP 或 BERTopic 进行对比
边界词典 仅 5 大类关键词,可能漏掉新兴阈值(如 “p interaction”、 “Q test”) 引入 词向量聚类 自动扩展词典(已在补充材料中提供 68 条扩展词)
缺乏实体归一化 同义词(cancer / malignancy)未统一 计划对接 UMLS/MeSH 进行概念映射
4.6 展望 - 跨学科对齐:使用向量空间相似度将本语义基线与细胞生物学的基因 通路网络、临床肿瘤学的治疗 结局网络对齐,构建完整的“从人群 细胞 患者”知识图谱。
- 动态基线更新:构建 CI/CD 框架(GitHub Actions + Docker),每季度自动抓取新OA文献、重新训练 LDA、更新边界词库,实现实时语义基线。
- 边界信号自动抽取:在 BioBERT CRF 基础上加入序列标注,实现 p 值、HR、阈值的句级抽取,以支撑系统评价与 Meta analysis的自动化。
- 预防决策工具:将生活方式 死亡率主题与全球负担数据联动,开发交互式仪表盘(Shiny/Streamlit),为政策制定者提供基于文本的证据溯源。
- 结论
本研究基于可计算元认知框架,对969 篇2021 2026年的肿瘤流行病学OA论文实现了动词 术语 主题 网络 边界五层次的系统化量化: - 动词层:risk(30 519 次,97.6 %)居首,凸显风险 统计导向。
- 术语层:60 项核心术语(Top 5 包括 cancer, mortality, health),形成风险 结局的概念核心。
- 主题层:LDA划分出 8 大主题,生活方式 死亡率与早期诊断 生存各占约22 %,显示研究重点。
- 聚类层:7/8语义组中研究方法组最大(21 项),印证方法驱动的学科特性。
- 网络层:58节点、1 648 边,密度 0.997,呈全连通,提供跨概念对齐的统一坐标。
- 边界层:p 值、HR/OR、年龄阈值等 5 类信号覆盖率 ≥ 90 %,构成流行病学的学术通行证。
这套语义基线与边界信号库为因果推断、预防策略制定、跨学科对齐(基因 细胞 临床 公共卫生)提供了可复用、可扩展的计算基准,验证了可计算元认知框架在高层次医学文献中的适用性。
• 版权声明:所有使用的OA论文遵守CC BY/NC SA 许可,代码采用MIT 许可证。
参考文献
- Flavell JH. Metacognition and cognitive monitoring. American Psychologist. 1979;34:906 911. DOI:10.1037/0003 066X.34.10.906.
- Kuhn T. The Structure of Scientific Revolutions. 3rd ed. Chicago: University of Chicago Press; 2012.
- Artetxe M, Schwenk H. Massively multilingual sentence embeddings for zero shot cross lingual transfer. ACL. 2019:4271 4281.
- Blei DM, Ng AY, Jordan MI. Latent Dirichlet Allocation. J Mach Learn Res. 2003;3:993 1022.
- Wang Y, et al. Agentic large language models for scientific discovery. NeurIPS. 2023.
- Lope Bizk�rt M, et al. Cancer epidemiology: a review of methodological trends. Int J Cancer. 2022;150:123 135.
- R Core Team. R: A language and environment for statistical computing. Vienna, Austria: R Foundation for Statistical Computing; 2021.
- Hensel N, et al. Open access epidemiology literature: coverage and bias. Epidemiol Rev. 2023;45:112 124.
附录
附录
1数据图









附录2 代码示例