本文的上半部分简要介绍了起源于欧洲的CLEF会议和竞赛,以及今年CLEF竞赛的赛事安排。今年的CLEF竞赛包含16个赛道,各赛道的赛题已经公布。多数赛道的参赛报名截止于今年4月份;对竞赛结果的总结将于9月下旬在德国城市Jena(耶拿)召开的CLEF会议上进行[1]。
本文的上半部分还介绍了CLEF 2026竞赛的赛道之一:PAN。接下来将介绍CLEF 2026竞赛的另外两个赛道:FinMMEval和CheckThat!。
FinMMEval
针对金融领域NLP的评测目前大多使用的是单语种、单模态(纯文本)的数据,且仅针对情感分类、事实问答等少数几种任务进行评测。然而现实世界的金融信息不仅日益全球化,而且涉及跨语种新闻、监管报告、实时市场数据等多种模态。
FinMMEval赛道的创立,旨在综合评测金融领域的大语言模型在多语种、多模态环境下推理、泛化和决策的能力。为此,FinMMEval赛道设计了三个细分赛道(“Tasks”):金融考试问答(T1)、多语种金融问答(T2)、以及金融决策制定(T3)[2]。

FinMMEval三个细分赛道所涉及的语种;空心方框表示仅有测试数据[2]
T1、金融考试问答(Financial Exam Question Answering),采用CFA、CPA等金融资质的考试题向参赛模型提问,目的是评估参赛模型在金融概念理解和领域推理方面的能力;考试题均为多项选择题,评估参赛模型所采用的指标是考试题被正确回答的比例。
T2、多语种金融问答(Multilingual Financial Question Answering),要求参赛模型根据给出的英文财务报告(SEC 10-K或10-Q报告的节选)、以及与该财务报告相关的一组多语种新闻文章(语种包括英语、中文、日语、西班牙语和希腊语),针对提问的问题,以简要的方式作出回答,所作的回答必须有依据。提问的问题有两个难度级别:
- Easy级别——仅涉及事实类或数值趋势类的问题,例如收入的增长、现金流的异常等;
- Expert级别——涉及跨文档的推理,例如投资策略、资本配置等。
评估参赛模型时采用ROUGE-1作为主要指标,同时采用BLEURT以及事实一致性作为次要指标。
T3、金融决策制定(Financial Decision Making),要求参赛模型根据金融市场的历史价格、新闻、财报等数据,输出交易决策(Buy、Hold、Sell之一),并为所做的交易决策提供简短解释。涉及交易的金融产品包括比特币和特斯拉股票两种。
评估参赛模型时采用累计回报率(Cumulative Return) 作为主要指标,同时采用夏普比率(Sharpe Ratio)、最大回撤(Maximum Drawdown)、以及日波动率/年化波动率作为次要指标。
CheckThat!
CheckThat!作为CLEF的赛道之一,创立于2018年;该赛道的创立旨在促进事实核查技术的发展。
今年的CheckThat!赛道围绕多语种和网络内容的事实核查,设立了三个细分赛道(“Tasks”):网上科学声明的来源检索(T1)、数值和时间声明的核验(T2)、以及完整的事实核查文章的生成(T3)[3]。

事实核查中的关键环节、以及今年CheckThat!所设立的T1、T2、T3三个细分赛道[3]

今年CheckThat!的三个细分赛道所涉及的语种[3]
Task1、网上科学声明的来源检索(Source Retrieval for Scientific Web Claims)。网上有关科学问题的讨论往往缺乏具体的文献引用信息,有时仅含有诸如“根据XX大学的研究”等粗略描述。对于事实核查而言,找到一段声明(Claim)的来源出版物是重要的第一步。
“网上科学声明的来源检索”这一细分赛道要求参赛系统针对社交媒体上讨论科学话题的、但仅粗略提及参考文献的帖文(即未列出参考文献URL的帖文),从候选论文库中检索出被提及的论文。评测参赛系统所采用的指标是平均倒数排名@5(Mean Reciprocal Rank@5、MRR@5)。
Task2、数值和时间声明的核验(Fact-Checking Numerical and Temporal Claims)。尽管大语言模型(LLM)处理很多知识型任务的能力很强,其处理数值型推理的能力较弱,这就影响了LLM针对数值所进行的事实核查,例如针对不同货币所表示的金额的核查[4]。
近期发表的研究表明,Test-Time Scaling(TTS、测试时扩展)通过依靠多个推理路径,可以明显改善LLM处理数值型事实核查的能力[4]。因此,今年的“数值和时间声明的核验”细分赛道采用Test-Time Scaling的思路,为参赛模型提供了以下的输入数据:
- 待核查的、涉及数值或时间的声明(Claim)、
- 对应于每个声明的多个推理轨迹、
- 推理轨迹所对应的判断结果、
- 证据库。
该细分赛道要求参赛团队训练模型,然后基于训练后的模型对给出的多个推理轨迹进行排序,输出此排序,并根据此排序,产生最终的判断结果。对于参赛模型的评测不仅考查所输出的推理轨迹排序的准确性,也考查所产生的最终判断结果的准确性。
Task3、完整的事实核查文章的生成(Generating Full Fact-Checking Articles)。在事实核查中,撰写详细的事实核查报告涉及综合多种信息、撰写、以及多轮修改等工作,耗时费力,还需要确保报告的质量和准确性。
“完整的事实核查文章的生成”这一细分赛道主要考察事实核查报告的自动生成。参赛系统需要根据待核查的声明(Claim)、给出的核查结果、以及核查结果所依据的一组证据文件,生成完整的事实核查报告,其中包括证据引用信息。
对于生成报告的评测主要采用以下三个指标的均值:
Entailment分数——衡量生成的报告是否可以根据参考核查报告而推断(Entail)得出;
引用正确性——验证一段注明引用文献的文本是否可以根据所引用的证据而推断得出;
引用完整性——所提供的一组证据中有多大比例被正确引用。
除上述三个指标外,“写作质量”作为辅助指标,也被纳入对于生成报告的评测之中。
参考文献
[1] https://www.clef-initiative.eu/
[2] The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems
https://arxiv.org/abs/2602.10886
使用许可协议:CC BY 4.0
https://creativecommons.org/licenses/by/4.0/
[3] The CLEF-2026 CheckThat! Lab: Advancing Multilingual Fact-Checking
https://arxiv.org/abs/2602.09516
使用许可协议:CC BY 4.0
https://creativecommons.org/licenses/by/4.0/
[4] Think Right, Not More: Test-Time Scaling for Numerical Claim Verification
https://aclanthology.org/2025.findings-emnlp.1322.pdf
使用许可协议:CC BY 4.0
https://creativecommons.org/licenses/by/4.0/
封面图:CLEF 2026会议的主办地德国Jena(耶拿);图片由Bruno Joseph和pexels.com提供