CLEF 2026赛道简介:PAN、FinMMEval、CheckThat!(下)

简介: CLEF 2026竞赛包含16个赛道,本文的下半部分简要介绍其中的FinMMEval和CheckThat!赛道

本文的上半部分简要介绍了起源于欧洲的CLEF会议和竞赛,以及今年CLEF竞赛的赛事安排。今年的CLEF竞赛包含16个赛道,各赛道的赛题已经公布。多数赛道的参赛报名截止于今年4月份;对竞赛结果的总结将于9月下旬在德国城市Jena(耶拿)召开的CLEF会议上进行[1]

本文的上半部分还介绍了CLEF 2026竞赛的赛道之一:PAN。接下来将介绍CLEF 2026竞赛的另外两个赛道:FinMMEval和CheckThat!。

FinMMEval

针对金融领域NLP的评测目前大多使用的是单语种、单模态(纯文本)的数据,且仅针对情感分类、事实问答等少数几种任务进行评测。然而现实世界的金融信息不仅日益全球化,而且涉及跨语种新闻、监管报告、实时市场数据等多种模态‌。

FinMMEval赛道的创立,旨在综合评测金融领域的大语言模型在多语种、多模态环境下推理、泛化和决策的能力。为此,FinMMEval赛道设计了三个细分赛道(“Tasks”):金融考试问答(T1)、多语种金融问答(T2)、以及金融决策制定(T3)[2]

FinMMEval_Table_1.jpg

FinMMEval三个细分赛道所涉及的语种;空心方框表示仅有测试数据[2]

T1、金融考试问答(Financial Exam Question Answering),采用CFA、CPA等金融资质的考试题向参赛模型提问,目的是评估参赛模型在‌金融概念理解和领域推理‌方面的能力;考试题均为多项选择题,评估参赛模型所采用的指标是考试题被正确回答的比例。

T2、多语种金融问答(Multilingual Financial Question Answering),要求参赛模型根据给出的英文财务报告(SEC 10-K或10-Q报告的节选)、以及与该财务报告相关的一组多语种新闻文章(语种包括英语、中文、日语、西班牙语和希腊语),针对提问的问题,以简要的方式作出回答,所作的回答必须有依据。提问的问题有两个难度级别‌:

  • Easy‌级别‌——仅涉及事实类或数值趋势类的问题,例如收入的增长、现金流的异常等;
  • Expert‌级别‌——涉及跨文档的推理,例如投资策略、资本配置等。

评估参赛模型时采用ROUGE-1‌作为主要指标,同时采用BLEURT‌以及事实一致性‌作为次要指标。

T3、金融决策制定(Financial Decision Making),要求参赛模型根据金融市场的历史价格、新闻、财报等数据,输出交易决策(Buy、Hold、Sell之一),并为所做的交易决策提供简短解释。涉及交易的金融产品包括比特币和特斯拉股票两种。

评估参赛模型时采用累计回报率(Cumulative Return)‌ 作为主要指标,‌同时采用夏普比率(Sharpe Ratio)、最大回撤(Maximum Drawdown)、以及日波动率/年化波动率‌作为次要指标。

CheckThat!

CheckThat!作为CLEF的赛道之一,创立于2018年;该赛道的创立旨在促进事实核查技术的发展。

今年的CheckThat!赛道围绕多语种和网络内容的事实核查,设立了三个细分赛道(“Tasks”):网上科学声明的来源检索‌(T1)、数值和时间声明的核验‌(T2)、以及完整的事实核查文章‌的生成(T3)[3]

CheckThat!_Fig_1.jpg

事实核查中的关键环节、以及今年CheckThat!所设立的T1、T2、T3三个细分赛道[3]


CheckThat!_Table_1.jpg

今年CheckThat!的三个细分赛道所涉及的语种[3]


Task1、网上科学声明的来源检索‌(Source Retrieval for Scientific Web Claims)。网上有关科学问题的讨论往往缺乏具体的文献引用信息,有时仅含有诸如“根据XX大学的研究”等粗略描述。对于事实核查而言,找到一段声明(Claim)的来源出版物是重要的第一步。

“网上科学声明的来源检索‌”这一细分赛道要求参赛系统针对社交媒体上讨论科学话题的、但仅粗略提及参考文献的帖文(即未列出参考文献URL的帖文),从候选论文库中检索出被提及的论文。评测参赛系统所采用的指标是平均倒数排名@5(Mean Reciprocal Rank@5、MRR@5)。

Task2、数值和时间声明的核验‌(Fact-Checking Numerical and Temporal Claims)。尽管大语言模型(LLM)处理很多知识型任务的能力很强,其处理数值型推理的能力较弱,这就影响了LLM针对数值所进行的事实核查,例如针对不同货币所表示的金额的核查[4]

近期发表的研究表明,Test-Time Scaling(TTS、测试时扩展)通过依靠多个推理路径,可以明显改善LLM处理数值型事实核查的能力[4]。因此,今年的“数值和时间声明的核验‌”细分赛道采用Test-Time Scaling的思路,为参赛模型提供了以下的输入数据:

  • 待核查的、涉及数值或时间的声明(Claim)、
  • 对应于每个声明的多个推理轨迹、
  • 推理轨迹所对应的判断结果、
  • 证据库。

该细分赛道要求参赛团队训练模型,然后基于训练后的模型对给出的多个推理轨迹进行排序,输出此排序,并根据此排序,产生最终的判断结果。对于参赛模型的评测不仅考查所输出的推理轨迹排序的准确性,也考查所产生的最终判断结果的准确性。

Task3、完整的事实核查文章‌的生成(Generating Full Fact-Checking Articles)。在事实核查中,撰写详细的事实核查报告涉及综合多种信息、撰写、以及多轮修改等工作,耗时费力,还需要确保报告的质量和准确性。

“完整的事实核查文章‌的生成”这一细分赛道主要考察事实核查报告的自动生成。参赛系统需要根据待核查的声明(Claim)、给出的核查结果、以及核查结果所依据的一组证据文件,生成完整的事实核查报告,其中包括证据引用信息。

对于生成报告的评测主要采用‌以下三个指标的均值‌:
Entailment分数——衡量生成的报告是否可以根据参考核查报告而推断(Entail)得出;
引用正确性——验证一段注明引用文献的文本是否可以根据所引用的证据而推断得出;
引用完整性——所提供的一组证据中有多大比例被正确引用。

除上述三个指标外,“写作质量”作为辅助指标,也被纳入对于生成报告的评测之中。

参考文献

[1] https://www.clef-initiative.eu/

[2] The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems
https://arxiv.org/abs/2602.10886
使用许可协议:CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

[3] The CLEF-2026 CheckThat! Lab: Advancing Multilingual Fact-Checking
https://arxiv.org/abs/2602.09516
使用许可协议:CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

[4] Think Right, Not More: Test-Time Scaling for Numerical Claim Verification
https://aclanthology.org/2025.findings-emnlp.1322.pdf
使用许可协议:CC BY 4.0
https://creativecommons.org/licenses/by/4.0/


封面图:CLEF 2026会议的主办地德国Jena(耶拿);图片由Bruno Joseph和pexels.com提供

目录
相关文章
|
2月前
|
人工智能 安全 算法
CLEF 2026赛道简介:PAN、FinMMEval、CheckThat!(上)
CLEF 2026竞赛包含16个赛道,本文分上下两部分介绍其中的3个赛道:PAN、FinMMEval和CheckThat!
310 1
在Colab上测试Mamba
我们在前面的文章介绍了研究人员推出了一种挑战Transformer的新架构Mamba
664 2
|
1月前
|
人工智能 弹性计算 机器人
Hermes Agent 是什么?怎么部署?2026年新手零基础完全指南
Hermes Agent是Nous Research于2026年推出的开源自主智能体框架,主打“自我进化、持久记忆、全平台适配”。它非传统聊天机器人,而是可本地部署、持续学习、越用越强的“数字同事”,支持微信/飞书等多端接入,新手也能快速上手部署。
687 1
|
2月前
|
人工智能 算法 安全
AI辅助编程设计之道:从Spec到Code工程实践
大语言模型正重塑开发模式,但盲目依赖AI生成代码易陷入“描述-生成-修改”循环。核心问题在于跳过设计阶段:模糊需求无法支撑高质量输出。Spec驱动开发强调以结构化文档(需求、架构、接口等)明确设计,再由AI高效实现。人专注设计与验证,AI负责编码与建议——这才是提效关键。(239字)
886 7
|
3月前
|
人工智能 弹性计算 API
喂饭教程!手把手教你使用阿里云一键部署OpenClaw
OpenClaw是开源可自托管的AI执行助理,阿里云提供官方一键镜像,零代码、无命令行,2核2G服务器10分钟快速部署,支持百炼大模型与多平台接入,新手也能轻松拥有专属24小时AI智能体!
2257 8
|
7月前
|
存储 自然语言处理 算法
参照Yalla、Hawa等主流APP核心功能,开发一款受欢迎的海外语聊需要从哪些方面入手
海外语聊APP开发需结合Yalla、Hawa等主流产品,聚焦多语言支持、实时音视频、社交互动与安全合规。兼顾技术架构、本地化运营与法律风险,避免劣质成品代码,平衡创新与成本,打造差异化出海产品。(239字)
|
8月前
|
安全 网络安全 开发工具
vulnhub靶机实战_DC-2
本文介绍了DC-2靶机的渗透测试实战过程,涵盖靶机下载、环境搭建、信息扫描、漏洞利用、权限提升及最终提权获取flag的完整流程。内容包括使用nmap扫描、WPScan和Hydra工具爆破登录信息,绕过rbash限制,利用git提权等关键技术步骤。
772 0
|
安全 应用服务中间件 网络安全
从零(服务器、域名购买)开始搭建雷池WAF到应用上线简明指南
本文详细介绍了基于雷池WAF的网站防护部署全流程,涵盖服务器与域名准备、WAF安装配置、网站接入设置及静态文件站点搭建等内容。通过最低1核CPU/1GB内存的服务器配置,完成Docker环境搭建、雷池一键安装及端口设置,实现域名解析、SSL证书配置和防护策略优化。同时支持301重定向与HTTP到HTTPS自动跳转,确保访问安全与规范。最后还提供了使用静态文件搭建网站的方法,帮助用户快速构建具备基础WAF防护能力的网站系统。
从零(服务器、域名购买)开始搭建雷池WAF到应用上线简明指南
美团面试:Redis锁如何续期?Redis锁超时,任务没完怎么办?
在40岁老架构师尼恩的读者交流群中,近期有小伙伴在面试一线互联网企业时遇到了关于Redis分布式锁过期及自动续期的问题。尼恩对此进行了系统化的梳理,介绍了两种核心解决方案:一是通过增加版本号实现乐观锁,二是利用watch dog自动续期机制。后者通过后台线程定期检查锁的状态并在必要时延长锁的过期时间,确保锁不会因超时而意外释放。尼恩还分享了详细的代码实现和原理分析,帮助读者深入理解并掌握这些技术点,以便在面试中自信应对相关问题。更多技术细节和面试准备资料可在尼恩的技术文章和《尼恩Java面试宝典》中获取。
美团面试:Redis锁如何续期?Redis锁超时,任务没完怎么办?

热门文章

最新文章