CLEF 2026赛道简介:PAN、FinMMEval、CheckThat!(上)

简介: CLEF 2026竞赛包含16个赛道,本文分上下两部分介绍其中的3个赛道:PAN、FinMMEval和CheckThat!

CLEF(Conference and Labs of the Evaluation Forum)协会起源于欧洲,近年来每年发起CLEF会议及竞赛,吸引了来自世界各地的参会者和参赛者。

CLEF会议及竞赛的主题侧重于多语种、多模态信息系统的研究、调优与评估。CLEF竞赛的结果在当年的CLEF会议上进行总结。

来自中国的多个团队曾多次在CLEF竞赛中取得优异成绩!

今年的CLEF竞赛包含16个赛道,各赛道的赛题已经公布。多数赛道的参赛报名截止于今年4月份;对竞赛结果的总结将于9月下旬在德国城市Jena(耶拿)召开的CLEF会议上进行[1]。

接下来将简要介绍今年CLEF竞赛中的3个赛道:PAN、FinMMEval和CheckThat!

PAN

PAN这一赛道的历史可以追溯至2007年;该赛道侧重文本风格分析与文本取证方面的评测。今年的PAN赛道设立了五个细分赛道(又称“Shared Tasks”)[2]。

细分赛道1、Voight-Kampff生成式AI检测‌(Voight-Kampff Generative AI Detection)。Voight-Kampff一词源于科幻电影《Blade Runner》;在影片中,Voight-Kampff测试用于区分一个人是真人还是复制人(一种合成的、在外表和行为上与人类高度相似的生物)。Voight-Kampff测试有点类似于图灵测试。

“Voight-Kampff生成式AI检测‌”这一细分赛道要求参赛系统针对给出的文本,检测文本是否由AI生成;在被检测的文本中,AI生成的文本会由AI试图消除AI生成的特征。

细分赛道2、文本水印‌(Text Watermarking)。不少AI公司在大语言模型的输出中嵌入水印(即可检测的特征)。这种做法推动了针对水印的新的研究以及水印技术的创新[3]。在这种背景下,PAN赛道设立了“文本水印‌”这一细分赛道。

该细分赛道要求参赛系统先为给出的文本加水印,然后将加了水印的文本由竞赛组织方进行修改(即攻击),以尝试破坏文本的水印;修改后的文本返回至参赛系统的水印检测算法,以检测文本中是否存在水印。该细分赛道旨在评测水印的隐蔽性及其对于文本修改的鲁棒性。

细分赛道3、多作者写作风格分析‌(Multi-author Writing Style Analysis),要求参赛系统针对给出的文本,识别出所有写作风格出现变化的位置。

细分赛道4、生成式抄袭检测‌(Generative Plagiarism Detection),包含两个子任务。

  • 子任务1、源文档检索‌:针对一个可疑文档和多个可能的源文档,自动识别出可疑文档所抄袭的所有源文档。
  • 子任务2、文本对齐‌:将可疑文档中抄袭来的段落与源文档中被抄袭的段落自动对齐。一个抄袭来的段落可能对应于多个源段落(合并抄袭),多个抄袭来的段落也可能对应于一个源段落(扩展抄袭)。

细分赛道5、推理轨迹检测‌(Reasoning Trajectory Detection)。LLM的显式推理可以提高LLM回答的整体质量和安全性。然而,虚假的、不合逻辑的、以及不安全的中间推理可能导致错误或有害的回答。此外,欺骗性的、以及未对齐的中间推理也可能产生安全的回答。

为了加深对LLM推理的理解,减少不安全的推理,“推理轨迹检测‌”细分赛道设立了以下两个子任务。

  • 子任务1、来源检测‌:针对给出的(用户提问、推理轨迹、最终答案)三元组,自动识别出其中的推理轨迹和最终答案是由AI生成还是由人类撰写的。该子任务的目的是对人类和模型的推理风格及认知结构进行深入的比较,为模型对齐和推理训练策略提供更多参考。
  • 子任务2、安全性检测‌:在给出的(用户提问、推理轨迹、最终答案)三元组中,用户提问分为三种类型——(1)寻求有害内容的提问、(2)越狱攻击(Jailbreak Attacks)、(3)含有风险Token的提问。该子任务要求参赛系统针对这样的三元组,判断三元组中的推理轨迹和最终答案是否安全。


【未完待续】


参考文献

[1] https://www.clef-initiative.eu/

[2] Overview of PAN 2026: Voight-Kampff Generative AI Detection, Text Watermarking, Multi-Author Writing Style Analysis, Generative Plagiarism Detection, and Reasoning Trajectory Detection
https://arxiv.org/abs/2602.09147
使用许可协议:CC BY 4.0
https://creativecommons.org/licenses/by/4.0/

[3] https://pan.webis.de/clef26/pan26-web/text-watermarking.html#related-work


封面图:CLEF 2026会议的主办地德国Jena(耶拿);图片由Bruno Joseph和pexels.com提供

目录
相关文章
|
3月前
|
人工智能 自然语言处理 语音技术
CLEF 2026赛道简介:PAN、FinMMEval、CheckThat!(下)
CLEF 2026竞赛包含16个赛道,本文的下半部分简要介绍其中的FinMMEval和CheckThat!赛道
266 5
|
Serverless 数据处理 索引
Pandas中的shift函数:轻松实现数据的前后移动
Pandas中的shift函数:轻松实现数据的前后移动
2716 0
|
开发工具 C语言 Windows
【Qt 学习笔记】Qt 开发环境的搭建 | Qt 安装教程
【Qt 学习笔记】Qt 开发环境的搭建 | Qt 安装教程
2283 0
|
3月前
|
人工智能 安全 API
从零到一玩转 OpenClaw:1分钟部署、阿里云百炼API配置与 Skills 拓展及问题解答
OpenClaw(前身为Clawdbot、Moltbot)作为2026年热门的开源AI自动化工具,凭借自然语言驱动、多场景适配的核心优势,在个人办公与中小企业协同中得到广泛应用。很多用户部署后发现其仅能满足基础交互需求,核心原因在于未配置针对性的Skills(技能插件)。本文将完整覆盖本地多系统(MacOS/Linux/Windows11)部署、阿里云云端部署、阿里云百炼API配置、Skills安装与分类推荐、常见问题排查等核心内容,所有操作步骤均经过实测验证,代码可直接复制使用,帮助用户快速搭建功能完善的OpenClaw环境。
682 4
|
3月前
|
人工智能 数据库 开发者
OpenClaw「虾搞」数据库首场活动明日杭州开搞!
3月14日,OpenClaw“虾搞”数据库首场线下活动将在杭州阿里西溪园区举行。原定70人的技术沙龙,4天报名超600人,场地紧急扩容3倍!聚焦AI Agent与数据库融合,致敬开发者敢试错、勇探索的“虾搞”精神。全程直播,多地巡演即将启动。
559 3
|
4月前
|
人工智能 搜索推荐 算法
什么是 GEO(Generative Engine Optimization)技术白皮书
GEO(生成式引擎优化)是面向AI搜索与大模型的新型信息工程,旨在提升医疗专业内容在AI答案中的引用率、可信度与稳定性。它不争网页排名,而争AI决策中的“权威席位”,助力医疗机构在零点击时代抢占认知入口,构建可控、合规、可持续的生成式信任资产。(239字)
2646 18
|
4月前
|
云安全 安全 Linux
这世界就是个巨大的草台班子-你的飞牛nas中招了吗
飞牛NAS(fnOS)曝出高危路径穿越漏洞,攻击者无需登录即可读取系统文件、用户数据甚至植入恶意程序。虽已修复,但暴露了私有云安全设计的严重短板——NAS不是“智能路由器”,而是家庭服务器,需按服务器标准严管公网暴露、及时升级与权限控制。(239字)
1648 0
|
11月前
|
SQL 数据处理
Excel 如何将表中行列互换
本文介绍了在Excel中将行列互换的两种方法:使用Power Query和Pivot Table。详细步骤帮助你在数据处理中灵活转换表格结构,适用于不同场景,提升工作效率。
Excel 如何将表中行列互换
|
4月前
|
数据采集 人工智能 自然语言处理
技术内幕:一文读懂章鱼AI全域智能运营平台的底层架构与工作流
技术内幕:一文读懂章鱼AI全域智能运营平台的底层架构与工作流
|
6月前
|
搜索推荐 物联网 异构计算
一张图秒生 LoRA ? Qwen-Image-i2L 诞生记
我们发布了Qwen-Image的“图生LoRA”模型,输入一张图即可端到端生成LoRA权重。通过多阶段迭代,构建了具备细节与风格保持能力的Image-to-LoRA系统,可用于高效LoRA训练初始化,推动个性化生成技术发展。
1277 0

热门文章

最新文章