清华、人大等机构学者获唯一最佳论文奖,数据挖掘顶会WSDM'22线上召开

简介: 清华、人大等机构学者获唯一最佳论文奖,数据挖掘顶会WSDM'22线上召开

在第 15 届 ACM 国际互联网搜索与数据挖掘大会(WSDM 2022)上,来自清华、人大和中科院计算所的研究者获得了最佳论文奖,时间检验奖花落推荐系统。



2 月 21 日至 25 日,第 15 届 ACM 国际互联网搜索与数据挖掘大会(The 15th International Conference on Web Search and Data Mining,WSDM 2022)在线上召开。

作为数据库 / 数据挖掘类的主要会议之一,WSDM 是由 ACM 所属的信息检索(SIGIR)、数据挖掘(SIGKDD)、数据库(SIGMOD)和网络信息处理(SIGWEB)四个专委会协调筹办。该会议主要发表与网络或社交网络搜索和数据挖掘相关的高质量原创论文,重点关注实用的搜索和数据挖掘新模型、算法设计和分析、经济影响以及对准确率和性能的深入实验分析。

本届 WSDM 会议共接收了 790 篇长文投稿,最终录用了 160 篇,录用率约为 20%。近日,WSDM 2022 公布了最佳论文奖和最佳论文奖亚军,其中来自清华、人大和中科院计算所的研究者获得了大会唯一的最佳论文奖。


最佳论文奖

WSDM 2022 的最佳论文奖首次授予了清华大学、人大、中科院计算所等中国科研机构研究者合作完成的论文《Learning Discrete Representations via Constrained Clustering for Effective and Efficient Dense Retrieval》。


  • 论文地址:https://arxiv.org/pdf/2110.05789.pdf
  • 作者及机构:詹靖涛(Jingtao Zhan,清华大学)、毛佳昕(Jiaxin Mao,中国人民大学)、刘奕群(Yiqun Liu,清华大学)、郭嘉丰(Jiafeng Guo,中科院计算技术研究所)、张敏(Min Zhang,清华大学)、马少平(Shaoping Ma,清华大学)


密集检索(DR)已经实现了 SOTA 排序效果。然而,大多数现有 DR 模型的效率受到一些限制,特别是存储密集向量需要大量内存成本,并且在向量空间中做最近邻搜索(NNS)非常耗时。因此,该研究提出了一种新型检索模型 RepCONC,通过约束聚类(CONstrained Clustering)学习离散表征。

RepCONC 联合训练双编码器和乘积量化(PQ)方法来学习离散文档表征,并实现具有紧凑索引的快速近似 NNS。它将量化建模为一个受约束的聚类过程,这要求文档嵌入围绕量化质心均匀聚类,并支持量化方法和双编码器的端到端优化。

该研究从理论上证明了 RepCONC 中均匀聚类约束的重要性,并通过将其简化为最优传输问题的一个实例,为约束聚类导出了一个有效的近似解。除了约束聚类,RepCONC 进一步采用基于向量的倒排文件系统 (IVF) 来支持 CPU 上的高效向量搜索。对两个流行的 ad-hoc 检索基准进行的大量实验表明,在多种压缩比设置下,RepCONC 比其他向量量化基准实现了更好的排序效果,它在检索效率、记忆效率和时间效率方面也大大优于现有的各种检索模型。

最佳论文奖亚军

WSDM 2022 共有 3 篇论文获得最佳论文奖亚军,分别如下

论文 1:Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model


  • 论文地址:https://arxiv.org/pdf/2202.01562.pdf
  • 作者及机构:Haruka Kiyohara(东京工业大学)、Yuta Saito(康奈尔大学)、Tatsuya Matsuhiro(雅虎日本公司)、Nobuyuki Shimizu(耶鲁大学)、Nobuyuki Shimizu(雅虎日本公司)、Yasuo Yamamoto(雅虎日本公司)


论文 2:Evaluating Mixed-initiative Conversational Search Systems via User Simulation



论文 3:The Datasets Dilemma: How Much Do We Really Know About Recommendation Datasets?



时间检验奖

本届会议的时间检验奖(Test of Time Award)授予了在 WSDM 2011 上发表的论文《Recommender Systems with Social Regularization》。



评奖委员会评语:

推荐系统已被证明是学界和业界的一个经久不衰的研究课题。2011 年关于推荐系统的这篇论文因其重要性以及对社区的影响而被评奖委员会授予时间检验奖。该论文着眼于信任和推荐之间的深层关系,认识到用户不一定与他们信任的每个人都有相似的品味,但这种信任对于推荐至关重要。研究者通过为不同的推荐任务确定最合适的社交关系,有助于确立将社交信息纳入推荐系统的价值。因此,这篇论文具有很高的影响力,并在 WSDM 时间检验奖的所有提名论文中被引用次数最多。同时,论文也显示了对推荐中信任和透明度的重要性的远见,这已成为最近的一个重要课题。

完整接收论文列表:https://www.wsdm-conference.org/2022/accepted-papers/参考链接:https://www.wsdm-conference.org/2022/

相关文章
|
测试技术
你真的知道什么是冒烟测试吗?
大家好,我是阿萨。日常工作中,经常都会提到冒烟测试。那么什么是冒烟测试呢?
3413 0
你真的知道什么是冒烟测试吗?
|
消息中间件 NoSQL Cloud Native
对Confluent一些解读
对Kafka母公司Confluent IPO、产品、技术一些看法
4911 0
对Confluent一些解读
|
5月前
|
数据采集 JSON API
Python 实战:用 API 接口批量抓取小红书笔记评论,解锁数据采集新姿势
小红书作为社交电商的重要平台,其笔记评论蕴含丰富市场洞察与用户反馈。本文介绍的小红书笔记评论API,可获取指定笔记的评论详情(如内容、点赞数等),支持分页与身份认证。开发者可通过HTTP请求提取数据,以JSON格式返回。附Python调用示例代码,帮助快速上手分析用户互动数据,优化品牌策略与用户体验。
|
7月前
|
计算机视觉
YOLOv11改进策略【Neck】| 替换RT-DETR中的CCFF跨尺度特征融合颈部结构,优化计算瓶颈与冗余问题
YOLOv11改进策略【Neck】| 替换RT-DETR中的CCFF跨尺度特征融合颈部结构,优化计算瓶颈与冗余问题
517 8
YOLOv11改进策略【Neck】| 替换RT-DETR中的CCFF跨尺度特征融合颈部结构,优化计算瓶颈与冗余问题
|
7月前
|
人工智能 算法 数据处理
《深度洞察ICA:人工智能信号处理降维的独特利器》
独立成分分析(ICA)是处理高维信号数据的关键技术,尤其在人工智能领域展现出独特优势。ICA通过分离混合信号中的独立成分,揭示隐藏特征、去除噪声、适应复杂分布并保留信号完整性。其原理基于源信号的非高斯性和独立性假设,广泛应用于语音识别、生物医学信号分析和图像处理等领域,提供更精准的数据处理方案。随着AI技术发展,ICA的应用前景愈加广阔。
167 1
|
IDE Java 开发工具
从零开始学Java Socket编程:客户端与服务器通信实战
【6月更文挑战第21天】Java Socket编程教程带你从零开始构建简单的客户端-服务器通信。安装JDK后,在命令行分别运行`SimpleServer`和`SimpleClient`。服务器监听端口,接收并回显客户端消息;客户端连接服务器,发送“Hello, Server!”并显示服务器响应。这是网络通信基础,为更复杂的网络应用打下基础。开始你的Socket编程之旅吧!
207 3
|
SQL 自然语言处理 数据库
DAIL-SQL: 发掘LLM的NL2SQL能力
最近,DAIL-SQL在魔搭创空间上线,并在NL2SQL任务上取得了新的SOTA。DAIL-SQL可以更好地利用LLM的NL2SQL能力,本文对其进行详细解读。
|
10月前
|
监控 API 数据安全/隐私保护
小红书详情API接口的获取与应用
在互联网信息爆炸的时代,小红书凭借丰富的用户生成内容(UGC)和精准的推荐系统迅速崛起,成为重要的社区电商平台。为了帮助开发者高效利用平台数据,小红书开放平台提供了多种API接口,涵盖商品详情和笔记详情等。本文详细介绍了如何注册、申请权限、构建请求、处理响应及应用这些API接口,旨在为开发者提供全面的指南,助力数据驱动的决策与创新。
4278 1
|
存储 运维 安全
2.17 新手必看的Linux服务器管理和维护注意事项
本节介绍有关服务器管理和维护过程中的一些注意事项,都是笔者的经验之谈,相信对新手会有一定的启发和帮助。 很多初学者接触Linux 时间不长,还未完整地学习一遍 Linux,理解本节内容可能有些困难,可以先跳过本节,阅读完整套教程后再回过头来阅读。
1385 0
2.17 新手必看的Linux服务器管理和维护注意事项
|
Java Python
pycharm-ieda-phpstorm超级好用插件,一键解释代码
pycharm-ieda-phpstorm超级好用插件,一键解释代码