清华、人大等机构学者获唯一最佳论文奖,数据挖掘顶会WSDM'22线上召开

简介: 清华、人大等机构学者获唯一最佳论文奖,数据挖掘顶会WSDM'22线上召开

在第 15 届 ACM 国际互联网搜索与数据挖掘大会(WSDM 2022)上,来自清华、人大和中科院计算所的研究者获得了最佳论文奖,时间检验奖花落推荐系统。



2 月 21 日至 25 日,第 15 届 ACM 国际互联网搜索与数据挖掘大会(The 15th International Conference on Web Search and Data Mining,WSDM 2022)在线上召开。

作为数据库 / 数据挖掘类的主要会议之一,WSDM 是由 ACM 所属的信息检索(SIGIR)、数据挖掘(SIGKDD)、数据库(SIGMOD)和网络信息处理(SIGWEB)四个专委会协调筹办。该会议主要发表与网络或社交网络搜索和数据挖掘相关的高质量原创论文,重点关注实用的搜索和数据挖掘新模型、算法设计和分析、经济影响以及对准确率和性能的深入实验分析。

本届 WSDM 会议共接收了 790 篇长文投稿,最终录用了 160 篇,录用率约为 20%。近日,WSDM 2022 公布了最佳论文奖和最佳论文奖亚军,其中来自清华、人大和中科院计算所的研究者获得了大会唯一的最佳论文奖。


最佳论文奖

WSDM 2022 的最佳论文奖首次授予了清华大学、人大、中科院计算所等中国科研机构研究者合作完成的论文《Learning Discrete Representations via Constrained Clustering for Effective and Efficient Dense Retrieval》。


  • 论文地址:https://arxiv.org/pdf/2110.05789.pdf
  • 作者及机构:詹靖涛(Jingtao Zhan,清华大学)、毛佳昕(Jiaxin Mao,中国人民大学)、刘奕群(Yiqun Liu,清华大学)、郭嘉丰(Jiafeng Guo,中科院计算技术研究所)、张敏(Min Zhang,清华大学)、马少平(Shaoping Ma,清华大学)


密集检索(DR)已经实现了 SOTA 排序效果。然而,大多数现有 DR 模型的效率受到一些限制,特别是存储密集向量需要大量内存成本,并且在向量空间中做最近邻搜索(NNS)非常耗时。因此,该研究提出了一种新型检索模型 RepCONC,通过约束聚类(CONstrained Clustering)学习离散表征。

RepCONC 联合训练双编码器和乘积量化(PQ)方法来学习离散文档表征,并实现具有紧凑索引的快速近似 NNS。它将量化建模为一个受约束的聚类过程,这要求文档嵌入围绕量化质心均匀聚类,并支持量化方法和双编码器的端到端优化。

该研究从理论上证明了 RepCONC 中均匀聚类约束的重要性,并通过将其简化为最优传输问题的一个实例,为约束聚类导出了一个有效的近似解。除了约束聚类,RepCONC 进一步采用基于向量的倒排文件系统 (IVF) 来支持 CPU 上的高效向量搜索。对两个流行的 ad-hoc 检索基准进行的大量实验表明,在多种压缩比设置下,RepCONC 比其他向量量化基准实现了更好的排序效果,它在检索效率、记忆效率和时间效率方面也大大优于现有的各种检索模型。

最佳论文奖亚军

WSDM 2022 共有 3 篇论文获得最佳论文奖亚军,分别如下

论文 1:Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model


  • 论文地址:https://arxiv.org/pdf/2202.01562.pdf
  • 作者及机构:Haruka Kiyohara(东京工业大学)、Yuta Saito(康奈尔大学)、Tatsuya Matsuhiro(雅虎日本公司)、Nobuyuki Shimizu(耶鲁大学)、Nobuyuki Shimizu(雅虎日本公司)、Yasuo Yamamoto(雅虎日本公司)


论文 2:Evaluating Mixed-initiative Conversational Search Systems via User Simulation



论文 3:The Datasets Dilemma: How Much Do We Really Know About Recommendation Datasets?



时间检验奖

本届会议的时间检验奖(Test of Time Award)授予了在 WSDM 2011 上发表的论文《Recommender Systems with Social Regularization》。



评奖委员会评语:

推荐系统已被证明是学界和业界的一个经久不衰的研究课题。2011 年关于推荐系统的这篇论文因其重要性以及对社区的影响而被评奖委员会授予时间检验奖。该论文着眼于信任和推荐之间的深层关系,认识到用户不一定与他们信任的每个人都有相似的品味,但这种信任对于推荐至关重要。研究者通过为不同的推荐任务确定最合适的社交关系,有助于确立将社交信息纳入推荐系统的价值。因此,这篇论文具有很高的影响力,并在 WSDM 时间检验奖的所有提名论文中被引用次数最多。同时,论文也显示了对推荐中信任和透明度的重要性的远见,这已成为最近的一个重要课题。

完整接收论文列表:https://www.wsdm-conference.org/2022/accepted-papers/参考链接:https://www.wsdm-conference.org/2022/

相关文章
|
2月前
|
人工智能
SynCamMaster:快手联合浙大、清华等大学推出的多视角视频生成模型
SynCamMaster是由快手科技联合浙江大学、清华大学等机构推出的全球首个多视角视频生成模型,能够结合6自由度相机姿势,从任意视点生成开放世界视频。该模型通过增强预训练的文本到视频模型,确保不同视点的内容一致性,支持多摄像机视频生成,并在多个应用场景中展现出巨大潜力。
80 4
SynCamMaster:快手联合浙大、清华等大学推出的多视角视频生成模型
|
6月前
|
机器学习/深度学习 存储 人工智能
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
本文是关于2022-2023年知能科技公司机器学习算法工程师岗位的秋招笔试题,包括简答题和编程题,简答题涉及神经网络防止过拟合的方法、ReLU激活函数的使用原因以及条件概率计算,编程题包括路径行走时间计算和两车相向而行相遇时间问题。
90 2
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
|
6月前
|
机器学习/深度学习 人工智能 算法
【数据挖掘】2022年2023届秋招奇虎360机器学习算法工程师 笔试题
本文提供了奇虎360公司2022年秋招机器学习算法工程师岗位的笔试题内容,包括选择题和编程题,涉及概率统计、数据结构、机器学习、计算机组成原理等多个领域。
118 5
|
6月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】2022年2023届秋招宏瓴科技公司机器学习算法工程师 笔试题
关于宏瓴科技有限公司2022-2023年秋招机器学习算法工程师岗位的笔试题目及作者个人对部分题目的解答尝试,涉及贝叶斯误差和贝叶斯最优分类器的概念、贝叶斯误差的重要性和估算方法,以及如何有效利用训练集和测试集进行深度学习模型训练的数据集划分策略。
77 4
|
6月前
|
数据可视化 数据挖掘 数据库连接
【数据挖掘】2022年2023届秋招爱玩特智能量化研究员岗 笔试题
本文提供了2022年爱玩特智能量化研究员岗位的笔试题目及Python代码实现,涉及数据库连接、数据可视化、投资回报率计算、累计回报率、描述性统计分析以及简单线性回归等任务。
60 2
|
机器学习/深度学习 人工智能 算法
CV领域再创佳绩!阿里云机器学习平台 PAI 多篇论文入选 ICCV 2023
近期,阿里云机器学习平台PAI发表的多篇论文在ICCV 2023上入选。ICCV是国际计算机视觉大会是由电气和电子工程师协会每两年举办一次的研究大会。与CVPR和ECCV一起,它被认为是计算机视觉领域的顶级会议之一。ICCV 2023将于10月2日至10月6日法国巴黎举办。ICCV汇聚了来自世界各地的学者、工程师和研究人员,分享最新的计算机视觉研究成果和技术进展。会议涵盖了计算机视觉领域的各个方向,包括图像处理、模式识别、机器学习、人工智能等等。ICCV的论文发表和演讲都备受关注,是计算机视觉领域交流和合作的重要平台。
|
机器学习/深度学习 人工智能 达摩院
祝贺!阿里巴巴获数据科学顶会最佳论文奖
祝贺!阿里巴巴获数据科学顶会最佳论文奖
133 0
|
存储 Cloud Native 容灾
再创佳绩!阿里云4篇论文入选顶会FAST 2023
再创佳绩!阿里云4篇论文入选顶会FAST 2023
572 0
|
机器学习/深度学习 编解码 网络协议
创历届最好成绩!阿里云6篇论文入选顶会SIGCOMM2022
创历届最好成绩!阿里云6篇论文入选顶会SIGCOMM2022
314 0
|
机器学习/深度学习 Web App开发 人工智能
IJCAI 2022四大奖项揭晓,Russell获卓越研究奖、UIUC李博获计算机与思想奖
IJCAI 2022四大奖项揭晓,Russell获卓越研究奖、UIUC李博获计算机与思想奖
175 0