即将发布的2021年度「Pop SOTA!」名录是否漏了贵组的重要工作?速来查缺补漏~

简介: 即将发布的2021年度「Pop SOTA!」名录是否漏了贵组的重要工作?速来查缺补漏~

机器之心预选了 256 个发布于 2021 年度的「Pop SOTA! 」价值工作,覆盖新思路、新模型、新实现、新数据集及新工具五大类别,并开发了一个小应用邀请各位老伙计们点出你的评价!

2022 年初,我们对 2021 年度发布于 arXiv 的「SOTA」AI 论文进行了一轮分析。

我们发现在  2021 年度发布于 arXiv 的 44000 余篇 AI 论文中,竟有近 23000 篇在摘要中形容该工作为一份 SOTA  的工作。这意味着,在 2021 年的每一个工作日里,至少都有 90 篇「SOTA」工作被发布到  arXiv!然而,这些自诩「SOTA」的工作中却并未包含被机器之心编辑部报道后在 AI  社区中引起广泛反响与好评的综述文献和极具实用价值的代码实现仓库。

自称「SOTA」的工作就一定是先进的吗?对广大 AI 开发者来说,什么样才是先进的技术工作?是思路具有启发性?还是跑出的实验分数高?是易于实现,对数据资源、计算资源的需求可控?还是放出的代码实现即插即用,可用性强?

带着这些问题,于是我们决定对 2021 年度热门的 AI 技术工作做一次专项分析,试图找到 2021 年度,对 AI 开发者最具价值的「Pop SOTA!」工作。

经过一顿艰辛的操作,我们得到了一张有序列表。(从SwinTransformer到GFlowNets,我们从2021年2万份SOTA工作中选了256个最值得关注的(附完整名录)

image.png

从得到的排序中,我们确实发现今年我们自己熟知的热门工作都排在不错的位置,然而我们也明白在这张有序列表的形成过程中,我们遇到了下述问题 ——

  • 1)在比较是否更具价值的过程中,不同分析师对于哪个工作对 AI 开发者的价值更大存在分歧
  • 2)参与评价的分析师虽然也是 AI 开发者,但几个人是无法代表广大 AI 开发者的
  • 3)在与不同工作进行比较的过程中,分析师对某个工作的价值度的主观感受会随着打分进程的展开产生变化,使用人类分析师作为判别器的会让排序算法失去稳定性

于是我们决定向机器之心的读者们伸出援手,邀请社区的各位小伙伴帮助我们对这张排序列表的 TOP 256 个工作共同再进行一轮价值评价形成一份更加公正的 Pop SOTA!List !

我们预选了共计 256 个发布于 2021 年度的工作,覆盖新思路、新模型、新实现、新数据集及新工具五大类别,并开发了一个小应用邀请各位老伙计们一起做一次社区价值评价,所有 TOP 256 工作都将被通过这个小应用逐一呈现 。

请点击「阅读原文」通过填写表单来告诉我们当前列表中存在的遗漏与错误(表单中附全部预选收录工作列表)。

image.gif

考虑到目前放出有序列表会影响大家对于技术进展价值的评判,我们将会在评价完成之后,将评价中所使用到的数据、排序工具及所有工作的排序发布到 GitHub,方便社区用户帮(gong)助(tong)改(tu)进(cao)我们不够严谨的评价过程。

根据我们的评价计算方法,各位老伙计们只需分别完成对 16 个您较为熟悉的工作的评价~ 我们就工作的「引领性」、「启发性」和「应用可行性」三个需要 AI 社区的老伙计们帮助我们进行评价的维度设计了三个问题,各位老伙计只需通过选择的形式回答以下三个问题,告诉我们您对工作的看法即可 ——

  • 您是否有了解过该工作?您认为该工作的引领性如何?
  • 您认为该工作对您是否有帮助或者启发?
  • 您在实践中应用过该工作么?该工作是否好用?


本轮评价将会持续开放到 1 月 25 日上午 10 点,我们将于 1 月 26 日公布评价结果
在本次评价结束后,我们将整理所有完成对自己较为熟悉的 16 个工作评价的贡献者名单,在机器之心平台进行致谢!

image.gif

相关文章
|
2月前
|
数据采集 机器人 计算机视觉
一手训练,多手应用:国防科大提出灵巧手抓取策略迁移新方案
【10月更文挑战第24天】国防科技大学研究人员提出了一种新颖的机器人抓取方法,通过学习统一的策略模型,实现不同灵巧夹具之间的策略迁移。该方法分为两个阶段:与夹具无关的策略模型预测关键点位移,与夹具相关的适配模型将位移转换为关节调整。实验结果显示,该方法在抓取成功率、稳定性和速度方面显著优于基线方法。论文地址:https://arxiv.org/abs/2404.09150
39 1
|
6月前
|
测试技术
ACL 2024:大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用
【7月更文挑战第8天】北大研究团队推出KIEval框架,针对大语言模型(LLMs)的性能评估进行创新。KIEval采用互动评估和动态出题,通过多轮基于知识的对话测试模型理解和应用能力,旨在减少数据污染影响,挑战死记硬背的评估。然而,该方法可能增加计算需求,且评估结果可能受主观因素影响,不适用于所有类型LLMs。[论文链接:](https://arxiv.org/abs/2402.15043)**
108 24
|
6月前
|
机器学习/深度学习 自然语言处理 算法
告别重复率烦恼:论文润色降重助手帮你搞定降重!
告别重复率烦恼:论文润色降重助手帮你搞定降重!
56 0
|
8月前
人生没有捷径,专注做好一件事就是捷径——《元智慧》读后
人生没有捷径,专注做好一件事就是捷径——《元智慧》读后
62 0
|
8月前
|
存储 人工智能
近期复盘 | 想多了都是问题,想开了都是答案
近期复盘 | 想多了都是问题,想开了都是答案
|
前端开发 Shell 程序员
🙊整活向:定期给老板推送同事的代码量
总有领导想把公司往倒闭里整。但是每天推送每个人的代码量倒是挺有趣的,git log本身就自带这个功能,不来看看吗?
180 0
🙊整活向:定期给老板推送同事的代码量
|
机器学习/深度学习 人工智能 自然语言处理
【NLP 算法岗】提前批暑期实习面(试)经(历)
【NLP 算法岗】提前批暑期实习面(试)经(历)
277 0
|
监控 前端开发 关系型数据库
Zabbix套路深,字符集路更滑,大型翻车现场救援过程分享。
Zabbix套路深,字符集路更滑,大型翻车现场救援过程分享。
142 0
|
数据安全/隐私保护
xczx项目问题集
xczx项目问题集
93 0
xczx项目问题集