7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构(2)

简介: 7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构

论文 6:Siamese Image Modeling for Self-Supervised Vision Representation Learning


摘要:研究者提出了 Siamese Image Modeling(SIM),该方法通过一张遮盖的增强视图来预测相同图像的另一张增强视图的密集特征表示。为了达到这个目标,SIM 采用了孪生网络结构,该结构包含 online 和 target 两个分支。Online 分支首先将第一张遮盖视图映射到特征空间,然后基于第一张图的特征和第一、二张图的相对位置坐标来预测第二张图的特征;Target 分支则负责将第二张图映射到特征空间来获得目标特征。
通过这种方式,SIM 能够分别在线性分类任务上和 ID 方法持平,以及在检测任务上和 MIM 方法持平,研究者进一步发现即便没有全局的损失函数,SIM 也能给出很好的线性分类表现。

ID、 MIM 和 SIM 框架的比较。

Siamese Image Modeling 概览。

ViT-B/16 上 SIM 与其他方法的结果比较。

推荐:自监督学习如何兼顾语义对齐与空间分辨能力?清华、商汤提出「SIM」方法。

论文 7:FlowBot3D: Learning 3D Articulation Flow to Manipulate Articulated Objects


摘要:最近,CMU 机器人学院 David Held 教授 R-PAD 实验室的两名学生 Ben Eisner 和 Harry Zhang 在操纵复杂的关节物体方面取得了突破,并推出了基于 3D 神经网络的 FlowBot 3D,一种有效表达和预测关节物体部分运动轨迹的算法,如日常家具。该算法包含两个部分。
第一个部分是感知部分,这个部分使用 3D 深度神经网络从被操纵家具物体的点云数据中预测三维瞬时运动轨迹。算法的第二个部分是策略部分,它使用预测得到的 3D Articulated Flow 来选择机器人的下一个动作。
两者都在模拟器中完全学习,可以直接在现实世界中实现,无需重新训练或调整。在 FlowBot 3D 算法的帮助下,机器人可以像人类一样随意操纵日常家具等关节物体。

FlowBot 3D 的两个模块。

打开冰箱门。

打开马桶盖。

推荐:CMU 发表新型灵巧机器人算法,准确学习日常家具的操纵方法。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
10 NLP Papers音频:00:0022:27
本周 10 篇 NLP 精选论文是:


1. Unsupervised Key Event Detection from Massive Text Corpora.  (from Jiawei Han)

2. Beyond Opinion Mining: Summarizing Opinions of Customer Reviews.  (from Bing Liu)

3. Words are all you need? Capturing human sensory similarity with textual descriptors.  (from Thomas L. Griffiths)

4. Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos.  (from Alexander Waibel)

5. Plumber: A Modular Framework to Create Information Extraction Pipelines.  (from Sören Auer)

6. LegoNN: Building Modular Encoder-Decoder Models.  (from Abdelrahman Mohamed)

7. Latent Topology Induction for Understanding Contextualized Representations.  (from Mirella Lapata)

8. Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future.  (from Bonnie Webber)

9. Topic-Aware Evaluation and Transformer Methods for Topic-Controllable Summarization.  (from Grigorios Tsoumakas)

10. Factuality Enhanced Language Models for Open-Ended Text Generation.  (from Bryan Catanzaro)


本周 10 篇 CV 精选论文是:1. PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images.  (from Xiangyu Zhang, Jian Sun)2. Revisiting the "Video" in Video-Language Understanding.  (from Li Fei-Fei)3. PrivHAR: Recognizing Human Actions From Privacy-preserving Lens.  (from Li Fei-Fei)4. Compositional Visual Generation with Composable Diffusion Models.  (from Antonio Torralba, Joshua B. Tenenbaum)5. Polymorphic-GAN: Generating Aligned Samples across Multiple Domains with Learned Morph Maps.  (from Antonio Torralba)6. Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval.  (from Shih-Fu Chang)7. Beyond RGB: Scene-Property Synthesis with Neural Radiance Fields.  (from Martial Hebert)8. Generating Long Videos of Dynamic Scenes.  (from Alexei A. Efros)9. STIP: A SpatioTemporal Information-Preserving and Perception-Augmented Model for High-Resolution Video Prediction.  (from Wen Gao)10. Hierarchical Similarity Learning for Aliasing Suppression Image Super-Resolution.  (from Wen Gao)



本周 10 篇 ML 精选论文是:
1. Schema-Guided Event Graph Completion.  (from Jiawei Han)2. BaCaDI: Bayesian Causal Discovery with Unknown Interventions.  (from Bernhard Schölkopf, Andreas Krause)3. Causal Discovery in Heterogeneous Environments Under the Sparse Mechanism Shift Hypothesis.  (from Bernhard Schölkopf)4. Rethinking and Scaling Up Graph Contrastive Learning: An Extremely Efficient Approach with Group Discrimination.  (from Philip S. Yu)5. DORA: Exploring outlier representations in Deep Neural Networks.  (from Klaus-Robert Müller)6. Imitating Past Successes can be Very Suboptimal.  (from Sergey Levine, Ruslan Salakhutdinov)7. Towards Understanding Why Mask-Reconstruction Pretraining Helps in Downstream Tasks.  (from Shuicheng Yan)8. From "Where" to "What": Towards Human-Understandable Explanations through Concept Relevance Propagation.  (from Thomas Wiegand)9. Expressiveness and Learnability: A Unifying View for Evaluating Self-Supervised Learning.  (from Aaron Courville)10. Beyond Tabula Rasa: Reincarnating Reinforcement Learning.  (from Aaron Courville, Marc G. Bellemare)

相关文章
|
14天前
|
机器学习/深度学习 存储 人工智能
AI 视频检测:重构食品质检体系,破解大规模生产品质难题
AI视频检测技术助力食品行业质检升级,通过实时感知、精准识别与数据驱动,实现从加工到成品的全流程智能管控,解决传统质检效率低、标准不统一等问题。
128 0
|
6月前
|
人工智能 自然语言处理 Rust
【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言
Multi-SWE-bench是首个覆盖Python外7种主流编程语言的代码修复基准,包含1632个真实GitHub问题样本,通过严格筛选与人工验证确保数据质量。
338 0
【内附榜单】评估AI大模型的代码修复能力!Multi-SWE-bench:字节开源代码修复能力评估基准,覆盖7大主流编程语言
|
7月前
|
人工智能 运维 监控
从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓
唯有通过全行业的协同努力,加强整体、完善的网络安全可观测建设,才能为 AI 技术的创新和发展构建一个安全而稳固的环境。我们期盼并相信,在攻克这些网络安全难题之后,AI 创新将迎来更加安全、灿烂的未来。
|
5月前
|
人工智能 自然语言处理 Prometheus
不懂 PromQL,AI 智能体帮你玩转大规模指标数据分析
PromQL AI 智能体上线。本文将从自然语言生成 PromQL 实践视角,探讨如何构建知识库、与大模型进行交互、最终生成符合需求的 PromQL 语句。本文还介绍了在 MCP 和云监控控制台下使用 AI 智能体的用例。
439 51
|
6月前
|
人工智能 测试技术 API
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
PaperBench是OpenAI推出的开源评测框架,通过8316个评分节点系统评估AI智能体复现学术论文的能力,涵盖理论理解、代码实现到实验执行全流程。
337 30
PaperBench:OpenAI开源AI智能体评测基准,8316节点精准考核复现能力
|
存储 人工智能 NoSQL
表格存储:为 AI 注入“记忆”,构建大规模、高性能、低成本的 Agent Memory 数据底座
本文探讨了AI Agent市场爆发增长背景下的存储需求,重点介绍了Tablestore在Agent Memory存储中的优势。2025年被视为AI Agent市场元年,关键事件推动技术发展。AI Agent的存储分为Memory(短期记忆)和Knowledge(长期知识)。Tablestore通过高性能、低成本持久化存储、灵活的Schemaless设计等特性满足Memory场景需求;在Knowledge场景中,其多元索引支持全文、向量检索等功能,优化成本与稳定性。实际案例包括通义App、某浏览器及阿里云多项服务,展示Tablestore的卓越表现。最后邀请加入钉钉群共同探讨AI技术。
1403 14
|
6月前
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
316 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
6月前
|
人工智能 运维 监控
从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓
本文探讨了中国大模型DeepSeek在全球范围内的成功及其面临的网络安全挑战。DeepSeek以低成本、高性能的特点迅速走红,甚至超越ChatGPT,但同时也遭受了大规模恶意攻击,如DDoS和密码暴力破解。文章分析了这些攻击对AI行业的影响,并提出通过阿里云构建安全可观测体系的解决方案,包括流量监控、日志审计与异常检测等,为AI技术的安全发展提供保障。
223 0
|
6月前
|
人工智能 文字识别 自动驾驶
突破自动驾驶"交规困境":高德&西交发布交规+高精地图基准MapDR,车道级交通规则在线理解,让AI更懂交规!
作为专业领先的出行和位置服务提供商,高德地图以数据准确率高、鲜度高著称。当前自动驾驶技术总是关注到矢量地图的构建,往往忽略了车道级驾驶规则的制作。对应图商而言,车道级的领航不仅需要有正确的车道级矢量表达,还要明确每条路的驾驶规则,保证引导的准确率。
197 2
|
7月前
|
人工智能 运维 监控
从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓
从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓
110 1
从大规模恶意攻击 DeepSeek 事件看 AI 创新隐忧:安全可观测体系建设刻不容缓

热门文章

最新文章