7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构(2)

简介: 7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构

论文 6:Siamese Image Modeling for Self-Supervised Vision Representation Learning


摘要:研究者提出了 Siamese Image Modeling(SIM),该方法通过一张遮盖的增强视图来预测相同图像的另一张增强视图的密集特征表示。为了达到这个目标,SIM 采用了孪生网络结构,该结构包含 online 和 target 两个分支。Online 分支首先将第一张遮盖视图映射到特征空间,然后基于第一张图的特征和第一、二张图的相对位置坐标来预测第二张图的特征;Target 分支则负责将第二张图映射到特征空间来获得目标特征。
通过这种方式,SIM 能够分别在线性分类任务上和 ID 方法持平,以及在检测任务上和 MIM 方法持平,研究者进一步发现即便没有全局的损失函数,SIM 也能给出很好的线性分类表现。

ID、 MIM 和 SIM 框架的比较。

Siamese Image Modeling 概览。

ViT-B/16 上 SIM 与其他方法的结果比较。

推荐:自监督学习如何兼顾语义对齐与空间分辨能力?清华、商汤提出「SIM」方法。

论文 7:FlowBot3D: Learning 3D Articulation Flow to Manipulate Articulated Objects


摘要:最近,CMU 机器人学院 David Held 教授 R-PAD 实验室的两名学生 Ben Eisner 和 Harry Zhang 在操纵复杂的关节物体方面取得了突破,并推出了基于 3D 神经网络的 FlowBot 3D,一种有效表达和预测关节物体部分运动轨迹的算法,如日常家具。该算法包含两个部分。
第一个部分是感知部分,这个部分使用 3D 深度神经网络从被操纵家具物体的点云数据中预测三维瞬时运动轨迹。算法的第二个部分是策略部分,它使用预测得到的 3D Articulated Flow 来选择机器人的下一个动作。
两者都在模拟器中完全学习,可以直接在现实世界中实现,无需重新训练或调整。在 FlowBot 3D 算法的帮助下,机器人可以像人类一样随意操纵日常家具等关节物体。

FlowBot 3D 的两个模块。

打开冰箱门。

打开马桶盖。

推荐:CMU 发表新型灵巧机器人算法,准确学习日常家具的操纵方法。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
10 NLP Papers音频:00:0022:27
本周 10 篇 NLP 精选论文是:


1. Unsupervised Key Event Detection from Massive Text Corpora.  (from Jiawei Han)

2. Beyond Opinion Mining: Summarizing Opinions of Customer Reviews.  (from Bing Liu)

3. Words are all you need? Capturing human sensory similarity with textual descriptors.  (from Thomas L. Griffiths)

4. Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos.  (from Alexander Waibel)

5. Plumber: A Modular Framework to Create Information Extraction Pipelines.  (from Sören Auer)

6. LegoNN: Building Modular Encoder-Decoder Models.  (from Abdelrahman Mohamed)

7. Latent Topology Induction for Understanding Contextualized Representations.  (from Mirella Lapata)

8. Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future.  (from Bonnie Webber)

9. Topic-Aware Evaluation and Transformer Methods for Topic-Controllable Summarization.  (from Grigorios Tsoumakas)

10. Factuality Enhanced Language Models for Open-Ended Text Generation.  (from Bryan Catanzaro)


本周 10 篇 CV 精选论文是:1. PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images.  (from Xiangyu Zhang, Jian Sun)2. Revisiting the "Video" in Video-Language Understanding.  (from Li Fei-Fei)3. PrivHAR: Recognizing Human Actions From Privacy-preserving Lens.  (from Li Fei-Fei)4. Compositional Visual Generation with Composable Diffusion Models.  (from Antonio Torralba, Joshua B. Tenenbaum)5. Polymorphic-GAN: Generating Aligned Samples across Multiple Domains with Learned Morph Maps.  (from Antonio Torralba)6. Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval.  (from Shih-Fu Chang)7. Beyond RGB: Scene-Property Synthesis with Neural Radiance Fields.  (from Martial Hebert)8. Generating Long Videos of Dynamic Scenes.  (from Alexei A. Efros)9. STIP: A SpatioTemporal Information-Preserving and Perception-Augmented Model for High-Resolution Video Prediction.  (from Wen Gao)10. Hierarchical Similarity Learning for Aliasing Suppression Image Super-Resolution.  (from Wen Gao)



本周 10 篇 ML 精选论文是:
1. Schema-Guided Event Graph Completion.  (from Jiawei Han)2. BaCaDI: Bayesian Causal Discovery with Unknown Interventions.  (from Bernhard Schölkopf, Andreas Krause)3. Causal Discovery in Heterogeneous Environments Under the Sparse Mechanism Shift Hypothesis.  (from Bernhard Schölkopf)4. Rethinking and Scaling Up Graph Contrastive Learning: An Extremely Efficient Approach with Group Discrimination.  (from Philip S. Yu)5. DORA: Exploring outlier representations in Deep Neural Networks.  (from Klaus-Robert Müller)6. Imitating Past Successes can be Very Suboptimal.  (from Sergey Levine, Ruslan Salakhutdinov)7. Towards Understanding Why Mask-Reconstruction Pretraining Helps in Downstream Tasks.  (from Shuicheng Yan)8. From "Where" to "What": Towards Human-Understandable Explanations through Concept Relevance Propagation.  (from Thomas Wiegand)9. Expressiveness and Learnability: A Unifying View for Evaluating Self-Supervised Learning.  (from Aaron Courville)10. Beyond Tabula Rasa: Reincarnating Reinforcement Learning.  (from Aaron Courville, Marc G. Bellemare)

相关文章
|
24天前
|
机器学习/深度学习 网络架构 人工智能
AI - MoE(Mixture-of-Experts)结构
AI - MoE(Mixture-of-Experts)结构
34 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
|
3月前
|
传感器 机器学习/深度学习 算法
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
192 0
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
多模态大一统、AI智能体将如何引领未来?阿里妈妈与人大高瓴学者探讨大模型趋势
多模态大一统、AI智能体将如何引领未来?阿里妈妈与人大高瓴学者探讨大模型趋势
206 0
|
19天前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
13 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
4月前
|
人工智能 自然语言处理 Cloud Native
向量检索服务在语义检索、知识库搭建、AI多模态搜索等场景中有着广泛的应用
向量检索服务在语义检索、知识库搭建、AI多模态搜索等场景中有着广泛的应用
78 0
|
8天前
|
人工智能 决策智能
【AI Agent系列】【阿里AgentScope框架】3. 深入源码:Pipeline模块如何组织多智能体间的数据流?- 顺序结构与条件分支
【AI Agent系列】【阿里AgentScope框架】3. 深入源码:Pipeline模块如何组织多智能体间的数据流?- 顺序结构与条件分支
31 2
|
8天前
|
人工智能 数据可视化 Windows
【AI Agent系列】【LangGraph】3. 一行代码让你的 LangGraph 结构可视化!
【AI Agent系列】【LangGraph】3. 一行代码让你的 LangGraph 结构可视化!
29 0
|
8天前
|
人工智能 Oracle 关系型数据库
【AI Agent系列】【LangGraph】0. 快速上手:协同LangChain,LangGraph帮你用图结构轻松构建多智能体应用
【AI Agent系列】【LangGraph】0. 快速上手:协同LangChain,LangGraph帮你用图结构轻松构建多智能体应用
20 0
|
2月前
|
人工智能 自动驾驶 算法
只要千元级,人人可用百亿级多模态大模型!国产“AI模盒”秒级训练推理
云天励飞,中国AI独角兽,发布“AI模盒”,以千元成本实现多模态大模型的秒级训练推理,降低AI应用门槛。该产品凸显了公司在技术创新与普及中的努力,旨在构建智能城市并重塑日常生活,同时也面临数据安全、隐私保护及人才挑战。
27 3
只要千元级,人人可用百亿级多模态大模型!国产“AI模盒”秒级训练推理