7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构(2)

简介: 7 Papers & Radios | 中文大规模跨模态新基准Zero;AI与冷冻电镜揭示原子级NPC结构

论文 6:Siamese Image Modeling for Self-Supervised Vision Representation Learning


摘要:研究者提出了 Siamese Image Modeling(SIM),该方法通过一张遮盖的增强视图来预测相同图像的另一张增强视图的密集特征表示。为了达到这个目标,SIM 采用了孪生网络结构,该结构包含 online 和 target 两个分支。Online 分支首先将第一张遮盖视图映射到特征空间,然后基于第一张图的特征和第一、二张图的相对位置坐标来预测第二张图的特征;Target 分支则负责将第二张图映射到特征空间来获得目标特征。
通过这种方式,SIM 能够分别在线性分类任务上和 ID 方法持平,以及在检测任务上和 MIM 方法持平,研究者进一步发现即便没有全局的损失函数,SIM 也能给出很好的线性分类表现。

ID、 MIM 和 SIM 框架的比较。

Siamese Image Modeling 概览。

ViT-B/16 上 SIM 与其他方法的结果比较。

推荐:自监督学习如何兼顾语义对齐与空间分辨能力?清华、商汤提出「SIM」方法。

论文 7:FlowBot3D: Learning 3D Articulation Flow to Manipulate Articulated Objects


摘要:最近,CMU 机器人学院 David Held 教授 R-PAD 实验室的两名学生 Ben Eisner 和 Harry Zhang 在操纵复杂的关节物体方面取得了突破,并推出了基于 3D 神经网络的 FlowBot 3D,一种有效表达和预测关节物体部分运动轨迹的算法,如日常家具。该算法包含两个部分。
第一个部分是感知部分,这个部分使用 3D 深度神经网络从被操纵家具物体的点云数据中预测三维瞬时运动轨迹。算法的第二个部分是策略部分,它使用预测得到的 3D Articulated Flow 来选择机器人的下一个动作。
两者都在模拟器中完全学习,可以直接在现实世界中实现,无需重新训练或调整。在 FlowBot 3D 算法的帮助下,机器人可以像人类一样随意操纵日常家具等关节物体。

FlowBot 3D 的两个模块。

打开冰箱门。

打开马桶盖。

推荐:CMU 发表新型灵巧机器人算法,准确学习日常家具的操纵方法。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
10 NLP Papers音频:00:0022:27
本周 10 篇 NLP 精选论文是:


1. Unsupervised Key Event Detection from Massive Text Corpora.  (from Jiawei Han)

2. Beyond Opinion Mining: Summarizing Opinions of Customer Reviews.  (from Bing Liu)

3. Words are all you need? Capturing human sensory similarity with textual descriptors.  (from Thomas L. Griffiths)

4. Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos.  (from Alexander Waibel)

5. Plumber: A Modular Framework to Create Information Extraction Pipelines.  (from Sören Auer)

6. LegoNN: Building Modular Encoder-Decoder Models.  (from Abdelrahman Mohamed)

7. Latent Topology Induction for Understanding Contextualized Representations.  (from Mirella Lapata)

8. Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future.  (from Bonnie Webber)

9. Topic-Aware Evaluation and Transformer Methods for Topic-Controllable Summarization.  (from Grigorios Tsoumakas)

10. Factuality Enhanced Language Models for Open-Ended Text Generation.  (from Bryan Catanzaro)


本周 10 篇 CV 精选论文是:1. PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images.  (from Xiangyu Zhang, Jian Sun)2. Revisiting the "Video" in Video-Language Understanding.  (from Li Fei-Fei)3. PrivHAR: Recognizing Human Actions From Privacy-preserving Lens.  (from Li Fei-Fei)4. Compositional Visual Generation with Composable Diffusion Models.  (from Antonio Torralba, Joshua B. Tenenbaum)5. Polymorphic-GAN: Generating Aligned Samples across Multiple Domains with Learned Morph Maps.  (from Antonio Torralba)6. Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval.  (from Shih-Fu Chang)7. Beyond RGB: Scene-Property Synthesis with Neural Radiance Fields.  (from Martial Hebert)8. Generating Long Videos of Dynamic Scenes.  (from Alexei A. Efros)9. STIP: A SpatioTemporal Information-Preserving and Perception-Augmented Model for High-Resolution Video Prediction.  (from Wen Gao)10. Hierarchical Similarity Learning for Aliasing Suppression Image Super-Resolution.  (from Wen Gao)



本周 10 篇 ML 精选论文是:
1. Schema-Guided Event Graph Completion.  (from Jiawei Han)2. BaCaDI: Bayesian Causal Discovery with Unknown Interventions.  (from Bernhard Schölkopf, Andreas Krause)3. Causal Discovery in Heterogeneous Environments Under the Sparse Mechanism Shift Hypothesis.  (from Bernhard Schölkopf)4. Rethinking and Scaling Up Graph Contrastive Learning: An Extremely Efficient Approach with Group Discrimination.  (from Philip S. Yu)5. DORA: Exploring outlier representations in Deep Neural Networks.  (from Klaus-Robert Müller)6. Imitating Past Successes can be Very Suboptimal.  (from Sergey Levine, Ruslan Salakhutdinov)7. Towards Understanding Why Mask-Reconstruction Pretraining Helps in Downstream Tasks.  (from Shuicheng Yan)8. From "Where" to "What": Towards Human-Understandable Explanations through Concept Relevance Propagation.  (from Thomas Wiegand)9. Expressiveness and Learnability: A Unifying View for Evaluating Self-Supervised Learning.  (from Aaron Courville)10. Beyond Tabula Rasa: Reincarnating Reinforcement Learning.  (from Aaron Courville, Marc G. Bellemare)

相关文章
|
28天前
|
机器学习/深度学习 人工智能 并行计算
"震撼!CLIP模型:OpenAI的跨模态奇迹,让图像与文字共舞,解锁AI理解新纪元!"
【10月更文挑战第14天】CLIP是由OpenAI在2021年推出的一种图像和文本联合表示学习模型,通过对比学习方法预训练,能有效理解图像与文本的关系。该模型由图像编码器和文本编码器组成,分别处理图像和文本数据,通过共享向量空间实现信息融合。CLIP利用大规模图像-文本对数据集进行训练,能够实现zero-shot图像分类、文本-图像检索等多种任务,展现出强大的跨模态理解能力。
78 2
|
5月前
|
存储 数据采集 人工智能
AI时代:云存储加速多模态数据存储与管理创新
阿里云存储产品高级解决方案架构师欧阳雁(乐忱)分享了中国企业在全闪存高端存储市场的快速增长,指出AI大模型的发展推动了企业级存储市场。去年,高端企业级存储闪存占比约为25%,相较于欧美50%的比例,显示出中国在AI领域的巨大增长潜力。演讲涵盖AI业务流程,包括数据预处理、训练和推理的痛点,以及针对这些环节的存储解决方案,强调了稳定、高性能和生命周期管理的重要性。此外,还介绍了数据预处理的全球加速和弹性临时盘技术,训练阶段的高性能存储架构,推理场景的加速器和AI Agent的应用,以及应对大数据业务的存储考量,如对象存储、闪电立方和冷归档存储产品。
38649 20
|
6月前
|
传感器 机器学习/深度学习 算法
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
无人机视角yolo多模态、模型剪枝、国产AI芯片部署
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
揭秘Google Gemini:AI界的多模态革命者与ChatGPT-4的较量
203 0
|
机器学习/深度学习 人工智能 自然语言处理
多模态大一统、AI智能体将如何引领未来?阿里妈妈与人大高瓴学者探讨大模型趋势
多模态大一统、AI智能体将如何引领未来?阿里妈妈与人大高瓴学者探讨大模型趋势
292 0
|
3月前
|
人工智能 分布式计算 数据处理
Big Data for AI实践:面向AI大模型开发和应用的大规模数据处理套件
文叙述的 Big Data for AI 最佳实践,基于阿里云人工智能平台PAI、MaxCompute自研分布式计算框架MaxFrame、Data-Juicer等产品和工具,实现了大模型数据采集、清洗、增强及合成大模型数据的全链路,解决企业级大模型开发应用场景的数据处理难题。
|
4月前
|
人工智能 PyTorch TensorFlow
分布式训练:大规模AI模型的实践与挑战
【7月更文第29天】随着人工智能的发展,深度学习模型变得越来越复杂,数据集也越来越大。为了应对这种规模的增长,分布式训练成为了训练大规模AI模型的关键技术。本文将介绍分布式训练的基本概念、常用框架(如TensorFlow和PyTorch)、最佳实践以及可能遇到的性能瓶颈和解决方案。
759 2
|
4月前
|
人工智能
魔搭多模态AI单词助记&通义APP即时口语练习,你从未体验过的全新版本!
首次接触魔搭多模态AI单词助记工具让我颇感惊喜。传统背单词方式枯燥低效,而该工具通过生成关联图像、短语或故事,让记忆变得生动有趣。访问[Word-wizard](https://modelscope.cn/studios/makabakaing/Word-wizard)体验其图文记忆和视觉学习功能。目前图文记忆功能似乎存在问题,但视觉学习功能仍可正常使用,能识别图片特征并生成释义和例句,辅助学习效果不错。此外,可通过通义APP实现即时口语练习,尽管缺乏上下文记忆功能,但仍是一个优秀的练习工具。
|
5月前
|
人工智能 JSON 自然语言处理
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
GLM-4-9B是智谱AI推出的新一代预训练模型GLM-4系列的开源版本,它在多个数据集上的测试中表现出高绩效,包括语义理解、数学问题解决、推理和代码理解等方面。GLM-4-9B模型有四个变体:基础版GLM-4-9B(8K)、对话版GLM-4-9B-Chat(128K)、超长上下文版GLM-4-9B-Chat-1M(1M)和多模态版GLM-4V-9B-Chat(8K)。用户可以通过魔搭社区提供的链接体验这些模型,包括在CPU上运行的版本和支持vLLM推理的版本。
智谱AI GLM4开源!支持多模态&长序列,魔搭推理、微调最佳实践来啦!
|
5月前
|
人工智能 自然语言处理 Java
Spring AI是一个开源的多模态AI模型平台
Spring AI是一个开源的多模态AI模型平台
341 2

热门文章

最新文章