论文 5:A Ceramic-Electrolyte Glucose Fuel Cell for Implantable Electronics
- 作者:Philipp Simons、Steven A. Schenk 等
- 论文地址:https://onlinelibrary.wiley.com/doi/full/10.1002/adma.202109075
摘要:近日,MIT 材料科学与工程系(DMSE)博士、Amgen 公司现运营经理 Philipp Simons 与其同事开发出了一种新型的葡萄糖燃料电池,可以直接将葡萄糖转换为电流。相关论文《A Ceramic-Electrolyte Glucose Fuel Cell for Implantable Electronics》在期刊 Advanced Materials 上发表。
该设备体积小于其他研究提出的葡萄糖燃料电池,仅 400 纳米厚,大约为人头发直径的 1/100。含糖(sugary)电源每平方厘米可以产生大约 43 微瓦特电流,实现了迄今为止环境条件下所有葡萄糖燃料电池所能产生的最高功率密度。
新的葡萄糖燃料电池具有很强的耐受力,能够承受最高 600 摄氏度的温度。如果集成到医学植入物中,该燃料电池可以在所有植入式设备所需的高温灭菌过程保持稳定。设备的核心由陶瓷制成,这种材料即使在高温和微型氧化皮下也能保持自身电化学属性。
如下从左到右分别为葡萄糖燃料电池、芯片和单个设备的示意图。其中,a 为基于多孔 Pt 阳极 / 二氧化铈电解质 / 密集 Pt 阴极的独立式膜的陶瓷葡萄糖燃料电池的构造;b 为包含 30 个葡萄糖燃料电池设备的燃料电池芯片示意图;c 为单个独立式铈膜的光学显微镜图像。
推荐:耐 600 度高温,MIT 用陶瓷制成葡萄糖燃料电池,为身体植入设备供电。
论文 6:An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems
- 作者:Andrea Gesmundo、Jeff Dean
- 论文地址:https://arxiv.org/abs/2205.12755
摘要:在该论文中,Jeff Dean 等人提出了一种进化算法,可以生成大规模的多任务模型,同时也支持新任务的动态和连续添加,生成的多任务模型是稀疏激活的,并集成了基于任务的路由,该路由保证了有限的计算成本,并且随着模型的扩展,每个任务添加的参数更少。
作者表示,其提出的新方法依赖于知识划分技术,实现了对灾难性遗忘和其他常见缺陷(如梯度干扰和负迁移)的免疫。实验表明,新方法可以联合解决并在 69 个图像分类任务上取得有竞争力的结果,例如对仅在公共数据上训练的模型,在 CIFAR-10 上实现了新的业界最高识别准确度 99.43%。
作者提出的 µ2Net 模型可以预训练或随机初始化。一次搜索出的单个任务上的最佳模型称为活动任务。在任务的活跃阶段,在活跃任务上训练的模型群体会不断进化——随机突变然后测试评分,保留高分的,淘汰低分的。一个活跃阶段由多代组成,其中并行采样和训练多批子模型。在任务活动阶段结束时,仅保留其最佳评分模型作为多任务系统的一部分。一个任务可以被多次激活。
作者表示 µ2Net 可以在大型任务集上实现最先进的质量,并能够将新任务动态地引入正在运行的系统中。学习的任务越多,系统中嵌入的知识就越多。同时,随着系统的增长,参数激活的稀疏性使每个任务的计算量和内存使用量保持不变。通过实验,每个任务的平均增加参数量减少了 38%,由此产生的多任务系统仅激活了每个任务总参数的 2.3%。
推荐:Jeff Dean 新论文。
论文 7:Bridging Video-text Retrieval with Multiple Choice Questions
- 作者:Yuying Ge、Yixiao Ge、Xihui Liu、Dian Li、Ying Shan、Xiaohu Qie、Ping Luo
- 论文地址:https://arxiv.org/abs/2201.04850
摘要:用于文本视频检索的多模态预训练工作主要采用两类方法:“双流” 法训练两个单独的编码器来约束视频级别和语句级别的特征,忽略了各自模态的局部特征和模态间的交互;“单流” 法把视频和文本联结作为联合编码器的输入来进行模态间的融合,导致下游检索非常低效。
本文提出一个全新的带有参数化模块的借口任务(pretext task),叫做 “多项选择题”(MCQ),通过训练 BridgeFormer 根据视频内容回答文本构成的选择题,来实现细粒度的视频和文本交互,并在下游时移除辅助的 BridgeFormer,以保证高效的检索效率。
如下图所示,该研究的方法包含一个视频编码器 VideoFormer,用来从原始的视频帧提取视频特征;一个文本编码器 TextFormer,用来从自然语言提取文本特征。该研究通过抹去文本描述里的名词短语或动词短语,来分别构造名词问题和动词问题。以对比学习的形式,训练 BridgeFormer 通过求助 VideoFormer 提取到的局部视频特征,从多个选项里挑选出正确的答案。这里,多个选项由一个训练批次里所有被抹去的短语构成。
这一辅助的预训练目标会促使 VideoFormer 提取视频里准确的空间内容,使得 BridgeFormer 能够回答出名词问题,并捕获到视频里物体的时序移动,使得 BridgeFormer 能够回答出动词问题。这样的训练机制使得 VideoFormer 更能感知视频里的局部物体和时序动态。视频和文本局部特征的关联也通过问题和回答这样的形式得到了有效的建立。由于 BridgeFormer 联结了视频和文本的每一层特征,对 BridgeFormer 的约束就会进而优化视频和文本的特征。因此辅助的 BridgeFormer 只用于预训练,在下游检索时可以被移除,从而保留高效的双编码器结构。
如下图所示,该研究预训练流程包含三个部分,来分别优化三个统一的对比学习(contrastive learning)形式的预训练目标:
该研究的模型包含一个视频编码器 VideoFormer,一个文本编码器 TextFormer,和一个辅助的编码器 BridgeFormer。每一个编码器由一系列 transformer 模块构成。TextFormer 输出的每一层问题文本特征被视为 query,VideoFormer 输出的每一层视频特征被视为 key 和 value,被送入 BridgeFormer 相应层来执行跨模态的注意力机制,以获得回答特征。
推荐:视频文本预训练新 SOTA!港大、腾讯 ARC Lab 推出基于多项选择题的借口任务。
ArXiv Weekly Radiostation
机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
本周 10 篇 NLP 精选论文是:
1. A Multi-level Supervised Contrastive Learning Framework for Low-Resource Natural Language Inference. (from Philip S. Yu)
2. VD-PCR: Improving Visual Dialog with Pronoun Coreference Resolution. (from Hongming Zhang, Changshui Zhang)
3. CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI. (from Minlie Huang)
4. Few-shot Subgoal Planning with Language Models. (from Honglak Lee)
5. Differentially Private Decoding in Large Language Models. (from Richard Zemel)
6. A Mixture-of-Expert Approach to RL-based Dialogue Management. (from Craig Boutilier)
7. CEBaB: Estimating the Causal Effects of Real-World Concepts on NLP Model Behavior. (from Christopher Potts)
8. Controllable Text Generation with Neurally-Decomposed Oracle. (from Kai-Wei Chang)
9. Understanding How People Rate Their Conversations. (from Dilek Hakkani-Tur)
10. An Informational Space Based Semantic Analysis for Scientific Texts. (from Alexander N. Gorban)
本周 10 篇 CV 精选论文是:
1. Voxel Field Fusion for 3D Object Detection. (from Jian Sun, Jiaya Jia)
2. Unifying Voxel-based Representation with Transformer for 3D Object Detection. (from Jian Sun, Jiaya Jia)
3. A Closer Look at Self-supervised Lightweight Vision Transformers. (from Jian Sun, Weiming Hu)
4. Unveiling The Mask of Position-Information Pattern Through the Mist of Image Features. (from Ming-Hsuan Yang)
5. Cascaded Video Generation for Videos In-the-Wild. (from Aaron Courville)
6. Modeling Image Composition for Complex Scene Generation. (from Jie Yang, Dacheng Tao)
7. Visual Superordinate Abstraction for Robust Concept Learning. (from Dacheng Tao)
8. Multi-Task Learning with Multi-query Transformer for Dense Prediction. (from Dacheng Tao)
9. Glo-In-One: Holistic Glomerular Detection, Segmentation, and Lesion Characterization with Large-scale Web Image Mining. (from Agnes B. Fogo)
10. Siamese Image Modeling for Self-Supervised Vision Representation Learning. (from Yu Qiao, Xiaogang Wang)
10 ML Papers音频:00:0021:22
本周 10 篇 ML 精选论文是:
1. Provably Sample-Efficient RL with Side Information about Latent Dynamics. (from Robert E. Schapire)
2. Learning to Control Linear Systems can be Hard. (from Manfred Morari, George J. Pappas)
3. So3krates -- Self-attention for higher-order geometric interactions on arbitrary length-scales. (from Klaus-Robert Müller)
4. Graph-level Neural Networks: Current Progress and Future Directions. (from Jian Yang, Quan Z. Sheng, Charu Aggarwal)
5. Dataset Distillation using Neural Feature Regression. (from Jimmy Ba)
6. You Can't Count on Luck: Why Decision Transformers Fail in Stochastic Environments. (from Jimmy Ba)
7. Adaptive Random Forests for Energy-Efficient Inference on Microcontrollers. (from Luca Benini)
8. Multi-Complexity-Loss DNAS for Energy-Efficient and Memory-Constrained Deep Neural Networks. (from Luca Benini)
9. Open Environment Machine Learning. (from Zhi-Hua Zhou)
10. Parameter-Efficient and Student-Friendly Knowledge Distillation. (from Dacheng Tao)