7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI

简介: 7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI

本周主要论文包括谷歌机器人团队提出的多任务模型——Robotics Transformer 1 (RT-1),以及 DeepMind 用一句话生成一个剧本的写作型 AI。


目录:


  1. RT-1: Robotics Transformer for Real-World Control at Scale
  2. Abstract Visual Reasoning with Tangram Shapes
  3. Re^3 : Generating Longer Stories With Recursive Reprompting and Revision
  4. BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis
  5. Parameter-Efficient Masking Networks
  6. CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics
  7. Co-Writing Screenplays and Theatre Scripts with Language Models An Evaluation by Industry Professionals
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:RT-1: Robotics Transformer for Real-World Control at Scale



摘要:谷歌机器人团队等提出了 Robotics Transformer 1 (RT-1)。这是一种多任务模型,可以 tokenize 机器人的输入和输出动作,从而在运行时实现高效推理,使实时控制成为可能。


RT-1 模型在包含 130k 个 episode 的大型真实机器人数据集上进行训练,该数据集涵盖了 700 多项任务,使用 Everyday Robots (EDR) 的 13 台机器人在 17 个月内收集而成。数据集中展示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。



推荐:轻松完成 700 多条指令、成功率达 97%!谷歌开源机器人领域 transformer。


论文 2:Abstract Visual Reasoning with Tangram Shapes



摘要:在这篇论文中,康奈尔大学等机构的研究者介绍了「KiloGram」,一个用于研究人类和机器的抽象视觉推理的资源库。KiloGram 在两个方面极大地改进了现有资源。


首先,研究者策划并数字化了 1016 个形状,创造了一个比现有工作中使用的集合大两个数量级的集合。这个集极大地增加了对整个命名变化范围的覆盖,提供了一个关于人类命名行为的更全面的视角。第二,该集合不是把每个七巧板当作一个单一的整体形状,而是当成由原始的拼图碎片构成的矢量图形。这种分解能够对整个形状和它们的部分进行推理。研究者利用这个新的数字化七巧板图形集合来收集大量的文本描述数据,反映了命名行为的高度多样性。



推荐:EMNLP 2022 最佳长论文。


论文 3:Re^3 : Generating Longer Stories With Recursive Reprompting and Revision



摘要:在今天的人工智能领域,AI 写作神器层出不穷,技术和产品可谓日新月异。如果说 OpenAI 两年前发布的 GPT-3 在文笔上还稍欠火候,那么前段时间的 ChatGPT 的生成结果可以算是「文笔华丽、情节饱满、逻辑自洽兼而有之」。


有人说,AI 要是动起笔来,那真是没人类什么事了。但不管是人类还是 AI,一旦把「字数要求」提高,文章就会变得更难「驾驭」。近日,华人 AI 研究科学家田渊栋和其他几位研究者最近一起发布了一个新的语言模型——Re^3,这项研究也入选了 EMNLP 2022。



推荐:符合人类创作过程的 AIGC:自动生成长故事的模型出现了。


论文 4:BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis



摘要:华为东京研究所 - Digital Human Lab 与东京大学等合作进行了研究,提出了目前为止最大规模的数字人多模态数据集:BEAT (Body-Expression-Audio-Text),由 76 小时动捕设备采集的谈话数据和语义 - 情感标注组成。原始数据包含肢体和手部动捕数据,AR Kit 标准 52 维面部 blendshape 权重,音频与文本,标注数据包含 8 类情感分类标签,以及动作类型分类和语义相关度打分。


在 BEAT 的基础上提出的新基线模型 CaMN (Cascade-Motion-Network) 采取级联神经网络结构,由 BEAT 中其余三种模态和标注作为输入,在动作生成任务上显著优于现有 SoTA (state-of-the-art) 算法。论文已于 ECCV2022 上发表,数据集已经开源。



推荐:76 小时动捕,最大规模数字人多模态数据集开源。


论文 5:Parameter-Efficient Masking Networks



摘要:为了处理更复杂的任务,近年来神经网络的规模也在不断变大,如何高效的储存和传输神经网络变得十分重要。另一方面,随着彩票假说(Lottery Ticket Hypothesis (LTH))的提出,随机稀疏神经网络最近展现出很强的潜力,如何利用这种潜力来提高网络的存储和传输效率也很值得探索。


美国东北大学和罗切斯特理工的研究者提出参数集约型掩码网络(Parameter-Efficient Masking Networks (PEMN))。作者首先探索了有限数量随机数生成的随机网络的表征能力。实验表明,即使网络由有限数量的随机数生成,通过选择不同的子网络结构,其依然具有很好的表征能力。文章已被 NeurIPS 2022 接受。代码已开源。



推荐:如何提高存储、传输效率?参数集约型掩码网络效果显著。


论文 6:CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics



摘要:2022 年是人工智能生成内容(AI Generated Content,AIGC)爆发的一年,其中一个热门方向就是通过文字描述(text prompt)来对图片进行编辑。已有方法通常需要依赖在大规模数据集上训练的生成模型,不仅数据采集和训练成本高昂,且会导致模型尺寸较大。这些因素给技术落地于实际开发和应用带来了较高的门槛,限制了 AIGC 的发展和创造力发挥。


针对以上痛点,网易互娱 AI Lab 与上海交通大学合作进行了研究,创新性地提出一套基于可微矢量渲染器的解决方案——CLIPVG,首次实现了在不依赖于任何生成模型的情况下,进行文字引导的图像编辑。该方案巧妙地利用矢量元素的特性对优化过程进行约束,因此不仅能够避免海量数据需求和高昂的训练开销,在生成效果上也达到了最优的水准。论文已被 AAAI 2023 收录。



推荐:首次不依赖生成模型,一句话让 AI 修图!


论文 7:Co-Writing Screenplays and Theatre Scripts with Language Models An Evaluation by Industry Professionals



摘要:你是否有过这种体验:某一天逛街的时候,脑子里突然冒出来一个好玩的故事,但你一时想不到更多的细节,也没有一块完整的时间去把它写出来?DeepMind 新出的一款剧本写作 AI——Dramatron 或许可以帮到你。


Dramatron 是一个「联合写作」工具,你给它一句话描述中心戏剧冲突(比如 James 在有 Sam 鬼魂出没的后院发现了一口井),它就能自动写出标题、角色、场景描述和对话。



推荐:OpenAI ChatGPT 走红,DeepMind 不甘示弱,推出剧本写作 AI,一句话生成一个剧本。

相关文章
|
29天前
|
机器学习/深度学习 人工智能 数据可视化
首个全自动科学发现AI系统,Transformer作者创业公司Sakana AI推出AI Scientist
【9月更文挑战第11天】Sakana AI公司近日推出全球首个全自动科学发现AI系统——AI Scientist,实现了人工智能在科学研究领域的重大突破。AI Scientist不仅能独立完成从假设提出到实验设计、数据分析及论文撰写的全过程,还能通过模拟评审提升研究成果的质量。该系统已成功应用于机器学习的多个子领域,并产出达到顶级会议标准的论文。尽管其高效性备受赞誉,但也引发了关于研究可信度和潜在风险的讨论。Sakana AI强调,系统具备可追溯的决策过程与严格的评审机制,确保了研究的可靠性和透明度。论文详情参见:[链接]。
64 6
|
2月前
|
人工智能 自然语言处理 搜索推荐
最强AI写作助手,内置4o模型,引领AI智能问答的新纪元
随着人工智能技术的飞速进步,BKAI凭借其强大的GPT-4o模型,正在重新定义智能问答的标准。其中表现最强的AI助手神器:BKAI
|
2月前
|
人工智能 自然语言处理 搜索推荐
AI写作助手哪家强?综合对比就数它!
在人工智能的迅速发展中,AI写作助手已成为许多专业人士和创作者的重要工具。它们能够极大地提升写作效率和文本质量。然而,面对市场上众多的AI写作助手,如何选择最适合自己的工具?本文将综合对比几款顶尖的AI写作助手,并特别推荐BKAI,这一领域的佼佼者。
|
21天前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
55 7
|
28天前
|
机器学习/深度学习 传感器 机器人
机器人策略学习的Game Changer?伯克利提出Body Transformer
【9月更文挑战第13天】加州大学伯克利分校的研究团队提出了一种名为Body Transformer(BoT)的创新架构,旨在通过将机器人的物理形态建模为传感器和执行器组成的图,并利用掩码注意力机制汇聚信息,为机器人学习策略提供有效归纳偏置。BoT不仅在模仿学习和强化学习中表现出色,在任务完成、缩放特性及计算效率方面超越传统架构,而且具备更强的稳定性和泛化能力。尽管存在适用范围和计算资源等局限性,BoT仍展示了在实际应用中的巨大潜力。论文详情见:https://arxiv.org/pdf/2408.06316v1
29 6
|
1月前
|
人工智能 并行计算 PyTorch
AI计算机视觉笔记十八:Swin Transformer目标检测环境搭建
本文详细记录了Swin Transformer在AutoDL平台上的环境搭建与训练过程。作者从租用GPU实例开始,逐步介绍了虚拟环境的创建、PyTorch安装、mmcv及mmdetection的配置,并解决了安装过程中遇到的各种问题,如cython版本冲突等。最后,通过修改代码实现目标检测结果的保存。如需了解更多细节或获取完整代码,请联系作者。原文链接:[原文链接](请在此处插入原文链接)。
|
1月前
|
人工智能 计算机视觉 Python
AI计算机视觉笔记十九:Swin Transformer训练
本文介绍了使用自定义数据集训练和测试目标检测模型的步骤。首先,通过安装并使用标注工具labelme准备数据集;接着修改配置文件以适应自定义类别,并调整预训练模型;然后解决训练过程中遇到的依赖冲突问题并完成模型训练;最后利用测试命令验证模型效果。文中提供了具体命令及文件修改指导。
|
1月前
|
人工智能 自然语言处理 算法
揭秘AI写作助手:技术原理与应用实践
在数字化浪潮的推动下,人工智能(AI)正逐步渗透到我们工作和生活的方方面面。本文将深入探讨AI写作助手的技术原理及其在不同场景的应用实例,旨在揭示这项技术如何助力内容创作、提升效率和质量。通过分析其背后的算法、数据处理方式以及实际运用效果,读者可以获得对AI写作工具更全面的认识,并了解如何利用这些工具优化自身的写作流程。
|
2月前
|
人工智能 自然语言处理 搜索推荐
AI智能写作是什么?AI写作软件哪个好用?
在当今的数字时代,AI写作软件已经成为众多用户提高写作效率和质量的重要工具。众多AI写作软件中,BBAI无疑脱颖而出,成为最受欢迎的选择之一
|
2月前
|
人工智能 自然语言处理 安全
盘点国内:AI写作助手_ai智能问答机器人
AI写作助手是利用人工智能技术,特别是自然语言处理(NLP)技术,来辅助用户进行写作的工具。这类助手通过分析大量文本数据,能够理解语言的结构和含义,从而生成、编辑或优化文本内容。AI写作助手通常具有自动纠错、语法检查、内容生成和风格调整等功能,帮助用户提高写作效率和质量。

热门文章

最新文章