7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI

简介: 7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI

本周主要论文包括谷歌机器人团队提出的多任务模型——Robotics Transformer 1 (RT-1),以及 DeepMind 用一句话生成一个剧本的写作型 AI。


目录:


  1. RT-1: Robotics Transformer for Real-World Control at Scale
  2. Abstract Visual Reasoning with Tangram Shapes
  3. Re^3 : Generating Longer Stories With Recursive Reprompting and Revision
  4. BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis
  5. Parameter-Efficient Masking Networks
  6. CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics
  7. Co-Writing Screenplays and Theatre Scripts with Language Models An Evaluation by Industry Professionals
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:RT-1: Robotics Transformer for Real-World Control at Scale



摘要:谷歌机器人团队等提出了 Robotics Transformer 1 (RT-1)。这是一种多任务模型,可以 tokenize 机器人的输入和输出动作,从而在运行时实现高效推理,使实时控制成为可能。


RT-1 模型在包含 130k 个 episode 的大型真实机器人数据集上进行训练,该数据集涵盖了 700 多项任务,使用 Everyday Robots (EDR) 的 13 台机器人在 17 个月内收集而成。数据集中展示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。



推荐:轻松完成 700 多条指令、成功率达 97%!谷歌开源机器人领域 transformer。


论文 2:Abstract Visual Reasoning with Tangram Shapes



摘要:在这篇论文中,康奈尔大学等机构的研究者介绍了「KiloGram」,一个用于研究人类和机器的抽象视觉推理的资源库。KiloGram 在两个方面极大地改进了现有资源。


首先,研究者策划并数字化了 1016 个形状,创造了一个比现有工作中使用的集合大两个数量级的集合。这个集极大地增加了对整个命名变化范围的覆盖,提供了一个关于人类命名行为的更全面的视角。第二,该集合不是把每个七巧板当作一个单一的整体形状,而是当成由原始的拼图碎片构成的矢量图形。这种分解能够对整个形状和它们的部分进行推理。研究者利用这个新的数字化七巧板图形集合来收集大量的文本描述数据,反映了命名行为的高度多样性。



推荐:EMNLP 2022 最佳长论文。


论文 3:Re^3 : Generating Longer Stories With Recursive Reprompting and Revision



摘要:在今天的人工智能领域,AI 写作神器层出不穷,技术和产品可谓日新月异。如果说 OpenAI 两年前发布的 GPT-3 在文笔上还稍欠火候,那么前段时间的 ChatGPT 的生成结果可以算是「文笔华丽、情节饱满、逻辑自洽兼而有之」。


有人说,AI 要是动起笔来,那真是没人类什么事了。但不管是人类还是 AI,一旦把「字数要求」提高,文章就会变得更难「驾驭」。近日,华人 AI 研究科学家田渊栋和其他几位研究者最近一起发布了一个新的语言模型——Re^3,这项研究也入选了 EMNLP 2022。



推荐:符合人类创作过程的 AIGC:自动生成长故事的模型出现了。


论文 4:BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis



摘要:华为东京研究所 - Digital Human Lab 与东京大学等合作进行了研究,提出了目前为止最大规模的数字人多模态数据集:BEAT (Body-Expression-Audio-Text),由 76 小时动捕设备采集的谈话数据和语义 - 情感标注组成。原始数据包含肢体和手部动捕数据,AR Kit 标准 52 维面部 blendshape 权重,音频与文本,标注数据包含 8 类情感分类标签,以及动作类型分类和语义相关度打分。


在 BEAT 的基础上提出的新基线模型 CaMN (Cascade-Motion-Network) 采取级联神经网络结构,由 BEAT 中其余三种模态和标注作为输入,在动作生成任务上显著优于现有 SoTA (state-of-the-art) 算法。论文已于 ECCV2022 上发表,数据集已经开源。



推荐:76 小时动捕,最大规模数字人多模态数据集开源。


论文 5:Parameter-Efficient Masking Networks



摘要:为了处理更复杂的任务,近年来神经网络的规模也在不断变大,如何高效的储存和传输神经网络变得十分重要。另一方面,随着彩票假说(Lottery Ticket Hypothesis (LTH))的提出,随机稀疏神经网络最近展现出很强的潜力,如何利用这种潜力来提高网络的存储和传输效率也很值得探索。


美国东北大学和罗切斯特理工的研究者提出参数集约型掩码网络(Parameter-Efficient Masking Networks (PEMN))。作者首先探索了有限数量随机数生成的随机网络的表征能力。实验表明,即使网络由有限数量的随机数生成,通过选择不同的子网络结构,其依然具有很好的表征能力。文章已被 NeurIPS 2022 接受。代码已开源。



推荐:如何提高存储、传输效率?参数集约型掩码网络效果显著。


论文 6:CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics



摘要:2022 年是人工智能生成内容(AI Generated Content,AIGC)爆发的一年,其中一个热门方向就是通过文字描述(text prompt)来对图片进行编辑。已有方法通常需要依赖在大规模数据集上训练的生成模型,不仅数据采集和训练成本高昂,且会导致模型尺寸较大。这些因素给技术落地于实际开发和应用带来了较高的门槛,限制了 AIGC 的发展和创造力发挥。


针对以上痛点,网易互娱 AI Lab 与上海交通大学合作进行了研究,创新性地提出一套基于可微矢量渲染器的解决方案——CLIPVG,首次实现了在不依赖于任何生成模型的情况下,进行文字引导的图像编辑。该方案巧妙地利用矢量元素的特性对优化过程进行约束,因此不仅能够避免海量数据需求和高昂的训练开销,在生成效果上也达到了最优的水准。论文已被 AAAI 2023 收录。



推荐:首次不依赖生成模型,一句话让 AI 修图!


论文 7:Co-Writing Screenplays and Theatre Scripts with Language Models An Evaluation by Industry Professionals



摘要:你是否有过这种体验:某一天逛街的时候,脑子里突然冒出来一个好玩的故事,但你一时想不到更多的细节,也没有一块完整的时间去把它写出来?DeepMind 新出的一款剧本写作 AI——Dramatron 或许可以帮到你。


Dramatron 是一个「联合写作」工具,你给它一句话描述中心戏剧冲突(比如 James 在有 Sam 鬼魂出没的后院发现了一口井),它就能自动写出标题、角色、场景描述和对话。



推荐:OpenAI ChatGPT 走红,DeepMind 不甘示弱,推出剧本写作 AI,一句话生成一个剧本。

相关文章
|
29天前
|
机器学习/深度学习 人工智能 算法
DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者
【8月更文挑战第30天】DeepMind团队近日在机器人乒乓球领域取得了重大突破,其研发的机器人在与人类初学者的对战中表现出色,展现了惊人的技术水平和适应能力。这项成果不仅彰显了人工智能在体育竞技中的巨大潜力,还引发了关于AI与人类技能关系的广泛讨论。尽管存在一些挑战,如学习能力和成本问题,但该技术在训练、娱乐等方面的应用前景值得期待。论文详情见【https://arxiv.org/pdf/2408.03906】。
36 5
|
1月前
|
机器学习/深度学习 并行计算 机器人
Humanoid-Gym 开源人形机器人端到端强化学习训练框架!星动纪元联合清华大学、上海期智研究院发布!
Humanoid-Gym 开源人形机器人端到端强化学习训练框架!星动纪元联合清华大学、上海期智研究院发布!
69 4
|
1月前
|
缓存 算法 Ubuntu
TinyMPC - CMU (卡耐基梅隆大学)开源的机器人 MPC 控制器
TinyMPC - CMU (卡耐基梅隆大学)开源的机器人 MPC 控制器
70 5
|
2月前
|
机器学习/深度学习 算法 机器人
相隔3000英里,用苹果头显遥控机器人!UCSD、MIT华人团队开源TeleVision
【7月更文挑战第19天】UCSD和MIT华人团队开发的TeleVision技术实现了远程操控机器人。借助AR/VR,操作者通过头显设备获得实时的机器人视角,并通过手势控制执行任务。系统支持多人协作,已在远距离实验中成功导航复杂环境。不过,高带宽需求和交互学习曲线是挑战。[论文链接](https://robot-tv.github.io/resources/television.pdf)**
56 14
|
1月前
|
人工智能 自然语言处理 安全
盘点国内:AI写作助手_ai智能问答机器人
AI写作助手是利用人工智能技术,特别是自然语言处理(NLP)技术,来辅助用户进行写作的工具。这类助手通过分析大量文本数据,能够理解语言的结构和含义,从而生成、编辑或优化文本内容。AI写作助手通常具有自动纠错、语法检查、内容生成和风格调整等功能,帮助用户提高写作效率和质量。
|
2月前
|
人工智能 自然语言处理 机器人
客户在哪儿AI的ToB获客服务和AI外呼机器人的有何不同
客户在哪儿AI的ToB获客服务 VS AI外呼机器人的ToB获客服务。
|
2月前
|
机器学习/深度学习 监控 安全
相隔3000英里,用苹果头显遥控机器人!UCSD、MIT华人团队开源TeleVision
【7月更文挑战第20天】加州大学圣地亚哥分校(UCSD)与麻省理工学院(MIT)的华人团队开发出TeleVision系统,结合Apple AR/VR头显,实现超远程沉浸式机器人控制。💡该系统克服视频流延迟,精准手势识别难题,让操作者仿佛亲临现场指挥机器人行动。目前处于研究阶段,已展示基本任务执行能力。更多信息查阅[论文](https://robot-tv.github.io/resources/television.pdf)。🌐 --- **🏷️远程控制** **🏷️虚拟现实** **🏷️机器人技术** **🏷️华人科研** **🏷️科技创新**
40 4
|
2月前
|
传感器 人工智能 搜索推荐
苹果首款搭载Apple Intelligence功能的新品类曝光——AI桌面机器人
苹果研发的AI桌面机器人,融合360度机械臂与显示屏,预示智能家居新篇章。具备生物识别、实时交互与HomeKit控制,挑战已有的智能音箱市场。面对竞争,苹果依赖创新与品牌影响力,有望引领潮流,开启更智能、个性化的家庭体验。
54 0
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
Midjourney是一个基于GPT-3.5系列接口开发的免费AI机器人
Midjourney是一个基于GPT-3.5系列接口开发的免费AI机器人
55 0
|
3天前
|
机器学习/深度学习 存储 人工智能
AI与未来医疗:技术的飞跃与挑战
在当今科技迅速发展的时代,人工智能(AI)正以前所未有的速度渗透到各行各业。特别是在医疗领域,AI的潜力和应用前景令人瞩目。本文将探讨AI在未来医疗中的角色,分析其带来的变革与挑战,并展望未来的发展方向。

热门文章

最新文章