7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI

简介: 7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI

本周主要论文包括谷歌机器人团队提出的多任务模型——Robotics Transformer 1 (RT-1),以及 DeepMind 用一句话生成一个剧本的写作型 AI。


目录:


  1. RT-1: Robotics Transformer for Real-World Control at Scale
  2. Abstract Visual Reasoning with Tangram Shapes
  3. Re^3 : Generating Longer Stories With Recursive Reprompting and Revision
  4. BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis
  5. Parameter-Efficient Masking Networks
  6. CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics
  7. Co-Writing Screenplays and Theatre Scripts with Language Models An Evaluation by Industry Professionals
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)


论文 1:RT-1: Robotics Transformer for Real-World Control at Scale



摘要:谷歌机器人团队等提出了 Robotics Transformer 1 (RT-1)。这是一种多任务模型,可以 tokenize 机器人的输入和输出动作,从而在运行时实现高效推理,使实时控制成为可能。


RT-1 模型在包含 130k 个 episode 的大型真实机器人数据集上进行训练,该数据集涵盖了 700 多项任务,使用 Everyday Robots (EDR) 的 13 台机器人在 17 个月内收集而成。数据集中展示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。



推荐:轻松完成 700 多条指令、成功率达 97%!谷歌开源机器人领域 transformer。


论文 2:Abstract Visual Reasoning with Tangram Shapes



摘要:在这篇论文中,康奈尔大学等机构的研究者介绍了「KiloGram」,一个用于研究人类和机器的抽象视觉推理的资源库。KiloGram 在两个方面极大地改进了现有资源。


首先,研究者策划并数字化了 1016 个形状,创造了一个比现有工作中使用的集合大两个数量级的集合。这个集极大地增加了对整个命名变化范围的覆盖,提供了一个关于人类命名行为的更全面的视角。第二,该集合不是把每个七巧板当作一个单一的整体形状,而是当成由原始的拼图碎片构成的矢量图形。这种分解能够对整个形状和它们的部分进行推理。研究者利用这个新的数字化七巧板图形集合来收集大量的文本描述数据,反映了命名行为的高度多样性。



推荐:EMNLP 2022 最佳长论文。


论文 3:Re^3 : Generating Longer Stories With Recursive Reprompting and Revision



摘要:在今天的人工智能领域,AI 写作神器层出不穷,技术和产品可谓日新月异。如果说 OpenAI 两年前发布的 GPT-3 在文笔上还稍欠火候,那么前段时间的 ChatGPT 的生成结果可以算是「文笔华丽、情节饱满、逻辑自洽兼而有之」。


有人说,AI 要是动起笔来,那真是没人类什么事了。但不管是人类还是 AI,一旦把「字数要求」提高,文章就会变得更难「驾驭」。近日,华人 AI 研究科学家田渊栋和其他几位研究者最近一起发布了一个新的语言模型——Re^3,这项研究也入选了 EMNLP 2022。



推荐:符合人类创作过程的 AIGC:自动生成长故事的模型出现了。


论文 4:BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis



摘要:华为东京研究所 - Digital Human Lab 与东京大学等合作进行了研究,提出了目前为止最大规模的数字人多模态数据集:BEAT (Body-Expression-Audio-Text),由 76 小时动捕设备采集的谈话数据和语义 - 情感标注组成。原始数据包含肢体和手部动捕数据,AR Kit 标准 52 维面部 blendshape 权重,音频与文本,标注数据包含 8 类情感分类标签,以及动作类型分类和语义相关度打分。


在 BEAT 的基础上提出的新基线模型 CaMN (Cascade-Motion-Network) 采取级联神经网络结构,由 BEAT 中其余三种模态和标注作为输入,在动作生成任务上显著优于现有 SoTA (state-of-the-art) 算法。论文已于 ECCV2022 上发表,数据集已经开源。



推荐:76 小时动捕,最大规模数字人多模态数据集开源。


论文 5:Parameter-Efficient Masking Networks



摘要:为了处理更复杂的任务,近年来神经网络的规模也在不断变大,如何高效的储存和传输神经网络变得十分重要。另一方面,随着彩票假说(Lottery Ticket Hypothesis (LTH))的提出,随机稀疏神经网络最近展现出很强的潜力,如何利用这种潜力来提高网络的存储和传输效率也很值得探索。


美国东北大学和罗切斯特理工的研究者提出参数集约型掩码网络(Parameter-Efficient Masking Networks (PEMN))。作者首先探索了有限数量随机数生成的随机网络的表征能力。实验表明,即使网络由有限数量的随机数生成,通过选择不同的子网络结构,其依然具有很好的表征能力。文章已被 NeurIPS 2022 接受。代码已开源。



推荐:如何提高存储、传输效率?参数集约型掩码网络效果显著。


论文 6:CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector Graphics



摘要:2022 年是人工智能生成内容(AI Generated Content,AIGC)爆发的一年,其中一个热门方向就是通过文字描述(text prompt)来对图片进行编辑。已有方法通常需要依赖在大规模数据集上训练的生成模型,不仅数据采集和训练成本高昂,且会导致模型尺寸较大。这些因素给技术落地于实际开发和应用带来了较高的门槛,限制了 AIGC 的发展和创造力发挥。


针对以上痛点,网易互娱 AI Lab 与上海交通大学合作进行了研究,创新性地提出一套基于可微矢量渲染器的解决方案——CLIPVG,首次实现了在不依赖于任何生成模型的情况下,进行文字引导的图像编辑。该方案巧妙地利用矢量元素的特性对优化过程进行约束,因此不仅能够避免海量数据需求和高昂的训练开销,在生成效果上也达到了最优的水准。论文已被 AAAI 2023 收录。



推荐:首次不依赖生成模型,一句话让 AI 修图!


论文 7:Co-Writing Screenplays and Theatre Scripts with Language Models An Evaluation by Industry Professionals



摘要:你是否有过这种体验:某一天逛街的时候,脑子里突然冒出来一个好玩的故事,但你一时想不到更多的细节,也没有一块完整的时间去把它写出来?DeepMind 新出的一款剧本写作 AI——Dramatron 或许可以帮到你。


Dramatron 是一个「联合写作」工具,你给它一句话描述中心戏剧冲突(比如 James 在有 Sam 鬼魂出没的后院发现了一口井),它就能自动写出标题、角色、场景描述和对话。



推荐:OpenAI ChatGPT 走红,DeepMind 不甘示弱,推出剧本写作 AI,一句话生成一个剧本。

相关文章
|
24天前
|
人工智能 自然语言处理 搜索推荐
最强AI写作助手,内置4o模型,引领AI智能问答的新纪元
随着人工智能技术的飞速进步,BKAI凭借其强大的GPT-4o模型,正在重新定义智能问答的标准。其中表现最强的AI助手神器:BKAI
|
24天前
|
人工智能 自然语言处理 搜索推荐
AI写作助手哪家强?综合对比就数它!
在人工智能的迅速发展中,AI写作助手已成为许多专业人士和创作者的重要工具。它们能够极大地提升写作效率和文本质量。然而,面对市场上众多的AI写作助手,如何选择最适合自己的工具?本文将综合对比几款顶尖的AI写作助手,并特别推荐BKAI,这一领域的佼佼者。
|
16天前
|
人工智能 文字识别 算法
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
X-AnyLabeling是一款强大的辅助标注工具,集成了AI推理引擎和丰富功能,为图像数据工程师提供一站式解决方案。它支持图像和视频文件的自动标注,提供了包括矩形框、多边形在内的七种标注样式,适应多样化的训练场景需求。X-AnyLabeling内置了多种SOTA级AI模型,如YOLO、SAM系列等,并支持GPU加速和多种数据集格式的导入导出,确保高效的数据处理。此外,它还具备良好的跨平台兼容性,可在多种操作系统上运行,并提供详尽的帮助文档和社区支持,帮助用户轻松上手并解决使用过程中遇到的问题。
78 2
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
|
5天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
5天前
|
人工智能 自然语言处理 算法
揭秘AI写作助手:技术原理与应用实践
在数字化浪潮的推动下,人工智能(AI)正逐步渗透到我们工作和生活的方方面面。本文将深入探讨AI写作助手的技术原理及其在不同场景的应用实例,旨在揭示这项技术如何助力内容创作、提升效率和质量。通过分析其背后的算法、数据处理方式以及实际运用效果,读者可以获得对AI写作工具更全面的认识,并了解如何利用这些工具优化自身的写作流程。
|
13天前
|
机器学习/深度学习 人工智能 算法
DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者
【8月更文挑战第30天】DeepMind团队近日在机器人乒乓球领域取得了重大突破,其研发的机器人在与人类初学者的对战中表现出色,展现了惊人的技术水平和适应能力。这项成果不仅彰显了人工智能在体育竞技中的巨大潜力,还引发了关于AI与人类技能关系的广泛讨论。尽管存在一些挑战,如学习能力和成本问题,但该技术在训练、娱乐等方面的应用前景值得期待。论文详情见【https://arxiv.org/pdf/2408.03906】。
27 5
|
24天前
|
人工智能
Meta开源用于数学等复杂推理AI Agent—HUSKY
【8月更文挑战第19天】Meta AI团队开源了HUSKY,一种统一的AI代理,专长解决数学及复杂推理任务。HUSKY通过学习在通用操作空间内推理,涵盖数值、表格和基于知识的任务。它分为生成和执行两阶段,利用专家模型如语言和数值推理模型解决问题。经过14个数据集测试,HUSKY展现出超越同类代理的性能,尤其是在新提出的HUSKYQA评估集中,其7B模型的表现媲美甚至超越GPT-4等大型模型。相关代码和模型已公开,以推动领域内的研究进展。[论文](https://arxiv.org/abs/2406.06469)
23 2
|
14天前
|
人工智能 安全 Anolis
专访英特尔:开源与 AI 迅猛发展,龙蜥社区提供高效合作平台
龙蜥社区为开源技术、AI 技术提供了一个非常好的高效合作的平台。
|
23天前
|
人工智能 自然语言处理 搜索推荐
AI智能写作是什么?AI写作软件哪个好用?
在当今的数字时代,AI写作软件已经成为众多用户提高写作效率和质量的重要工具。众多AI写作软件中,BBAI无疑脱颖而出,成为最受欢迎的选择之一
|
24天前
|
人工智能 自然语言处理 安全
盘点国内:AI写作助手_ai智能问答机器人
AI写作助手是利用人工智能技术,特别是自然语言处理(NLP)技术,来辅助用户进行写作的工具。这类助手通过分析大量文本数据,能够理解语言的结构和含义,从而生成、编辑或优化文本内容。AI写作助手通常具有自动纠错、语法检查、内容生成和风格调整等功能,帮助用户提高写作效率和质量。