一周AI最火论文 | 童年的手绘漫画有望复兴?AI建立草稿到模型映射

简介: 一周AI最火论文 | 童年的手绘漫画有望复兴?AI建立草稿到模型映射

本周关键词:图采样、3D结构、增强学习

本周最佳学术研究

从手绘草稿重建3D形状

研究人员称,这是首次有关从单视图手绘重建3D形状的研究。他们建议使用合成草图进行训练,并引入标准化模块来处理数据不足的问题并丰富草图的样式。该模型被证明能够成功地将不同视图和不同类别的自由手绘重建为3D形状。他们希望这项研究可以在基于手绘的3D设计或游戏等应用中释放更多手绘的潜力,使大众更容易使用它们。

原文:
https://arxiv.org/abs/2006.09694v1

用于图采样的Python库

采样图是数据挖掘中的一项重要任务。本文的研究人员提供了名为Little Ball of Fur的Python库,其中包含了二十多种图采样算法。他们的目标是使大量专业人员、研究人员和学生可以在一个简化的框架中使用基于节点、边缘和探索的网络采样技术。

他们着重于创建一个具有一致的应用程序公共接口的框架,这个接口具有便利的设计、通用的输入数据要求以及合理的算法基线设置。本文通过示例性代码片段详细概述了框架设计基础,还通过估算多种社交网络和网络图的全球统计数据,证明了该库的实用性。实验表明,Little Fur of Fur 库可以大大加快节点和整个图形的嵌入技术,并且只略微降低提炼特征的预测值。

原文:
https://arxiv.org/abs/2006.04311v1

3D形状中可学习的变形

Brain、加州大学伯克利分校和斯坦福大学的研究人员近期联合发布的这篇论文提出了一种基于流的模型,名为ShapeFlow模型。该模型可用于学习3D形状的所有类的变形空间,尽管这些类具有较大类内差异。

ShapeFlow是一种基于流的模型,能够通过使用变形流来构建高质量的形状空间。研究人员分析表明,该模型可以避免自相交,并提供多种方式来规范体积、等轴测图和对称性等。ShapeFlow可用于对现有模板变形来重新构造新形状。当前框架的一个主要限制是它没有用于匹配形状的语义监督。未来的方向包括通过对相似的矢量场进行分组来分析几何形状的零件结构并探索语义感知的变形。此外,ShapeFlow可用于在给出示踪剂观测值的情况下推断螺线管流场的逆问题,这是工程物理学中的重要问题。

原文:
https://arxiv.org/abs/2006.07982v1

用于增强型机器学习的轻量级代码框架

这项工作提出了ktrain,这是一种用于机器学习的轻量级代码框。ktrain当前支持对文本、视觉和图形数据的训练模型。

作为对TensorFlow Keras框架的简单包装,它也足够灵活,可用于自定义的模型和数据格式。受其他轻量级代码(和无代码)开源ML库(例如fastai和ludwig)的启发,ktrain希望能够让数据科学的初学者和领域专家都能来用它以最少的代码量构建复杂的机器学习项目,并以此进一步使机器学习“平民化”。而即使是对于需要快速原型化深度学习解决方案的经验丰富的从业者,它也是一个强有力的工具。

原文:
https://arxiv.org/abs/2004.10703v3

使用自我监督改进语音表示和个性化模型

在本文中,Google AI为语音相关应用程序的表征学习做出了三点贡献。首先,他们提出了一种用于比较语音表征的NOn语义语音(NOSS)基准,其中包括各种数据集和基准任务,例如语音情感识别、语言识别和说话者识别。这些数据集可在TensorFlow数据集的“音频”部分获得。

其次,他们创建并开源了TRIpLet Loss网络(TRILL),这是一种新模型,其规模很小,可以在设备上执行和微调,同时仍胜过其他表征形式。第三,他们比较了不同的表征形式并进行了大规模研究,还开源了用于计算新表征形式性能的代码。

评估NOSS的代码位于GitHub上,数据集位于TensorFlow数据集上,而TRILL模型位于AI Hub上。

Github:
https://github.com/google-research/google-research/tree/master/non_semantic_speech_benchmark

TensorFlow数据集:
https://www.tensorflow.org/datasets/catalog/overview#audio

AI Hub:
https://aihub.cloud.google.com/u/0/s?q=nonsemantic-speech-benchmark

原文:
https://arxiv.org/abs/2002.12764

其他爆款论文

利用离线数据集加速在线强化学习:
https://arxiv.org/abs/2006.09359v1

既然我能看见,我就能改进它,在边缘上启用CNN数据驱动的微调:
https://arxiv.org/abs/2006.08554v1

Raspberry Pi上的Google Assistant和Amazon Alexa:
https://arxiv.org/abs/2006.08220v1

当神经网络无法学习周期函数时我们应该如何修复:
https://arxiv.org/abs/2006.08195v1

3D斑马鱼跟踪基准数据集:
https://vap.aau.dk/3d-zef/

AI大事件

机器学习的“奥德赛”:专访Kaggle大师Luca Massaron:
https://analyticsindiamag.com/kaggle-luca-massaron-interview/

将公司价值提高到1亿美元的人工智能专家Mike Bugembe:
https://www.blackenterprise.com/mike-bugembe-artificial-intelligence-got-company-sold-100-million/

李开复表示,美国在人工智能应用领域正在赶超中国:
https://time.com/5851734/kai-fu-lee-ai-us-catching-up-to-china/

拉筹伯大学使用人工智能为癌症患者提供心理健康护理:
https://www.zdnet.com/article/la-trobe-university-uses-ai-to-bring-mental-health-care-to-cancer-patients/

相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
Sketch2Lineart:AI绘画工具,自动将手绘草图转换成清晰的线条画
Sketch2Lineart是一款基于人工智能的绘画工具,能够自动将手绘草图转换成清晰的线条画。该工具支持多种功能,如草图转线稿、自动描述生成、细节调整和风格定制等,适用于艺术创作、产品设计、教育培训等多个领域。
157 60
Sketch2Lineart:AI绘画工具,自动将手绘草图转换成清晰的线条画
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
28 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
|
12天前
|
人工智能
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型,能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略,实现了色彩和风格的准确传递,适用于动画制作、游戏开发和数字艺术创作等多个领域。
81 16
AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性
|
21天前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
72 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
23天前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
64 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
23天前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
63 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
|
7天前
|
人工智能 自然语言处理
AI生成海报 or 人工手绘 ,哪个更好
AIGC(人工智能生成内容)正引领智能化转型的浪潮,涵盖文字、图片、音频等多种形式。AI生成海报以其速度快、设计酷炫、创意无限和成本低等优势脱颖而出,尤其适合中小企业和个人。相比人工手绘海报虽富有情感和温度,但耗时较长且成本较高,AI生成海报更显高效便捷。两者各具特色,但在快节奏的今天,AI生成海报无疑是更省时省力的选择。
|
27天前
|
人工智能 编解码 网络架构
GenCast:谷歌DeepMind推出的AI气象预测模型
GenCast是由谷歌DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。该模型在97.2%的预测任务中超越了全球顶尖的中期天气预报系统ENS,尤其在极端天气事件的预测上表现突出。GenCast能在8分钟内生成预报,显著提高预测效率,并且已经开源,包括代码和模型权重,支持更广泛的天气预报社区和研究。
151 14
GenCast:谷歌DeepMind推出的AI气象预测模型
|
26天前
|
机器学习/深度学习 人工智能 编解码
【AI系统】Transformer 模型小型化
本文介绍了几种轻量级的 Transformer 模型,旨在解决传统 Transformer 参数庞大、计算资源消耗大的问题。主要包括 **MobileVit** 和 **MobileFormer** 系列,以及 **EfficientFormer**。MobileVit 通过结合 CNN 和 Transformer 的优势,实现了轻量级视觉模型,特别适合移动设备。MobileFormer 则通过并行结构融合了 MobileNet 和 Transformer,增强了模型的局部和全局表达能力。
59 8
【AI系统】Transformer 模型小型化
|
25天前
|
存储 人工智能 PyTorch
【AI系统】模型转换流程
本文详细介绍了AI模型在不同框架间的转换方法,包括直接转换和规范式转换两种方式。直接转换涉及从源框架直接生成目标框架的模型文件,而规范式转换则通过一个中间标准格式(如ONNX)作为桥梁,实现模型的跨框架迁移。文中还提供了具体的转换流程和技术细节,以及模型转换工具的概览,帮助用户解决训练环境与部署环境不匹配的问题。
44 5
【AI系统】模型转换流程