由于大多数真实世界环境都是三维的,因此设计用于分析真实世界环境中的视频或完整任务的深度学习模型也应该合乎理想地是在三维数据上进行训练。诸如机器人、自动驾驶汽车、智能手机和其他设备之类的技术工具,目前正在生成越来越多的三维数据,这些数据最终可能会被深度学习算法进行处理。
但到目前为止,必要的工具和平台只有一些人工智能研究人员才能使用,这使得在海量的三维数据上训练深度学习算法一直较为困难;为了解决缺乏现成工具的问题,NVIDIA的一个研究团队最近创建了一个名为“高岭土”(Kaolin)的PyTorch开源库,旨在推进和促进三维深度学习研究。
论文地址:https://arxiv.org/pdf/1911.05063.pdf
开展这项研究的一个研究人员说:“目前,还没有一个单一的开源软件库能够支持三维数据的多种表现形式、多种任务和评估标准;我们决定通过创造Kaolin来弥补这一空白,这是第一个综合性的三维深度学习库。”
Kaolin包含各种构造深度学习架构的工具,可以分析三维数据,且兼具有效性与易用性,允许研究人员在将其用于训练深度学习算法之前,加载、预处理和操纵三维数据。Kaolin还包含几个图形模块来编辑三维图像(如渲染、照明、阴影和视图扭曲),且支持广泛的损失函数和评估指标,使研究人员可以很容易地评估他们的深度学习算法。
无论是对于在开发深度学习模型方面经验丰富的开发人员,还是对于刚刚起步的开发人员,Kaolin都是一个有价值的工具。实际上,开发人员在库中还可以找到几种最先进的架构,他们可以将其作为自己模型的起点或灵感来源。虽然活跃的三维深度学习研究人员将Kaolin视为加快研究速度的一种有效手段,但进入该领域的新手也正将Kaolin作为开始的起点。在将来,Kaolin还能帮助开发人员加速三维深度学习研究,协助开发人员创建新的人工智能架构以及对其进行培训和评估。同时,NVIDIA的研究人员还在计划扩展Kaolin并进一步增强其功能,使Kaolin成为三维深度学习研究的一站式平台。
参考资料:
https://techxplore.com/news/2019-11-kaolin-comprehensive-library-d-deep.html