5. 彩蛋:DAMO-YOLO 首次放出
模型名字:DAMOYOLO- 高性能通用检测模型 -S
体验链接:https://www.modelscope.cn/models/damo/cv_tinynas_object-detection_damoyolo/summary
通用目标检测是计算机视觉的基本问题之一,具有非常广泛的应用。DAMO-YOLO 是阿里新推出来的 目标检测框架,兼顾模型速度与精度,其效果超越了目前的一众 YOLO 系列方法,且推理速度更快。DAMO-YOLO 还提供高效的训练策略和便捷易用的部署工具,能帮助开发者快速解决工业落地中的实际问题。
DAMO-YOLO 引入 TinyNAS 技术,使得用户可以根据硬件算力进行低成本的检测模型定制,提高硬件利用效率并且获得更高精度。
另外,DAMO-YOLO 还对检测模型中的 neck、head 结构设计,以及训练时的标签分配、数据增广等关键因素进行了优化。
由于做了一系列优化,DAMO-YOLO 在严格限制 Latency 的情况下精度取得了显著的提升,成为 YOLO 框架中的新 SOTA。
底层视觉模型
1. 照片去噪去模糊
模型名字:NAFNet 图像去噪
体验地址:https://www.modelscope.cn/models/damo/cv_nafnet_image-denoise_sidd/
因拍摄环境、设备、操作等原因,图像质量不佳的情况时而存在,怎么对这些图像的噪声去除、模糊还原?
该模型在图像恢复领域具有良好的泛化性,无论是图像去噪还是图像去模糊任务,都达到了目前的 SOTA。
由于技术创新,该模型使用了简单的乘法操作替换了激活函数,在不影响性能的情况下提升了处理速度。
该模型全名叫 NAFNet 去噪模型,即非线性无激活网络(Nonlinear Activation Free Network),证明了常见的非线性激活函数(Sigmoid、ReLU、GELU、Softmax 等)不是必须的,它们是可以被移除或者是被乘法算法代替的。该模型是对 CNN 结构设计的重要创新。
本模型可以做为很多应用的前置步骤,如智能手机图像去噪、图像去运动模糊等。
2. 照片修复及增强
模型名字:GPEN 人像增强模型
体验地址:https://www.modelscope.cn/models/damo/cv_gpen_image-portrait-enhancement/
除照片去噪以外,对照片的质量(包括分辨、细节纹理、色彩等)会有更高的处理要求,我们也开放了专门的人像增强模型,对输入图像中的每一个检测到的人像做修复和增强,并对图像中的非人像区域采用 RealESRNet 做两倍的超分辨率,最终返回修复后的完整图像。该模型能够鲁棒地处理绝大多数复杂的真实降质,修复严重损伤的人像。
从效果上看,GPEN 人像增强模型将预训练好的 StyleGAN2 网络作为 decoder 嵌入到完整模型中,并通过 finetune 的方式最终实现修复功能,在多项指标上达到行业领先的效果。
从应用的视角,本模型可以修复家庭老照片或者明星的老照片,修复手机夜景拍摄的低质照片,修复老视频中的人像等。
后续我们将增加 1024、2048 等支持处理大分辨人脸的预训练模型,并在模型效果上持续更新迭代。
3. 小结
底层视觉,关注的是画质问题。只要是生物(含人),都会对因光影而产生的细节、形状、颜色、流畅性等有感应,人对高画质的追求更是天然的,但由于各种现实条件,画质往往不理想,这时候视觉 AI 就能派上用场。
从任务分类上,可以分为:清晰度(分辨率 / 细节、噪声 / 划痕、帧率)、色彩(亮度、色偏等)、修瑕(肤质优化、去水印字幕)等,如下表:
编辑生成类模型