最高增强至1440p,阿里云发布端侧实时超分工具,低成本实现高画质

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 近日,阿里云机器学习PAI团队发布一键端侧超分工具,可实现在设备和网络带宽不变的情况下,将移动端视频分辨率提升1倍,最高可增强至1440p,将大幅提升终端用户的观看体验,该技术目前已在优酷、夸克、UC浏览器等多个APP中广泛应用。

近日,阿里云机器学习PAI团队发布一键端侧超分工具,可实现在设备和网络带宽不变的情况下,将移动端视频分辨率提升1倍,最高可增强至1440p,将大幅提升终端用户的观看体验,该技术目前已在优酷、夸克、UC浏览器等多个APP中广泛应用。


点击查看视频

image.png

观看以上视频不难发现,左侧画面和右侧画面的清晰度有极大差别。事实上,两侧画面的视频播放源完全相同,区别在于右侧画面使用了特殊的“一键超分”工具,从而实现清晰度从540p到1080p的华丽转身。


超分,即“超分辨率”,是指通过深度学习方式将低分辨率图片或视频的清晰度提高,获得更高分辨率,进而达到更好的观看体验和识别准确率。通过特殊的卷积神经网络(CNN)对已知的高分辨率资源进行学习,即可实现对任意低分辨率图像和视频资源进行超分处理的模型。


在移动互联网普及并成为主流的今天,用户对“上网冲浪”的体验愈加关注,更快速、更高清也成为APP开发者们不懈的追求。在“更高清”这个方向,纯软件化的优化方案——端侧超分进入开发者的视野:通过在手机、平板电脑等移动设备上运行超分算法,弥补设备硬件、网络带宽、原始素材等客观条件限制,进而获得高画质的图像和视频。但是,受制于端侧算力、设备兼容等问题,端侧超分方案规模化落地并不像想象中简单。


阿里云机器学习 PAI 团队近日发布搭载 PAI-AISR 模型的一键端侧超分工具,通过对模型进行量化剪枝等加速优化、以及对端侧多设备(CPU/GPU/NPU)进行异构计算和内存I/O优化等,具备以下优势:


  • 超高画质体验:在移动端可将视频分辨率增强至最高1440p,同时进行锯齿和底噪抑制、色彩增强等提升,极大改善观看体验。
  • 体积小,易适配:PAI-AISR 算法最低只需要 50KB,不占空间;功耗低至每小时50-100ma。

低延迟,高帧率:低至 20ms 以内的处理延迟,以及高达 30 fps 的帧率,适用于直播、短视频、视频通话、实时监控等各种场景。

  • 多平台多机型兼容:支持跨平台使用,在 iOS 系统和安卓系统环境下均无缝连接,甚至在 IoT 设备(如摄像头、电视机、视频会议设备等)均可平稳支持。
  • 数据格式兼容:支持所有主流图片和视频格式。


对移动APP开发者来说,PAI端侧一键超分工具主要具备以下两点价值。首先,使用端侧超分可以减少数据下发过程中CDN的消耗,实现降本提效。其次,当客户端网络不稳定或者带宽受限(例如处于3G状态下,或者处于地铁、电梯等信号不稳定的环境中),导致视频播放卡顿时,端侧超分技术可以让终端用户的浏览体验更顺滑。同时由于整个推理过程在端侧进行,避免了云端推理成本高、时延长等问题的出现。


目前,PAI一键端侧超分方案已经在优酷、夸克、UC浏览器等多个移动应用成功落地,在不断提升终端用户体验的同时,带来应用研发效率的提升。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
2月前
|
移动开发 监控 网络协议
每个端侧产品都需要的用户体验监控
ARMS RUM 是阿里云应用实时监控服务(ARMS)下的用户体验监控(RUM)产品,覆盖 Web/H5、各类平台小程序、Android、iOS、Flutter、ReactNative、Windows、macOS 等平台框架。接入 SDK 后会主动采集端侧页面性能、资源加载、API 调用、异常崩溃、卡顿、用户操作、系统信息等数据,还支持事件、日志、异常等数据按需自定义上报以满足业务数据分析需求,提供全面的性能分析、异常分析、产品分析、会话分析能力,帮助快速跟踪定位问题原因,提升产品用户使用体验。
231 20
|
3月前
|
人工智能 自然语言处理 搜索推荐
声临其境!体验阿里云开源音频基座大模型——FunAudioLLM
阿里通义实验室开源了全新的音频基座大模型FunAudioLLM,包含SenseVoice与CosyVoice两大核心模型。SenseVoice专精于多语言语音识别、情感辨识与声音事件检测,支持50余种语言,中文及粤语识别准确率提升50%以上。CosyVoice则擅长语音合成,只需3-10秒原始音频即可克隆音色,并支持跨语言合成。FunAudioLLM的应用场景广泛,包括语音到语音翻译、情感语音对话、互动播客及有声读物等。CosyVoice的在线体验显示,其生成的语音自然流畅,支持定制化及高级情绪控制,超越竞品ChatTTS。SenseVoice在情感识别及长音频处理方面表现出色。
21931 26
|
6月前
|
机器学习/深度学习 自动驾驶 搜索推荐
大模型技术的端侧部署
【1月更文挑战第14天】大模型技术的端侧部署
637 4
大模型技术的端侧部署
|
6月前
|
算法 API
视觉智能平台时不时报这个问题,是不稳定吗?
视觉智能平台时不时报这个问题,是不稳定吗?
45 1
|
域名解析 缓存 网络协议
带你读《多媒体行业质量成本优化及容灾方案白皮书》3. 点播质量优化(1)
带你读《多媒体行业质量成本优化及容灾方案白皮书》3. 点播质量优化(1)
356 0
|
编解码 缓存 容灾
带你读《多媒体行业质量成本优化及容灾方案白皮书》3. 点播质量优化(2)
带你读《多媒体行业质量成本优化及容灾方案白皮书》3. 点播质量优化(2)
322 0
|
编解码 监控 容灾
带你读《多媒体行业质量成本优化及容灾方案白皮书》1. 直播&点播业务通用质量指标介绍
带你读《多媒体行业质量成本优化及容灾方案白皮书》1. 直播&点播业务通用质量指标介绍
443 0
|
编解码 容灾 算法
带你读《多媒体行业质量成本优化及容灾方案白皮书》2. 直播质量优化(3)
带你读《多媒体行业质量成本优化及容灾方案白皮书》2. 直播质量优化(3)
558 0
|
传感器 机器学习/深度学习 人工智能
[OpenVI-视觉生产系列之视频稳像实战篇]再见吧云台,使用AI“魔法”让视频稳定起来
随着自媒体与短视频的兴起,人们有了越来越多的拍摄视频的需求。然而由于手持拍摄、硬件限制等原因,利用手机等普通摄影设备拍摄的视频难免存在视频抖动问题。尤其是开启较高倍数的变焦后,手持拍摄很难拍摄到稳定的视频,极易产生抖动的现象。使用云台、斯坦尼康等外设可以缓解这样的抖动,但是很多时候多带一个外设降低了拍摄视频的便利程度,会使得随时随地的拍摄体验大打折扣。
681 0
[OpenVI-视觉生产系列之视频稳像实战篇]再见吧云台,使用AI“魔法”让视频稳定起来
|
存储 人工智能 搜索推荐
硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级
硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级
332 0