最高增强至1440p,阿里云发布端侧实时超分工具,低成本实现高画质

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 近日,阿里云机器学习PAI团队发布一键端侧超分工具,可实现在设备和网络带宽不变的情况下,将移动端视频分辨率提升1倍,最高可增强至1440p,将大幅提升终端用户的观看体验,该技术目前已在优酷、夸克、UC浏览器等多个APP中广泛应用。

近日,阿里云机器学习PAI团队发布一键端侧超分工具,可实现在设备和网络带宽不变的情况下,将移动端视频分辨率提升1倍,最高可增强至1440p,将大幅提升终端用户的观看体验,该技术目前已在优酷、夸克、UC浏览器等多个APP中广泛应用。


点击查看视频

image.png

观看以上视频不难发现,左侧画面和右侧画面的清晰度有极大差别。事实上,两侧画面的视频播放源完全相同,区别在于右侧画面使用了特殊的“一键超分”工具,从而实现清晰度从540p到1080p的华丽转身。


超分,即“超分辨率”,是指通过深度学习方式将低分辨率图片或视频的清晰度提高,获得更高分辨率,进而达到更好的观看体验和识别准确率。通过特殊的卷积神经网络(CNN)对已知的高分辨率资源进行学习,即可实现对任意低分辨率图像和视频资源进行超分处理的模型。


在移动互联网普及并成为主流的今天,用户对“上网冲浪”的体验愈加关注,更快速、更高清也成为APP开发者们不懈的追求。在“更高清”这个方向,纯软件化的优化方案——端侧超分进入开发者的视野:通过在手机、平板电脑等移动设备上运行超分算法,弥补设备硬件、网络带宽、原始素材等客观条件限制,进而获得高画质的图像和视频。但是,受制于端侧算力、设备兼容等问题,端侧超分方案规模化落地并不像想象中简单。


阿里云机器学习 PAI 团队近日发布搭载 PAI-AISR 模型的一键端侧超分工具,通过对模型进行量化剪枝等加速优化、以及对端侧多设备(CPU/GPU/NPU)进行异构计算和内存I/O优化等,具备以下优势:


  • 超高画质体验:在移动端可将视频分辨率增强至最高1440p,同时进行锯齿和底噪抑制、色彩增强等提升,极大改善观看体验。
  • 体积小,易适配:PAI-AISR 算法最低只需要 50KB,不占空间;功耗低至每小时50-100ma。

低延迟,高帧率:低至 20ms 以内的处理延迟,以及高达 30 fps 的帧率,适用于直播、短视频、视频通话、实时监控等各种场景。

  • 多平台多机型兼容:支持跨平台使用,在 iOS 系统和安卓系统环境下均无缝连接,甚至在 IoT 设备(如摄像头、电视机、视频会议设备等)均可平稳支持。
  • 数据格式兼容:支持所有主流图片和视频格式。


对移动APP开发者来说,PAI端侧一键超分工具主要具备以下两点价值。首先,使用端侧超分可以减少数据下发过程中CDN的消耗,实现降本提效。其次,当客户端网络不稳定或者带宽受限(例如处于3G状态下,或者处于地铁、电梯等信号不稳定的环境中),导致视频播放卡顿时,端侧超分技术可以让终端用户的浏览体验更顺滑。同时由于整个推理过程在端侧进行,避免了云端推理成本高、时延长等问题的出现。


目前,PAI一键端侧超分方案已经在优酷、夸克、UC浏览器等多个移动应用成功落地,在不断提升终端用户体验的同时,带来应用研发效率的提升。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
1月前
|
移动开发 监控 网络协议
每个端侧产品都需要的用户体验监控
ARMS RUM 是阿里云应用实时监控服务(ARMS)下的用户体验监控(RUM)产品,覆盖 Web/H5、各类平台小程序、Android、iOS、Flutter、ReactNative、Windows、macOS 等平台框架。接入 SDK 后会主动采集端侧页面性能、资源加载、API 调用、异常崩溃、卡顿、用户操作、系统信息等数据,还支持事件、日志、异常等数据按需自定义上报以满足业务数据分析需求,提供全面的性能分析、异常分析、产品分析、会话分析能力,帮助快速跟踪定位问题原因,提升产品用户使用体验。
103 14
|
2月前
|
人工智能 自然语言处理 搜索推荐
声临其境!体验阿里云开源音频基座大模型——FunAudioLLM
阿里通义实验室开源了全新的音频基座大模型FunAudioLLM,包含SenseVoice与CosyVoice两大核心模型。SenseVoice专精于多语言语音识别、情感辨识与声音事件检测,支持50余种语言,中文及粤语识别准确率提升50%以上。CosyVoice则擅长语音合成,只需3-10秒原始音频即可克隆音色,并支持跨语言合成。FunAudioLLM的应用场景广泛,包括语音到语音翻译、情感语音对话、互动播客及有声读物等。CosyVoice的在线体验显示,其生成的语音自然流畅,支持定制化及高级情绪控制,超越竞品ChatTTS。SenseVoice在情感识别及长音频处理方面表现出色。
21123 26
|
2月前
|
弹性计算 关系型数据库 Serverless
云端架构下的高效多媒体文件处理方案测评体验
传统的服务器部署模式在处理高并发、大数据量的文件转换任务时,常面临资源瓶颈和成本上升的问题。使用函数计算,利用事件驱动和异步任务的方式,将文件处理任务与核心应用解耦,同时依靠函数计算自动弹性扩展和按使用付费的优势可以快速对多媒体文件进行处理。
|
2月前
|
缓存 监控 网络协议
得物自研移动端弱网诊断工具的技术实践分享
本文将基于得物自研的移动端弱网诊断工具的开发过程,尽可能全面地为你总结和分享它的具体技术实践,希望带给你启发。
77 1
|
5月前
|
机器学习/深度学习 自动驾驶 搜索推荐
大模型技术的端侧部署
【1月更文挑战第14天】大模型技术的端侧部署
599 4
大模型技术的端侧部署
|
5月前
|
存储 Kubernetes 监控
K8s技术全景:架构、应用与优化
K8s技术全景:架构、应用与优化
413 0
|
12月前
|
编解码 监控 容灾
带你读《多媒体行业质量成本优化及容灾方案白皮书》1. 直播&点播业务通用质量指标介绍
带你读《多媒体行业质量成本优化及容灾方案白皮书》1. 直播&点播业务通用质量指标介绍
425 0
|
12月前
|
域名解析 缓存 网络协议
带你读《多媒体行业质量成本优化及容灾方案白皮书》3. 点播质量优化(1)
带你读《多媒体行业质量成本优化及容灾方案白皮书》3. 点播质量优化(1)
339 0
|
12月前
|
编解码 缓存 容灾
带你读《多媒体行业质量成本优化及容灾方案白皮书》3. 点播质量优化(2)
带你读《多媒体行业质量成本优化及容灾方案白皮书》3. 点播质量优化(2)
312 0
|
传感器 机器学习/深度学习 人工智能
[OpenVI-视觉生产系列之视频稳像实战篇]再见吧云台,使用AI“魔法”让视频稳定起来
随着自媒体与短视频的兴起,人们有了越来越多的拍摄视频的需求。然而由于手持拍摄、硬件限制等原因,利用手机等普通摄影设备拍摄的视频难免存在视频抖动问题。尤其是开启较高倍数的变焦后,手持拍摄很难拍摄到稳定的视频,极易产生抖动的现象。使用云台、斯坦尼康等外设可以缓解这样的抖动,但是很多时候多带一个外设降低了拍摄视频的便利程度,会使得随时随地的拍摄体验大打折扣。
643 0
[OpenVI-视觉生产系列之视频稳像实战篇]再见吧云台,使用AI“魔法”让视频稳定起来
下一篇
无影云桌面