AI黑科技!从此只看高清视频

简介: AI黑科技!从此只看高清视频

最近发现一个特强的视频超分算——BasicVSR,在真实数据集中,实现了前所未有的视觉重建效果,最近它还拿下了超分比赛NTIRE 2021三冠一亚的优异成绩,登上了CVPR 2022。


视频超分,假设低分辨率视频是从高分辨率的视频经过一系列的退化操作而得到,超分算法就是将该退化操作进行求逆,从而可以将低分辨率视频恢复成高分辨率视频。


image.png

左侧为AI高清化,右侧为原片


image.png


左侧为AI高清化,右侧为原片

对算法细节感兴趣的同学可以先研究一下论文『Investigating Tradeoffs in Real-World Video Super-Resolution』


image.png

https://arxiv.org/pdf/2111.12704.pdf


我试玩了一下,感觉效果还是蛮不错的,下面就分享一下BasicVSR在ubuntu下的安装极简教程。


实不相瞒,macOS和ubuntu下我都安装成功了,Windows没有成功(老报错),感兴趣且运气爆表的同学可以再试试。


安装


1 创建环境


conda create -n realbasic python=3.8


2 安装pytorch


https://pytorch.org/get-started/locally/

image.png


具体版本需根据自己的电脑配置,如有GPU,需与注意自己的cuda版本,可以使用nvidia-smi查看。


conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=10.1 -c pytorch


3 安装mimmmcv-full


MMCV 是一个面向计算机视觉的基础库,它支持了很多开源项目。建议安装完整版:mmcv-full ,包含所有的特性以及丰富的开箱即用的 CUDA 算子。


image.png


但是直接pip安装需注意cuda和torch版本,容易安装失败。建议使用MIM安装,它会自动检查 CUDA 和 PyTorch 环境并尽量帮我们安装和环境匹配的预编译版本的 MMCV-full,从而省去编译的耗时。


pip install openmim
mim install mmcv-full


4 安装MMEditing


MMEditing 是基于 PyTorch 的图像&视频编辑开源工具箱, 提供修复/抠图/超分辨率/生成等任务最先进的算法。用pip我试了也失败了几次,最后只能本地安装:


git clone https://github.com/open-mmlab/mmediting.git
cd mmediting
pip install -r requirements.txt
# 如报错,忽略即可,继续执行下指令
pip install -v -e .


使用


1 克隆项目


https://github.com/ckkelvinchan/RealBasicVSR


2 下载预训练模型


下载地址:

image.png

https://entuedu-my.sharepoint.com/personal/chan0899_e_ntu_edu_sg/_layouts/15/download.aspx?SourceUrl=%2Fpersonal%2Fchan0899%5Fe%5Fntu%5Fedu%5Fsg%2FDocuments%2FRealBasicVSR%2FRealBasicVSR%5Fx4%2Epth


在RealBasicVSR项目下新建checkpoints文件夹


3 运行


将需要转换的视频放到data目录下,运行即可


python inference_realbasicvsr.py configs/realbasicvsr_x4.py checkpoints/RealBasicVSR_x4.pth data/demo_001.mp4 results/demo_001.mp4 --fps=12.5


4 结果


运行比较耗时,需耐心等待,如果你有钞能力,当我没说。

相关文章
|
18小时前
|
人工智能 并行计算 Linux
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
斯坦福大学推出的FramePack技术通过压缩输入帧上下文长度,解决视频生成中的"遗忘"和"漂移"问题,仅需6GB显存即可在普通笔记本上实时生成高清视频。
71 19
斯坦福黑科技让笔记本GPU也能玩转AI视频生成!FramePack:压缩输入帧上下文长度!仅需6GB显存即可生成高清动画
|
1天前
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
79 7
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
3天前
|
人工智能 算法 API
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
上海人工智能实验室开源的InternVL3系列多模态大语言模型,通过原生多模态预训练方法实现文本、图像、视频的统一处理,支持从1B到78B共7种参数规模。
64 6
多模态模型卷王诞生!InternVL3:上海AI Lab开源78B多模态大模型,支持图文视频全解析!
|
9天前
|
人工智能 监控 安全
开源AI守护后厨——餐饮厨房视频安全系统的技术解析
餐饮厨房视频安全系统是一套融合开源AI技术与视频监控的智能化解决方案,涵盖实时检测、行为监测、数据分析、公众透明化及反馈闭环五大模块。系统通过YOLOv8、ResNet等算法实现后厨卫生与操作规范的精准监控,识别率达97%,问题响应时间缩短至秒级。同时支持后厨直播与监管对接,提升消费者信任和管理效率。其灵活开源的特点,为食品行业安全管理提供了高效、透明的新路径,未来可扩展至食品加工等领域。
|
12天前
|
人工智能 调度 UED
这个AI能把PSD变视频!人物/场景/道具任意组合!SkyReels-A2:昆仑万维推出的可控多元素视频生成框架
SkyReels-A2是昆仑万维推出的创新视频生成框架,通过扩散模型和图像-文本联合嵌入技术,实现多元素精准组合与高质量视频输出。
89 25
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
这个模型让AI角色会说话还会演!MoCha:Meta联手滑铁卢大学打造对话角色视频生成黑科技
MoCha是由Meta与滑铁卢大学联合开发的端到端对话角色视频生成模型,通过创新的语音-视频窗口注意力机制实现精准的唇语同步和全身动作生成。
99 12
这个模型让AI角色会说话还会演!MoCha:Meta联手滑铁卢大学打造对话角色视频生成黑科技
|
17天前
|
人工智能 编解码 自然语言处理
DreamActor-M1:字节跳动推出AI动画黑科技,静态照片秒变生动视频
DreamActor-M1是字节跳动研发的AI图像动画框架,通过混合引导机制实现高保真人物动画生成,支持多语言语音驱动和形状自适应功能。
355 40
DreamActor-M1:字节跳动推出AI动画黑科技,静态照片秒变生动视频
|
19天前
|
人工智能 算法
Runway Gen-4:AI视频生成新纪元!高保真特效一键生成影视级内容
Runway Gen-4是新一代AI视频生成模型,通过参考图和文字指令即可生成具有物理真实感、叙事连贯性的高质量视频内容,支持与实拍素材无缝融合。
109 9
Runway Gen-4:AI视频生成新纪元!高保真特效一键生成影视级内容
|
20天前
|
人工智能 编解码 自然语言处理
VideoMind:Chain-of-LoRA突破时间盲区让AI真正看懂长视频
VideoMind是一种新型视频语言代理,专为解决长视频时间定位理解挑战设计。它通过“Chain-of-LoRA”技术结合四个专业角色(Planner、Grounder、Verifier、Answerer)实现高效推理。Planner分析查询并制定计划;Grounder精确定位视频时刻;Verifier验证候选时刻准确性;Answerer生成最终答案。此架构在14个公共基准上表现出色,尤其在长视频定位任务中超越了现有模型,同时保持高内存效率。VideoMind推动了多模态AI的发展,提供了解决复杂视频理解问题的新方法。
9853 4
|
1月前
|
存储 人工智能 自然语言处理
YT Navigator:AI秒搜YouTube!自然语言直达视频关键帧
YT Navigator 是一款 AI 驱动的 YouTube 内容搜索工具,通过自然语言查询快速定位视频中的关键信息,支持与视频内容对话,适用于研究人员、学生和内容创作者。
102 0
YT Navigator:AI秒搜YouTube!自然语言直达视频关键帧

热门文章

最新文章