用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复,网友:黄渤穿越了?

简介: 用AI还原地道京片子!作者大谷亲自揭秘老北京视频语音修复,网友:黄渤穿越了?

对历史,我们总是充满了无限的遐想,而北京这座城市充满了太多故事,对于过去或现在生活在这里的人,都是一份情怀。

在电影中,我们经常能看到对老北京街道的还原,但布景终归只是布景。试想在90年前,有人用摄像机记录下了当时的一切呢?

早在5月,微博博主“大谷Spitzer”分享了他对百年前老北京视频的修复结果,如今在和央视的合作下,时隔两个月,第二期节目终于如约而至,在新的视频中,除了仍然熙熙攘攘的老北京街道,你还能看到很多生活化的场景,甚至听到他们的声音。

比如在学校外面买饭时孩子们的喧闹声:

或者是盲人乐手在街边弹奏表演:

甚至是在剃头小摊剃头,这效果可以堪比不少Tony老师了:

“这头剃得好不疼,剃得不好,真疼!”
“你家几口人啊“
“十口人?!怎么那么些人呢?“
“一天挣两毛钱够挑费不?“

看到这里,有网友表示,“感觉剃头师傅说了段相声”。

这剃头小哥也是个话痨,他对着镜头拍头说“剃挺好”的时候,文摘菌觉得,这怎么就这么像“黄渤×夏雨”呢?

有网友也表示认同,笑称道,“黄渤,你为什么穿越回去剃头”。

这次除了画面,声音修复是一大亮点,不过碍于GIF的限制,想听最纯正的老北京话,大家可以点击下方链接👇:
小程序,

哔哩哔哩
,,
我用人工智能修复了百年前的北京影像!第2期:民俗乐队,街边地摊与剃头匠
小程序

对于大谷来说,有了两次的经验,这次的修复项目要显得得心应手了许多,在整体效果的呈现上,大谷也十分满意,不过颜色上还存在闪烁,分辨率也还可以再提升。

大谷表示,会总结每次的经验教训,争取下一次比上一次的效果更好,当然他也会尝试加入一些新技术。

这次的修复项目,大谷和央视进行了合作,在央视的宣传下,更多人得以领略百年老北京风光,不少网友感叹道科技的进步和贡献:

也有网友感叹道时间的流逝,“下一个90年,未来的人看到我们现在生活面貌,不知道会是什么感想”。

视频发布一周后,在微博、知乎等多个社交平台上都掀起了讨论热潮,文摘菌也再次联系到大谷,第二次接受采访的他也显得要游刃有余许多。

用AI项目做声音修复,老北京视频有声音啦!

说到本次视频的来源,大谷介绍道,可以称得上本次修复过程中最困难的地方了。

虽然网上能找到两段相关的视频影像,两分钟的宣传片和六分钟的正片,但是网上的版本水印非常重,基本不能用,这才触发了大谷向美国南卡罗莱纳大学影像库“求救”,申请了视频的使用权,得到了学校内部版本的视频,这才解决了水印的问题。

“那边的人很配合。”大谷说,当然他们提出了一些要求,就是要加上视频前的小黄纸片,和版权声明部分,除此之外,对视频的后续处理和分享都是自由的。

视频开头的小黄纸片

除了水印外,由于年代差距,这两段宣传片和正片的内容是不重复的,再加上当时的工作人员不懂中文,两段视频的时间顺序是完全乱掉的,比如前一秒还是宣传片的内容,后一秒就马上跳到了全片末尾。

所以拿到这个视频之后,大谷的第一个工作就是把视频重新剪辑到正确的时间流上。

在声音的修复上,当时制作团队所使用的录音设备无形之中帮到了大忙,微博网友@失重的梁柱介绍道:

福克斯有声电影新闻在当时是比较新鲜的模式。区别于华纳兄弟开发了维他风(Vitaphone)和RCA 开发的光电留声机(Photophone),福克斯的有声电影(Movietone)属于单摄影机系统,可将声画同时录制到胶片上,较之以往是十分便捷的。而目前所见的拍摄中国的原声影片,很多都出自福克斯的这一系列。

得益于设备的先进,视频本身的录音效果就已经足够好,再加上南卡罗莱纳大学可能也进行了一些初步处理,大谷所做的工作主要是底层去噪,也就是处理掉那些经常出现在录音中的、吱吱的毛刺声。

大谷表示,AE或PR里的去噪功能就很好,系统首先会学习一小段噪音波形,随后会自动把后续出现的噪音部分抵消,这样的话听上去会清晰很多。但去噪主要针对以低频为主的声音,处理后整体的声音效果听上去就会比较“干”,所以在去噪后,大谷还加入了一些混响,让声音听上去更自然,当然文摘菌可是一点都没听出来。

不过,在盲人演奏的音乐部分,大谷除了加了混响外,基本没有做其他处理,因为音乐本身的混声就比较严重了,如果再去噪的话,低音乐器的声音就会被掩盖住。

随后,大谷还介绍了一个声音修复的AI项目,导入一段默片,AI系统就可以自动补充出音效,比如导入《火车进站》,系统就能补充火车的音效,由远及近,非常逼真,有了这项技术就可以更轻松地对更多老电影进行声音修复了。

不过,这个项目还没有开源,大谷表示他也会持续关注最新进展。

论文链接如下,感兴趣的朋友们可以尝尝鲜:
http://bvision11.cs.unc.edu/bigpen/yipin/visual2sound_webpage/visual2sound.html

大谷说到,这其实是第一次针对原声视频进行修复,也是很有意义的一次进步。南卡罗莱纳大学影像库内部还保存有很多有声老视频,也希望未来能够和他们继续取得联系。

画面大升级:边缘更平滑,整体效果更好了

除了声音上的修复外,文摘菌也注意到,与第一期视频相比,本次视频中画面上颜色跳来跳去的情况少了很多,这与大谷使用的不同软件有着直接关系。

大谷表示,在画面分辨率上首先进行了进一步的提升,与第一期不同,本次修复主要使用的是Topaz,Topaz在边缘的处理上要更加平滑,画面效果也更好。

其次就是利用到了DeepRemaster这项技术,与这项技术的邂逅是在YouTube上的推荐流上,这其实是GitHub上的一个开源项目,目前还在研究中。

GitHub链接:
https://github.com/satoshiiizuka/siggraphasia2019_remastering

发现这项技术之后,大谷就发邮件征得了两位日本研究员的同意。

在使用过程中,大谷发现,DeepRemaster非常好上手,可以导入一些手绘图或者历史图像作为参考图,修复的效果就会稳定在参考图的范围内,同时场景中颜色的抖动也变得更加平稳。

在本次视频中,盲人音乐家表演的部分和“黄渤”拍头的部分都是通过这个技术实现的。

当然,DeepRemaster技术本身也存在瓶颈,不是所有的场景都能直接套用,就大谷的个人经验来说,对于动作剧烈或者是人脸很多的场景,比如市井,都没办法使用这项技术,DeepRemaster更适合那些静帧、平移的画面,比如音乐表演。

在画面和声音的修复工作上,大谷也进行了有机的结合,比如电脑自动补帧的时候,就可以利用空隙在PR上修复声音,两个部分可以不矛盾地进行,有时候会穿插着来,也会返工二次修复声音部分。

除了在声音和画面上的修复外,我们也注意到,在这次的项目上,大谷也和央视进行了一次合作,他表示,自己主要负责技术修复,央视主要负责宣发,“这也省了很多力气,上传审核视频都是很费时的”。

有了前两次的经验,这次的修复显得要“顺手”很多,整个制作周期大概持续了一个月的时间,这段时间里,其实也不是全身心地扑在这上面,也有在开发自己的游戏,做一些其他的项目。

在和央视的合作过程中,央视也会对整体的修复提出参考意见,比如音乐的剪辑,以及字幕的添加等。大谷感叹道,添加字幕的过程同样也是一次学习的体验,同时也可以让观众更好地理解人物对话。

不只如此,修复后的老视频在社交媒体上传播之后,大谷收到了很多反馈,比如第二期老视频的出处本来是模糊的,后来有大神根据修复后的画面等信息综合后,指出这是100年前老济南西门泺源门(濼源门),这些都是宝贵的互动。

破案过程,欢迎围观:
https://www.zhihu.com/question/399225415

神器DeepRemaster:如何把修复效果稳定在参考图范围内

和第一期修复视频一样,在这次新的视频过程中,大谷仍然借鉴了YouTube博主Denis Shiryae的影像修复教程,以及使用到了上海交大联合提出的DAIN补帧技术。

除此之外,如上文所说,新一期视频中使用到的新技术DeepRemaster由日本筑波大学和早稻田大学两位研究者合作提出,论文曾被计算机图形学顶会SIGGRAPH Asia 2019收录。

论文链接:
http://iizuka.cs.tsukuba.ac.jp/projects/remastering/en/index.html

DeepRemaster之所以强大,是因为它与近年来使用递归模型处理视频的方法不同,该方法对老旧影像的修复是基于全卷积网络实现的。

在这项研究中,研究人员提出了一种单一框架,该框架基于带有注意力机制的时间卷积神经网络,主要以半交互的方式处理所有重制任务。同时,论文提出的source-reference注意力,允许模型在处理任意数量的彩色参考图像时,不需要进行分割就能视频着色,也很好地保持了时间一致性。

输入一系列的黑白图像,通过预处理网络修复,修复的结果作为最终输出视频的亮度通道。然后,source-reference网络将预处理网络的输出和任意数目的彩色参考图像结合,产生视频的最终色度通道。

在效果测试上,研究人员对一些老视频进行了测试,比如下图,结果正如大谷所说,在静止的场景内,输入少量参考图像后,系统就能输出稳定、一致的数千帧图像。

与以往的方法相比,DeepRemaster生成的图像与真实世界的色彩更加一致。

未来,大谷表示,他会继续关注新的技术和老视频修复领域,也会尝试将这些新的AI修复技术利用到老视频修复上。

换句话说,现在是不是就可以期待第三期的老北京修复视频了?!搓手~

相关文章
|
8天前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
87 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
9天前
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
68 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
8天前
|
机器学习/深度学习 人工智能 自然语言处理
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目,能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景,提升用户体验。
49 7
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
|
9天前
|
编解码 人工智能 监控
VISION XL:支持四倍超分辨率的 AI 视频修复处理工具,提供去除模糊、修复缺失等功能
VISION XL是一款基于潜在扩散模型的高效视频修复和超分辨率工具,能够修复视频缺失部分、去除模糊,并支持四倍超分辨率。该工具优化了处理效率,适合快速处理视频的应用场景。
55 6
VISION XL:支持四倍超分辨率的 AI 视频修复处理工具,提供去除模糊、修复缺失等功能
|
16天前
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
36 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
|
3天前
|
人工智能 小程序 API
【一步步开发AI运动小程序】十七、如何识别用户上传视频中的人体、运动、动作、姿态?
【云智AI运动识别小程序插件】提供人体、运动、姿态检测的AI能力,支持本地原生识别,无需后台服务,具有速度快、体验好、易集成等优点。本文介绍如何使用该插件实现用户上传视频的运动识别,包括视频解码抽帧和人体识别的实现方法。
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
LTX Video:Lightricks推出的开源AI视频生成模型
LTX Video是由Lightricks推出的开源AI视频生成模型,能够在4秒内生成5秒的高质量视频。该模型基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,支持长视频制作,适用于多种场景,如游戏图形升级和电子商务广告变体制作。
85 1
LTX Video:Lightricks推出的开源AI视频生成模型
存储 人工智能 自然语言处理
47 6
|
25天前
|
人工智能 机器人 Shell
AI语音机器人安装方法 AI机器人安装代码
AI语音机器人安装方法 AI机器人安装代码
28 2
|
28天前
|
人工智能 自然语言处理 机器人
手把手带你搭建一个语音对话机器人,5分钟定制个人AI小助手(新手入门篇)
本文介绍了如何从零开始搭建一个语音对话机器人,涵盖自动语音识别(ASR)、自然语言处理(NLP)和文本到语音合成(TTS)三大核心模块。通过使用开源工具如FunASR、LLaMA3-8B和ChatTTS,以及FastAPI和Gradio等技术,详细指导读者轻松实现个人AI小助手的构建,适合技术新手快速上手。
200 1
下一篇
DataWorks