小伙用智能 AI 修复100 年前京城的老视频

简介: 近日,一个“修复老北京街道”的视频刷屏全网。一段由加拿大摄影师在 100 年前的北京被 AI 修复后,活灵活现地展现在人们面前,一百年前人们打招呼的方式、使用的乐器、交通工具,在这段视频中,都清晰可见。

--------点击屏幕右侧或者屏幕底部“+订阅”,关注我,随时分享机器智能最新行业动态及技术干货----------

image.png

近日,一个“修复老北京街道”的视频刷屏全网。一段由加拿大摄影师在 100 年前的北京被 AI 修复后,活灵活现地展现在人们面前,一百年前人们打招呼的方式、使用的乐器、交通工具,在这段视频中,都清晰可见。配上颇合时宜的音乐,24 小时内,已经有了将近 50 万的点赞量,10 万多次的转发,接近 3 万的留言,看来周六大家也有在好好工作啊。

image.png

这个视频来自一位名叫“大谷Spitzer”的博主,据他所说,接触老片修复是一个偶然,整个项目也只花了 7 天时间就顺利完成了。

先来一起看看这惊人的修复效果。

👇老视频👇

1.gif

👇修复后效果👇

2.gif

修复后的视频把当时的北京城演绎的活灵活现,下边的片段中,左下角👇小哥呆呆的看着镜头,连细微的表情都清晰可见,青涩中带有一点可爱,想象一下这位憨厚的小哥来自一百年前,还是让文摘菌感慨万千。

3.gif

怪不得网友们纷纷赞叹。有网友表示,不仅整体氛围没话说,连细节部分也分毫毕显,“每个人脸上都是新奇又不敢接近的表情”。

image.png

甚至有网友留言表示,“博物馆应该收藏你的作品”!

image.png

博主在视频最开始就说道,想用技术为社会做一些有意义的事情,怀着仰慕的心情,文摘菌联系到了这位“大谷Spizer”,来看看他是怎么说的吧~

7 天完工,难在显卡!整体满意,颜色上还有不足
自称将 AI 视为业余爱好的大谷如今身在纽约,接受文摘菌采访的时候,他感叹道,自己做 AI 科普视频做了七年,没想到一下子火了,现在完全处于“被信息淹没”的状态。

大谷透露道,其实这次接触老片修复纯属偶然,在搜索其他资料时候,偶然间在 YouTube 看到了人民日报上传的一段老北京视频,对其中对视镜头的部分十分有感触,“有一种穿越时空的感觉”。同时,一想到一百年前的人们有那个年代的思想,看问题的角度和现代有所差别,是很有趣的体验,自己恰好了解相关技术,为何不将老片上色补帧,做成活灵活现的 60 帧,和大家分享呢?

image.png

具体到操作上,根据大谷介绍,可以大致分为补帧、扩分辨率、上色三个环节,每个环节也都用了不同的工具,整体框架的流程则主要参考了 Denis Shiryaev 在社交媒体上分享的经验贴。

大谷说道,整个项目只用了 7 天时间,大部分都是硬性的时间消耗,比如补帧需要一到两天,扩分辨率至少一天,上色也需要花费一天时间,再加上要做到 4K60fps,渲染速度很慢。多方考量之下,他把人民日报 14 分钟的原片剪到了 10 分钟。

相比而言,去年国庆 164 分钟修复版《开国大典》让人们亲眼目睹三次战役胜利到开国大典的历史过程。除了借助 AI,胶片的撕裂、划痕等都是专业的修复师一帧一帧地修补。“修复过程中,我们70%的时间都在完成资料片镜头的修复工作。”负责本片修复工作的三维六度公司的首席技术官周苏岳说道,虽然修复时间只用了 40 天,但这却是 600 人每天工作 20 小时的奋战结果!

image.png

在视频中,相信大家也会看到时不时会出现颜色跳来跳去的情况,大谷表示,在补帧之前用工具把老电影中经常出现的画面闪烁去掉了,否则会更严重,整体的色彩上,AI 的渲染效果也明显偏淡。

除此之外,大谷这次利用的是国外的一套模型,显然无法直接将其套用到 100 年前的中国影片修复上,在颜色上就无法做到历史性的准确,视频中的上色都是AI学习的成果,虽然肤色大致还原了,但是在红绿服装等方面的真实性还有待商榷。

也正是考虑到这些不足,大谷对去年参与《开国大典》修复的工作人员表达了敬意,“AI 没办法做到艺术家那么准确,尤其是在历史方面,而《开国大典》对历史准确性的要求更高”,随后他也打趣地说道,或许可以“让 AI 看看清宫剧,提升一下准确率”。

image.png

就像大谷在视频开头所说,他想用技术做一些对社会有意义的事,在这次视频爆红之后,他表现得相当豁达,“太深刻的大意义倒也说不上”,主要是想借此让人们对历史有所反思。不少网友指出,视频中几乎看不到女性,这正是历史生动性的体现,既有光鲜也有不足,让大家意识到现在的生活是多么来之不易。

同时,作为老北京人,大谷也想通过视频分享他的切身感受,让更多人看到一百年前的民俗,尤其是上了色帧数提高之后,“感觉确实不一样,也感慨这一百年的变化”。

对于目前收到得反馈,大谷表示“完全没想到”,他看了很多评论,也受感触于一些留言,还有人私信向他表示,给太姥姥看后,也很怀念那个年代。

大谷透露道,这其实是他第一次尝试做视频修复,后续或许会出一期视频介绍一下具体的操作。对于后续的视频更新计划,他想要介绍一下国内已经成熟的语音修复技术。

目前,大谷在研究一款换衣 AI,通过把模特导入系统,在 Photoshop 里换好衣服,就能生成模特穿上衣服的各种姿势,听上去是淘宝卖家会喜欢的 AI。不过,大谷介绍道,这个AI目前还处于“婴儿状态”,精度上不是很乐观,未来需要大量的训练,以后或许也会做个视频介绍一下。

AI 助力,老片修复一直在路上

对于这次用到的技术,大谷表示,上色主要还是应用在黑白照片和电影上,补帧技术就可以遍地开花了,比如修复像素动画的跳帧问题,或者在动画领域加以应用,因为动画很多是 12 帧/秒,甚至 6 帧/秒,补帧之后效果很好,也终于可以看更流畅的 EVA 了。

Denis Shiryaev通过神经网络修复老视频的内容今年在油管爆红了一阵子,他使用Topaz Labs的Gigapixel AI和DAIN图像编辑应用程序将1896胶片缩放到4K分辨率,不仅将素材增加到4K,还将帧率提高到每秒60帧。

Shiryaev最火的作品是用Gigapixel AI将1896年拍摄的50秒无声短片《火车进站》(the Arrival of a Train at La Ciotat Station)做成了4K格式,把模糊的原片做成了高清画质,完全符合当下的高清视频标准!

尽管存在一些缺陷,如图像会出现跳跃或某些细节依旧模糊,但已经很棒了!为了使这一作品更加完整,Shiryaev还为这部无声电影添加了声音。

这些图像是通过生成对抗网络(GANs)得来的。

科普一下,GANs是由两个相反的神经网络组成的。第一个网络基于训练对象的数据生成对象,而第二个的作用是确定对象的真实性。第一个网络通过不断尝试,直到它的作品完美到足以欺骗第二个网络。通过这种方式,才得以生成最有可能的图像。

Gigapixel AI软件使用一种专有的插值算法来分析图像,它可以使图像更清晰,甚至在放大了600%之后。

再来说说DAIN(深度感知视频帧插值),它可以将帧想象并插入现有视频剪辑的关键帧之间。换句话说,DAIN首先分析并映射视频片段,然后插入在现有图像之间生成填充图像。这与4K电视的运动平滑功能是同一个概念。为了在这段1896年的视频中达到同样的效果,Shiryaev添加了足够多的图像来将速度提高到60帧每秒。因此,DAIN自动生成,然后在最初记录的24张图像之外,每秒添加36张额外的图像。

Shiryaev的 “火车”的视频修复版本看起来像是一部使用智能手机或GoPro拍摄的最新电影。与原始视频相比,效果非常惊人,尤其是在新版本中获得了流畅性。列车上的阳光反射和月台上的女士珠宝都被记录的很完整,也许是最显着的改进之一。

image.png

Shiryaev也用神经网络对这一修复视频进行了着色:从一堆彩色照片开始,将它们转换为黑白,然后训练神经网络以重建彩色原稿。

除了上文提到的《开国大典》,在老片修复上,“中影·神思”的开发,能缩短修复电影所需时间的四分之三,成本可以减少一半,目前已成功应用于《厉害了,我的国》《血色浪漫》《亮剑》等多部影视剧的图像修复与增强当中。

爱奇艺也推出了其自主研发的视频增强技术ZoomAI,为电影修复提出解决方案,这是业内第一个利用较低成本、将深度学习技术应用在视频画质增强场景中的方案。但不可否认的是,这种技术如果被有恶意的人使用,例如,可以用于制作“伪造品”并允许视频中的身份盗用,也会导致巨大的社会问题。

image.png

原文链接:https://yqh.aliyun.com/detail/9818
文章转自阿里云云栖号,本文一切观点和《机器智能技术》圈子无关

目录
相关文章
AI战略丨拓展智能边界,大模型体系全面升级
阿里云在基础模型体系和生态、模型工程化落地路径、端云协同解决方案等多维度上都在快速迭代。
9.9K star!大模型原生即时通信机器人平台,这个开源项目让AI对话更智能!
"😎高稳定、🧩支持插件、🦄多模态 - 大模型原生即时通信机器人平台"
WiseMindAI:一款AI智能知识库,数据完全本地化,支持文档对话、10+种文档、10+AI大模型等
WiseMindAI 是一款由 Chris 开发的 AI 智能学习助手,支持数据完全本地化存储,确保用户隐私安全。它兼容多种文档格式(如 PDF、Markdown 等),并提供 AI 文档总结、智能笔记、沉浸式翻译、知识卡片生成等功能。此外,WiseMindAI 支持 10+ 大语言模型和自定义 AI 插件,适用于 Windows 和 Mac 平台,支持简体中文、繁体中文及英文。
125 73
WiseMindAI:一款AI智能知识库,数据完全本地化,支持文档对话、10+种文档、10+AI大模型等
如何在云效中使用 DeepSeek 等大模型实现 AI 智能评审
除了代码智能补全外,AI 代码智能评审是 DevOps 领域受开发者广泛关注的另一场景了。本文,我们将结合云效代码管理 Codeup、流水线 Flow 和 DeepSeek,分享一种企业可快速自主接入,即可实现的 AI 智能评审解决方案,希望给大家一些启发。
破局AI焦虑,赋能职场未来——GAI认证开启智能时代职业新赛道
在AI快速发展的数字化时代,职场人士面临被技术取代的焦虑。生成式人工智能(GAI)认证由培生推出,为职场人士提供系统学习AI技能的机会,助力提升竞争力。掌握AI技能不仅可应对挑战,还为职业发展创造新机遇。GAI认证不仅是求职市场的加分项,更是职场晋升的加速器。与其焦虑,不如拥抱AI,通过学习与认证赋能自我,在未来职场中脱颖而出。
达摩院开放AI能力宝塔,万般法器助力新时代智能应用
新时代下,AI正在以惊人的速度渗透到社会各界当中,这一次造就改变的将会是达摩院的ai技术。
达摩院开放AI能力宝塔,万般法器助力新时代智能应用
AI职场突围战:夸克应用+生成式人工智能认证,驱动“打工人”核心竞争力!
在AI浪潮推动下,生成式人工智能(GAI)成为职场必备工具。文中对比了夸克、豆包、DeepSeek和元宝四大AI应用,夸克以“超级入口”定位脱颖而出。同时,GAI认证为职场人士提供系统学习平台,与夸克结合助力职业发展。文章还探讨了职场人士如何通过加强学习、关注技术趋势及培养合规意识,在AI时代把握机遇。
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,多模态表示学习在人工智能领域取得显著进展,CLIP和SigLIP成为里程碑式模型。CLIP由OpenAI提出,通过对比学习对齐图像与文本嵌入空间,具备强大零样本学习能力;SigLIP由Google开发,采用sigmoid损失函数优化训练效率与可扩展性。两者推动了多模态大型语言模型(MLLMs)的发展,如LLaVA、BLIP-2和Flamingo等,实现了视觉问答、图像描述生成等复杂任务。这些模型不仅拓展了理论边界,还为医疗、教育等领域释放技术潜力,标志着多模态智能系统的重要进步。
41 13
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
本文介绍了如何使用阿里云提供的DeepSeek-R1大模型解决方案,通过Chatbox和Dify平台调用百炼API,实现稳定且高效的模型应用。首先,文章详细描述了如何通过Chatbox配置API并开始对话,适合普通用户快速上手。接着,深入探讨了使用Dify部署AI应用的过程,包括选购云服务器、安装Dify、配置对接DeepSeek-R1模型及创建工作流,展示了更复杂场景下的应用潜力。最后,对比了Chatbox与Dify的输出效果,证明Dify能提供更详尽、精准的回复。总结指出,阿里云的解决方案不仅操作简便,还为专业用户提供了强大的功能支持,极大提升了用户体验和应用效率。
1180 19
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
帮你整理好了,AI 网关的 8 个常见应用场景
通过 SLS 还可以汇总 Actiontrail 事件、云产品可观测日志、LLM 网关明细日志、详细对话明细日志、Prompt Trace 和推理实时调用明细等数据汇总,从而建设完整统一的可观测方案。

热门文章

最新文章