从手机上的短视频,到智能电视中的新闻报道,如今互联网上 80% 的流量来自于视频内容。但你可能还不知道,如今很多流行的视频内容都是有 AI 参与,甚至完全是由 AI 自动生成的。
在视频制作的全流程加入 AI,已经成为越来越多媒体和公司的选择,而提到国内的 AI 技术,自然而然就会让人想到百度。
在本周四的一场活动中,百度首次揭开了基于 AI 原生架构的「智能视频云 3.0 全景图」。与此同时,其领先的视频处理技术又获得了一次大规模更新。
百度的智能视频云 3.0,现在已可以在云智技术一体化、产品平台化、应用场景化三个层面全面赋能视频业务的全部流程。
智能视频云 3.0:让 AI 覆盖视频业务所有环节
百度首次揭开了智能视频云 3.0 的全景图:
百度已构建起完整的云智一体的智能视频技术 + 平台。
智能视频云 3.0 将百度「云智一体」的优势与视频技术全面融合,为行业提供了先进、全面的云与 AI 的视频技术能力、实用的视频创作分发平台和视联网感知平台,以及覆盖全场景的智能视频技术方案。
云智一体,是智能视频云 3.0 的核心亮点。在技术发展趋势和行业业务的迫切需求下,「智」——AI 技术可以实现对视频中的各种信息元素进行多模态分析、理解、生成,以云、边、端一体为基础的「云」计算则成为「智」强有力的输出载体,二者结合、双管齐下,不仅能够更好地适应全视频时代提出的要求,也成为相关产业实践的新思路。
在新近升级的智能视频云 3.0 上,百度开放了十余个云智产品组件和两大面向场景的平台。其中,创作分发平台面向泛媒体和泛互联网场景,可以提供端到端一站式的视频服务。该平台覆盖了视频分发的全流程,包括各种方式的视频接入,视频生产、内容处理、审核分析等等,最后还可以通过个性化推荐实现高效率分发。
创作分发平台的核心是工作流和媒体资源管理,通过媒资结构化处理和多模态精准搜索,人们可以利用这一工具将资源利用率提升 40%,最大程度地发挥内容的价值。
同时,这一平台也降低了 AI 技术的使用门槛,创作分发平台提供了一套可视化控制台,可以简单灵活的配置编排视频的处理流程,应对个性化业务需求,并让自身产品适配移动化、多终端、多形态业务场景。
这些技术到底有多好用?据介绍,百度提供的智能小视频解决方案,涵盖视频管理、存储、转码、审核、抽帧、去重、标签化、分发加速、个性化推荐、大数据等功能,只需一个人就可以上线自己的视频业务。百度还计划在今年二季度对创作分发平台进行再升级,将百家号中现有的视频生产能力开放出来,面向所有创作者赋能。
在工业领域,计算机视觉的应用面向视频监控和目标识别居多,百度智能云的视联网感知平台,主要面向这些产业视频应用场景。它的核心是对视频端设备和泛视频数据流的统一连接、分析和管理,可以为企业生产、园区管理、城市和社会治理等工作提供平台化支撑。
「通过百度智能视频云边端融合基础与云智一体的架构设计,智能、开放的产品理念和平台,我们最终可以帮助合作伙伴实现面向生产、控制和治理等场景的通用化基础平台,」百度智能云智能视频总经理连林江说道。「我们的平台能为产业视频应用提供一个视频数据的接入、管理、智能化分析的运行环境、云智一体的开发环境,还可以通过应用能力平台的开放催生出新的商业模式。」
基于全流程的云智技术产品能力和两大平台,人们可以在百度智能视频云上实现丰富且完整的能力组合,进行新功能的开发,并将之集成为应用进行部署。
多模态视频生产的「最终形态」
在最常被人们接触到的消费互联网领域里,百度智能云的技术可以帮助实现内容生产的自动化与智能化。从智能视频云 1.0 提供视频传输能力,到 2.0 版智能生产、智能连接、智能理解三项升级,在最新的 3.0 版中,百度已经实现了全链条的 AI 视频处理能力。这样的智能化主要包含机器学习对视频内容的分析理解、生产和交互等。
「我们发现,多模态 AI 技术已经进入了实践阶段。在视频中,字幕和声音可以让机器更好地理解视频内容。支持增强的理解能力。」百度视觉技术部总监丁二锐表示。
在面对大量数据时,如何让机器准确分析出视频内容?基于百度自研的业界最大多元异构知识图谱,你可以链接 5500 亿海量知识对视频内容进行整合分析。
通过联合视觉分析、语音识别、文本理解等多模态的内容,AI 算法可以更准确地理解视频内容并进行相应地算法推理。「我们发现,结合知识图谱增强之后,视频 AI 的自动标签的召回率比之前单纯通过多模态的形式提升了 140%,大幅度地提升了视频的编目、分类效果。」丁二锐说道。
此外,在视频模态自身的理解中,百度也引入了目前 AI 领域前沿的超大规模预训练模型,其支持有监督数据、无监督数据的混合训练。在算力有限的情况下,你可以使用压缩工具库 PaddleSlim 对模型进行压缩、蒸馏,帮助开发者量化、适配不同场景的模型。
在视频智能生产上,百度视频云可以通过图文资讯、数据、图集等多种内容载体向短视频进行转换,并基于知识图谱对视频从结构化数据、事件脉络、以及知识理解三种角度上进行分析,实现创新的视频生产。最后在视频的交互与生成上,全新构建的交互与生成 AI 能力中,基于元学习 - 迁移学习的视频生成技术可根据需求快速定制出不同风格的高质量视频。
「多模态视频生成技术的集大成者就是数字人,」丁二锐说道。「一个好的数字人需要实现四种方面的能力:丰富的形象,自然的交互,同时能够高效产出内容,还需要适应多种不同的业务形态。」
数字人虚拟主播「小 C」
AR 互动视频,数字人等技术是视频领域未来的方向。利用百度智能视频技术中虚拟数字人形象生成、RNN 实时语音合成等技术,可以很快制造出个性化的虚拟形象为我们讲述故事、播报新闻。这些虚拟主持人可以 24 小时连续不间断地向人们播报新闻,形象生动、交互自然。
百度智能云与央视网合作打造了人工智能编辑部,在中台的体系基础上打造了包含采编发的人工智能编辑部实体的业务+线上流程的全流程逻辑。构建了大量创新应用,包括面向消费者的「帮你找」功能,帮助用户和采编人员利用知识图谱找到相关素材。
在大阅兵、两会等热点事件中,百度的数字人形象越来越多地出现在报道节目中。5 月 4 日晚,在中央广播电视总台《奋斗正青春——2021 年五四青年节特别节目》中,来自百度的 AI 虚拟主持人晓央亮相五四晚会,吸引了人们的关注。
优美的形象,自然的动作,让晓央给人留下了很好的印象。在「她」精彩表现的背后,是百度数字人产品采用的影视级的 3D 制作技术。在保证模型精细度的基础上,对面部特征、表情管理、体态管理进行了深入的研究。
为了解决传统影视技术生产的数字人表情不够生动、动作不够自然的问题,百度通过 AI 技术对人像驱动绑定调优,并使用了 4D 扫描技术,采集了海量表情训练数据,实现了端到端的面部预测,基于语音合成、真人语音的口型生成准确度超过 98.5%。
除了 3D 数字人,百度智能云提还供了其他类型风格的数字人,并在业内第一个把这一技术做到「工业级应用」:针对 2D 数字人,只需要一段播音员 5 分钟的视频资料,你就可以定制出一个全新的数字人,又可以通过静态图片对其进行换脸,实现多种个性化定制。
比拟真度和个性化更重要的是,这样的虚拟人可以支持多种应用场景。百度智能云数字人支持文本驱动、语音驱动、指令控制、真人驱动等驱动方式,也可以在任意多种驱动方式间的实时混合。这样的技术在提升驱动效果的同时,有效降低了使用门槛和使用成本。
百度智能云基于不同驱动方式的多模态视频生产能力,已被广泛应用在广电、金融、电商、教育等行业,直播、短视频、对客服务等场景中。
在金融行业,图文之外的内容需求正在不断增长。百度智能云可以提供底层的信息获取,以及数据处理能力,对海量视频内容进行标签、索引化,最终将分析结果可视化,做到图文视频的高效传播。
在体育领域中,人们会关注各类比赛中的高光时刻,百度智能云的算法可以从赛前的历史的数据、知识图谱检索做起,自动在比赛中展现相关内容,生成比赛精彩集锦的短视频。
聚焦产业智能转型的痛点
「通过对视频内容的结构化处理,我们可以大幅度地提高工作效率。」百度集团副总裁侯震宇在活动中表示。「视频作为人类最容易理解、最易处理的媒体形态,不仅在娱乐领域,在很多行业业务中也已成为了完成任务的重要数据来源。这意味着在产业互联网中,我们也需要一整套的方案。」
百度集团副总裁侯震宇在「云智技术论坛 - 智能视频专场」活动中。
在面向业务的场景中,视频技术提供的是「把物理世界数字化」的能力,将视频转换为语义化的信息,用机器的自动化感知最终做出决策,对于 AI 技术来说,结构化的数据意味着生产力。
但在机器学习技术落地的过程中,人们往往会面临端侧算力有限,不同型号硬件适配困难,以及复杂的业务需求。很多企业希望打造云智一体的平台处理视频内容,这需要产生视频,加工,传输和结构化处理,最终进行理解和使用。
在智能视频云 3.0 中,视联网感知平台聚焦产业级视频通过信息获取对多种业务进行决策的特性,通过智能端多场景覆盖下的 200 余种应用场景,一站式、低数据、快速定制能力的 EasyDL 算子生产技术,与云边端硬件深度融合,提供了具有秒级告警能力的最优云智一体架构,使平台形成模块化,并开放接口服务,实现了快速对接构建,提高了平台资源配置管理的效率。
百度既可以提供智能硬件、视频处理能力和云算力,也提供视频分发处理能力,而在应用商城中,人们还可以找到各种实用化的 AI 算法。在用户应用 AI 技术一段时间后,通过数据和实践获得的经验也可以沉淀下来,通过 EasyDL 开发出 AI 算子,服务于其他机构。
在活动现场,来自宜昌市点军区和杭州星犀科技等合作伙伴分享了与百度智能视频云合作的案例。在百度智能视频技术的助力下,宜昌市点军区在公共卫生、乡村振兴、基层医疗、环境保护等方面为市民们带来了更多智能化的服务。而通过百度智能视频云 PaaS 能力与云犀直播 SaaS 应用的结合,云犀直播解决了零售品牌自播执行门槛高、门店直播运营力缺乏的关键问题。
「云」加持的画质体验
百度智能视频云的视频分发基础设施 CDN 在全球已拥有超过 1000 个节点,具备超过 100T 的带宽储备。在智能视频云 3.0 架构中,云能力对各类业务中视频本身的质量进行了提升。
百度提出的「智能编解码技术」BD265 通过深度学习网络来提取视频的体征,生成智能的编码参数,实现降低码率同时,提高主观的视频体验和质量;百度自行研发了 60 多种算法,采用了多层并行的架构,在视频质量、编码速度和编码码率取得了优化解,可以在码率上平均节省 20%-30%。
质感超清技术和产品则实现了创新性的视频增强解决方案,采用画质修复和色彩增强,应用了去噪、去划痕、上色、画质增强、超分辨率、SDR to HDR 等十几种算子,适配不同视频类型和场景,带来了视频画质的提升和超高清内容的转换,让视频体验更上一层楼。百度智感超清的视频处理技术已经应用帮助央视电影频道等完成了许多老旧片子的修复、换新,相比人工处理效率提升了十倍以上。
百度的 SDR 转 HDR 的效果,可以看到颜色、亮度、细节等均有提升,这种技术支持 BT2020 色域、10bit 的位深。
在活动中,百度智能云还展示了实时音视频通讯的领先技术。通过 AI 算法对上下行链路的智能预测,基于神经网络的路由规划和 WHIP 协议等技术,百度可以实现端到端即时通讯 200ms 以内的稳定延时。
而智能视频云中的 All in one SDK,可以面向不同业务场景提供矩阵能力,涵盖视频特效、短视频、互动直播、播放器、增强超分等。
「我们不仅需要用云服务来解决多样化视频端设备的接入、算力的云边端承载和调度、快速传输和处理,也需要智能化地解决视频内容的结构化解析、场景化感知、语义化理解、智能化决策,」连林江说道。「我们正处在全面视频化,全面向数字化、智能化转型的过程中。」
百度是迄今国内唯一可提供从芯片设计到深度学习框架及应用层面全栈式 AI 能力的公司,它提供的基础设施包括人工智能芯片、深度学习框架、核心人工智能能力及开放式人工智能平台。
这种能力已经为它带来了独有的竞争优势:根据 IDC 的数据,其在人体识别、图像视频、自然语言处理等领域的市场份额持续保持第一。百度二月份公布的 2020 年财报数据显示,去年第四季度百度智能云营收同比增长了 67%。
进入增长快车道的百度,正在以自己领先的 AI 技术能力深入各行各业,为产业智能化升级带来新的机遇。