阿里工程师开发弹幕新玩法,网友不淡定了……

简介: 如果你在追剧时喜欢看弹幕、发弹幕,那你一定知道有些剧里弹幕甚至比剧情还要精彩,比如上过热搜的出自《东宫》的那一句“谈恋爱吗?灭你全族的那种”。正是由于这些神一般的网友频频曝出精句,让某些剧集精彩程度翻了几倍,甚至有大量网友来追剧是被弹幕吸引来的。今天,阿里文娱高级开发工程师 神灭介绍一种弹幕新玩法,让弹幕的可玩性更高。

IMG_1627.PNG

喜欢用优酷看视频发弹幕的同学应该已经发现,最新版本上很多剧都上线了全新的基于AI人脸识别的跟随弹幕,以往的普通弹幕或高级弹幕都是在播放器顶端自右向左以跑马灯式的效果展示,而这种跟随弹幕是以气泡样式挂在人物头像旁边,随着人物移动而移动。这种跟随弹幕可玩性更高,有才网友可发挥余地更大,下面就列举几个例子。

结合人物动作的玩法:

1.png

结合人物所处场景的玩法:

2.png

自编自导人物对话:

3.png

4.png

从几个视频demo中可以看出,相比普通弹幕,这种跟随弹幕是以一种类似剧中人物的内心OS的方式展示出来的,与视频无割离感,更有趣更新颖更精彩,有更多玩法。

本文主要讲诉一下跟随弹幕是如何展示的,从构架图开始讲解实现流程;再由开发过程中遇到的棘手问题,分享技术策略;最后分享未来规划。

一、跟随弹幕架构图

5.png

整个流程自下而上,分成算法侧、服务端、客户端三层:

首先,算法侧按每秒25帧的频率进行视频抽帧,对每一帧进行人脸识别,配合人脸跟踪和平滑处理,生成每一帧的人脸元数据;

其次,服务端将多个帧的人脸元数据通过降噪、防抖、合并后组合成一组组的人脸组数据,将该数据与跟随弹幕数据一起下发给客户端;

最后,客户端在互动SDK中将每组人脸数据生成一个脚本,脚本中完成弹幕跟随该人脸轨迹的移动而移动。

下面着重介绍下每个模块或子模块完成的任务:

1.算法侧

1) 视频抽帧模块:将视频流按每秒25帧(可配置)的频率抽帧。抽帧频率越高,人脸移动轨迹越平滑,但后面人脸识别算法耗时也随之增加;

2) 模型训练模块:提供多张多角度剧中出现的人物图像,给模型训练模块来训练,生成对应人脸库,再配合已训练完成的明星库,这两个库可以大大提高人脸检测的准确度;

3) 人脸检测:识别每一帧图像中的人脸,并给出坐标;

4) 人脸跟踪:为方便服务端生成人脸的运动轨迹,需要把连续几帧中的相同人脸标记出来;

5) 平滑处理:由于每帧中识别出的人脸坐标有一定的偏移量,所以整段人脸轨迹中会出现抖动现象,平滑处理就是通过微调每帧人脸坐标让整个人脸移动轨迹更平滑。

2.服务端

1) 降噪:算法侧不关心每一帧上到底哪张人脸重要或不重要,所以会有大量的路人脸是出现一秒不到就消失的,这种无意义的噪点需要直接过滤掉,即降噪处理;

2) 防抖:如果算法侧平滑处理未达到要求,人脸在运动过程中还是有抖动,服务端可以对元数据进行二次加工,让人脸移动更平滑;

3) 合并:算法侧吐出的都是每一帧的元数据,但客户端关心的是一张人脸由出现到消失的整个轨迹过程,服务端会把元数据合并成一组组人脸的轨迹数据,即人脸组数据;

4) 气泡弹幕数据:跟随弹幕的数据,每条弹幕都对应着一张人脸,也指定了弹幕开始展示的时该。

3.客户端

1) 互动SDK模块:加载各种互动脚本,每个脚本都是一个小的互动,比如电影评分、百科tips、双流酷看等。利用了互动SDK的基础能力,这里把每张人脸由出现到消失的整个过程当做一个小的互动脚本;

2) 人脸脚本:人脸脚本中包含着该张人脸的轨迹坐标和对应该张人脸的弹幕气泡数据,脚本中有个定时器在轮询,查找着当前时刻对应人脸的坐标,如果该时刻有跟随弹幕数据则把该数据展示在人脸旁边,继续轮询即达到了弹幕气泡跟随人脸移动的效果。

二、为什么不通过客户端直接识别人脸?

1. 实时观看对于时间要求太高

对于客户端来说,最终需要知道的是一张张人脸由出现到消失整个轨迹过程,如果客户端做识别,目前只能识别到某一帧中人脸数据,追踪、平滑处理、防抖、过滤、合并,这整个过程下来耗时太大,根本无法满足用户实时观看的需求;

2. 端侧识别准确度达不到要求

先前做弹幕穿人时,iOS端接入过AliNN提供的SDK,人脸检测还是偶而出现未检测到的情况,如果人脸检测准确度上不能达到要求,必须自己做补帧处理,这个补帧处理很难做到实时;

3. 端侧识别影响用户体验

端侧识别时手机cup消耗增大,即耗电量会增大,同时可能也影响到播放器卡顿率。

三、棘手的问题

1.在即将切镜头时发跟随弹幕,如何停留的问题

用户发弹幕的时刻恰好在人脸马上消失的时刻(比如马上要切镜头),这时由于人脸会马上消失,而其它人脸会马上出来,问题来了,如果为了保证用户能看到自己发的弹幕,那这条跟随弹幕就需要强制在屏幕上停留几秒,但就因为这几秒钟导致切镜头后这条跟随弹幕很尴尬。测试同学反馈说弹幕在切镜头后很奇怪,给人一种“天空飘来一句话”的感觉。

对这个问题,最终我们的解决办法是切镜头前一刻发的跟随弹幕,在切镜头后直接跑渐隐效果,这样即保证了用户能看清自己的弹幕又保证不会尴尬地挂在下一个镜头的人脸上。视频效果如下:

6.png
7.png

2.大剧热综频繁剪辑导致人脸数据时间轴错乱的问题

一个视频特别是综艺上线后,会时不时地多次剪辑。一旦剪辑后,人脸数据和进度条时间会错位,运营同学可能会给出一个大概时间比如在一分二十秒位置剪掉十秒这样的数据,但人脸数据必须与进度条时间在毫秒级单位上对应,否则会出现明显延迟或超前。如果重跑数据,可能需要几个小时下线掉该功能,如果要复用数据就必须知道精确的毫秒值,然后剪切部分之后的人脸及弹幕数据全部做偏移处理,所以问题就是如何获取精确的剪切时长。

按照如下方式,只需要跑新视频剪切点前后一小段人脸数据,即可计算出剪切的毫秒级时间,然后将原视频中在剪切点后的人脸数据及弹幕数据全部偏移对应时间即解决了数据错位问题。

8.jpg

四、未来展望

剧中的人脸数据如果只应用在跟随弹幕中就大材小用了,下一步我们准备把带有人脸数据和人体数据的脚本做为基本脚本,后面除了跟随弹幕脚本,还会有弹幕穿人脚本等等。后续客户端这部分架构可能会调整,见下图。方便大家通过外部注入等方式,构建自己想要的脚本。

9.png

所以当你有了创新点子,也需要使用到人脸人体数据时,可以继承自基本脚本拿到数据后直接定制自己想要的功能,借助成熟的优化过的人脸人体数据,快速地完成demo。

比如YY一个场景,由于某些原因,需要给明星A所出现的镜头打上马赛克,或下掉明星A参演的电影。下掉电影肯定不能接受,毕竟花了大价钱买版权;靠人工对大量镜头重新剪辑又不现实,这就到了考验各视频APP技术能力的时候了。我们借助互动SDK提供的能力,通过已经下发的人脸ID判断出是明星A时给下发的人脸框打上马赛克,问题就解决了。

目录
相关文章
|
消息中间件 架构师 算法
好家伙!全网开源对标P5~P7程序员技术成长路线,阿里这次是真卷
今年的程序员可以说是最焦虑的一个群体了,面试找工作投简历没人理,有面试机会也面试不过,面试进去还干不长...于是,程序员们纷纷直呼:互联网寒冬又双叒叕来了,环境不好努力也没用躺平算了。
281 1
好家伙!全网开源对标P5~P7程序员技术成长路线,阿里这次是真卷
|
机器学习/深度学习 前端开发 搜索推荐
2023大淘宝技术工程师推荐书单
今天是4月23日了,是联合国教科文组织规定的“世界读书日”。 大淘宝技术的工程师们精心挑选出7本技术类书籍, 有机器学习方面的、推荐系统方面的,分布式领域的,等等。每一位工程师都根据自己真实的阅读心得写了推荐语,希望能帮大家更快挑选到对自己有用的书籍。
224 0
|
搜索推荐
没有编程知识,这么做轻松搭建自己的体育赛事直播平台
很多人可能认为搭建一个体育赛事直播网站需要具备编程代码的技能。然而,如今有了“东莞梦幻网络科技”的成品源码,即使没有编程知识,也能轻松搭建自己的体育赛事直播网站。
|
存储 运维 算法
即时通讯技术文集(第17期):社交软件红包技术专题 [共12篇]
为了更好地分类阅读 52im.net 总计1000多篇精编文章,我将在每周三推送新的一期技术文集,本次是第17 期。
138 0
|
安全 网络安全 Android开发
移动端安全攻防那些事儿,看这场直播就够了!
随着移动互联网的不断发展,移动终端不管是在设备持有量,还是在用户数量上,都已经超越了传统PC端,成为第一大入口端。其中,以手机为代表的移动终端反而变成了最大的威胁存在。
155 0
移动端安全攻防那些事儿,看这场直播就够了!
|
机器学习/深度学习
R爱好者福利|免费线上资源分享
最近有些R爱好者想要寻求R语言相关资料,以下为小编平常经常使用的免费开源的R语言资料,和大家分享。 其他统计,R语言书籍小编这也搜集了很多,但是由于版权等问题,不能直接分享,需要可后台联系,或者加小编微信(菜单:资料获取)。
267 0
R爱好者福利|免费线上资源分享
|
Linux Windows
直播一对一源码快速搭建的终极秘诀,技术分享
初创公司如果打算自建视频直播平台,其实技术研发成本比较高,由于目前直播技术相对都比较成熟,设备也都支持硬编码,建议可以自主购买一整套的程序源码,把程序架构搭好,然后再进行程序的二次开发。直播一对一源码作为直播平台坚实的技术支持更成为打开新营销时代的钥匙.直播平台几乎每隔几天也会有新的直播APP上架更新迭代。
直播一对一源码快速搭建的终极秘诀,技术分享
|
达摩院 语音技术 芯片
今日直播预告:所有同学!达摩院语音技术专场来咯!
6月4日(今天)下午16点,达摩院机器智能技术实验室——付强博士做客直播间!
今日直播预告:所有同学!达摩院语音技术专场来咯!
|
人工智能 算法 开发工具
阿里工程师开发弹幕新玩法,网友不淡定了……
如果你在追剧时喜欢看弹幕、发弹幕,那你一定知道有些剧里弹幕甚至比剧情还要精彩,比如上过热搜的出自《东宫》的那一句“谈恋爱吗?灭你全族的那种”。正是由于这些神一般的网友频频曝出精句,让某些剧集精彩程度翻了几倍,甚至有大量网友来追剧是被弹幕吸引来的。今天,阿里文娱高级开发工程师 神灭介绍一种弹幕新玩法,让弹幕的可玩性更高。
491 0
阿里工程师开发弹幕新玩法,网友不淡定了……
|
弹性计算 Apache PHP
【云计算的1024种玩法】为小伙伴搭建一个功能丰富的百度贴吧云签到
贴吧是年轻人比较喜欢逛得地方,和云栖社区一样贴吧也有个签到功能,不过云栖社区只有一个地方要签到,但是要是你泡的贴吧多了那签到就麻烦多了而且还容易忘记。这时候传说中的百度贴吧云签到就非常的实用了。
5289 0
下一篇
无影云桌面