《长安十二时辰》背后的文娱大脑：如何提升爆款的确定性？

2021-03-17 656

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文整理自LiveVideoStack线上分享第三季，第九期，由阿里巴巴资深算法专家，蔡龙军（牧己）为大家详细介绍如何在制作和播出阶段，利用AI和大数据来提升重要环节的确定性，进而提升内容爆款的可能性。

文/阿里巴巴资深算法专家蔡龙军（牧己）整理/LiveVideoStack

大家好，我是来自优酷内容智能团队的资深技术专家牧己，主要负责基于大数据和人工智能去解决内容方面的问题。接下来，我将以《长安十二时辰》为例，分享优酷在提升“爆款确定性”中的技术实践。

一、如何定义爆款？

优酷有个产品叫北斗星，相当于我们的文娱大脑。一般比较热门的剧集的“北斗星日指数”约50-60W，而《长安十二时辰》的“北斗星日指数”可以达到100W+，并且还带动会员收入的快速攀升。如果大家对北斗星指数没有概念，我再分享一个有趣的数字：雷佳音在剧中吃“水晶柿子”的桥段，使西安水晶柿子的销量增长到往年的6倍。综艺的年度爆款《这就是街舞》是同题材类型精品节目热度的2-3倍。另外，这两档节目除了对18-34岁核心人群有很好的覆盖，对35-49岁的人群上也有一定辐射，可见爆款的影响力有多大。

二、长视频爆款的复杂与挑战：较高不确定性

长视频爆款的复杂和挑战主要来源于不确定性，并且这种不确定性渗透在内容的采集、宣发和投放的所有环节中。第一个不确定叫做延迟满足和信息不完备。长视频通过组织多个有效的事件序列，形成价值转换，刻画出不同人物，最终体现一个或多个价值观，整个过程需要很多剧集逐渐被用户感知。每个用户对于内容的偏好点和关注点不同，获取的只是内容片面的信息，信息的不完备性，导致对于内容理解的偏差。

优酷主要通过NLP/CV/语音的语义理解&KG等技术，进行“内容外延的解构”和“内容内核的创作理解”，获取到内容从外到内的各维度数据，保证相对的确定性。第二个不确定是涉及工种极多的复杂系统工程。需要对复杂过程中的关键点数字化、模式化，对过程进行量化衡量&计算。第三个不确定来自于内容本身的专业技能。如何与流量商业价值相结合，内容人在内容创作过程中会加入各种专业的技术，如在大场景的还原上，镜头语言的处理上，服化道的配置上，画面的构图上等等。但是这些技术，哪些是用户关注的？哪些是用户不在乎的？这很重要，涉及到最终的流量商业价值。所以，优酷要在技术上解决用户理解和用户心理学的问题，洞察用户偏好，将用户和内容做关联。内容产业发展背后的趋势思考

商业需要确定性，而内容具有极强的不确定性，如何依靠技术达到平衡？这是内容产业发展所引发的思考。

在崇尚个性化的当下，爆款也从“全民爆款”演进成“圈层爆款”，非圈层受众对某些内容完全没有感知，与之前万人空巷的气势完全不同。

三、如何提升？向算法和数据榨取确定性

1、何为北斗星？

从内容的不确定性出发，优酷采取人机结合的系统即北斗星。北斗星是一个具有思考能力的大脑，解决采、投、制、宣、发、放等内容全生命周期的不确定性，提升爆款能力。

2、基础能力：内容创作理解能力

繁杂信息处理对于人工智能来说是“小菜一碟”，难点是解决内容创作中的理解、预测和挖掘能力。内容创作理解能力，是对剧本进行智能化的分析和挖掘，提高这部分的确定性。主创班子是一个极强的系统化工程，在上图左侧会基于内容理解做分析和挖掘，而右侧会基于数据对左侧内容理解做量化，从而提供类似大脑的思考和决策能力，提高这部分的确定性。

内容创作有自身规律，内容创作理解就是围绕基于镜头语言和“两千多年的戏剧理论应用价值观”转化为技术能力，即对剧本和视频的智能理解。

以《长安》剧本分析为例，全剧本共有120多个人物，主创戏份评估如下： 1）张小敬的戏份占15%，李必占10%，檀棋、龙波、姚汝能分别占5%、4%、3%； 2）张小敬和李必在全剧分别贡献了90%以上的人物关系； 3）檀棋贡献了80%以上的人物关系，在剧中作为功能性人物推动剧情发展。对《长安十二时辰》剧本的角色交互分析如下： 1）张小敬与檀棋的交互最多； 2）李必与檀棋、徐宾交互较多； 3）相比IP剧本减少了张小敬和李必的交互。

对《长安》中人物情绪进行分析发现：在前16集中，第3集和第10集出现了情绪表达的高峰，为剧情创造紧张情节。

对于《长安》第一集的成片进行多模态，包括声音与图像。图像综合了演员表情、场景、动作等分析，预测出一条“用户观影情绪曲线”，后续结合用户真实观看情况对数据进行升级优化。

3、采制阶段：预测能力建设

对于不确定的事情，如果可以计算出不确定性有多强，便可有效提升商业决策效率，提高决策结果的确定性。基于此，建设识别和理解不确定性的预测模型。

预测中会面临数据、模型和应用三方面问题。数据问题分为数据量不够，数据不干净和信息不完备。模型的问题包括复杂机制很难通过样本进行覆盖、很难深入理解问题本质和很难跨领域进行举一反三学习。从优酷的经验出发，是正确识别应用上的不确定性可以在应用上有很好的改观。

常规解法也分为数据、模型和应用三方面解法。数据量由数据采样和数据生成解决，数据不干净由数据清洗解决，数据不完备由Domain Knowledge&KG解决。应用解法中不确定分析模型有Belief Network等解法。

根据之前解决的问题，解法可以分为四层：

第一层是基础层。分为KG&Domain Knowledge/Feature Engineering和学习加速；

第二层是数据层。分为数据生成（SMOTE），隶属度变换（高斯隶属度）和半监督学习；

第三层是模型层。通过DNN和Relation Net以及MTL相结合，降低过拟合，提高模型的学习能力；

第四层是Uncertainty Learning，基于变分推断的框架进行内容不确定性的预测。

SMOTE（Synthetic Minority Oversampling Technique），合成少数类过采样技术。

它是基于随机过采样算法的一种改进方案。由于随机过采样，采取简单复制样本的策略来增加少数类样本，这样容易产生模型过拟合的问题，使得模型学习到的信息过于特别(Specific)而不够泛化(General)。 SMOTE算法是对少数类样本进行分析，并人工合成新样本添加到数据集中，新样本的公式为xnew=x+rand(0,1)∗|x−xn|，生成的样本可直接应用到项目中，但提升效果不稳定。优酷得到的结论是：在生成新样本后引入隶属度变换，来计算新样本与真实样本的接近程度。经验证，加入隶属度变换后，效率提升约5%。

网络异常，图片无法展示

所有模型都会面临过拟合问题，优酷的基本思路是分析预测事件的基本特点，对于不同的特点建立不同的模型，分别有生命周期模型、竞争博弈模型和复杂影响因子。

对于复杂模型的逻辑：把前面的模型各部分的因素都拆开，复杂因素用DNN去拟合，外部竞争的关系去Relation Net做推理去解决，最后用MTL整合模型，根据实际情况也会加入其它模型。

Relation Net是2016年发表的CNN模型。基本思路是将包含各种圆柱、椭圆等形状的图片，经由CNN网络输出生成feature maps，把图中涉及到形状的object通过通道取出，每两个object配对形成一个对比串，然后与LSTM编码question的embedding向量叠加到一起，输入到一个深度网络中进行学习，最后softmax分类到某个答案词上面，进行正确与否的判断。 Uncertainty Learning这块，从2016年开始它逐步热起来，我们也用变分去做了一些事情。

这一部分可以在网上参考“贝叶斯Network”，重点看它如何利用“变分”得到最后结果。

4、宣发阶段：挖掘能力建设

挖掘能力更多应用于已经发生的事件，使其更具有确定性。上图是《长安》播出后，每一分钟用户的收视状况、复看状况和弹幕状况，再结合每一时间段的剧情内容对用户喜好做更精准的分析，以此来做更好的宣推和挖掘。内容产业是个不确定性非常高的产业，越是爆款就越有不确定性。互联网下半场我们积累了特别多的数据，AI能力也得到了前所未有的发展，我们建立了“文娱大脑”北斗星、AI剧本等内容形式的挖掘能力，和采买不确定性预测的评估能力，以及对于宣发挖掘的能力，都在业务应用上取得了不错的成绩。传统的内容制作领域，依然依赖人的经验，在强人工智能尚遥远的情形下，如何结合机器AI和人工经验是个永恒的主题，例如结合符号主义（计算机学派）和连接主义（仿生学派）的智能。因此，我们将在两个方向发力： 1）决策引擎的建设，包括结合人工逻辑规则和机器学习，不确定性分析框架和经久不衰的贝叶斯因果决策，以及神经元化的混合智能计算框架。 2）量化的心理学研究也越来越重要，我们也会推进这部分探索。

————————————————

原文链接：https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/99619275

「视频云技术」你最值得关注的音视频技术公众号，每周推送来自阿里云一线的实践技术文章，在这里与音视频领域一流工程师交流切磋。

阿里云视频云@凡科快图.png

《长安十二时辰》背后的文娱大脑：如何提升爆款的确定性？

一、如何定义爆款？

二、长视频爆款的复杂与挑战：较高不确定性

三、如何提升？向算法和数据榨取确定性

1、何为北斗星？

2、基础能力：内容创作理解能力

3、采制阶段：预测能力建设

4、宣发阶段：挖掘能力建设

阿里云视频云

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

《长安十二时辰》背后的文娱大脑：如何提升爆款的确定性？

一、如何定义爆款？

二、长视频爆款的复杂与挑战：较高不确定性

三、 如何提升？向算法和数据榨取确定性

1、何为北斗星？

2、基础能力： 内容创作理解能力

3、 采制阶段： 预测能力建设

4、宣发阶段： 挖掘能力建设

阿里云视频云

热门文章

最新文章

相关课程

相关电子书

相关实验场景

三、如何提升？向算法和数据榨取确定性

2、基础能力：内容创作理解能力

3、采制阶段：预测能力建设

4、宣发阶段：挖掘能力建设