大数据在媒体行业的应用——《企业大数据实践路线》之二

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云解析 DNS,旗舰版 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 阿里云MVP戚俊带你以媒体行业为例,深入分析大数据在媒体行业的应用

作者:阿里云MVP戚俊

本文系《MVP时间》视频课程《4节课看懂企业大数据实践路线》的文字版,视频请看MVP时间课程主页

本期视频可见课程直通

上期内容回顾:
《企业大数据实践路线》之企业大数据的现状与痛点
下期内容链接:
解析业务数据的特征——《企业大数据实践路线》之三

上期我们讲了企业大数据的现状与痛点,本期我们以媒体行业为例,深入分析大数据在媒体行业的应用。
先来看一下媒体行业工作流:
image

新闻工作者先产生一个内容,形式可以是文字的、视频的等,无论你是编辑还是记者或者说是美编,或电视台的采编人员等等所生产的内容都会存入到业务数据库里面,业务数据库通常存在我们内部单位的机房里面,媒体行业也同样,再小都会存放到自己的机房里面,都有自己的业务数据库,把业务数据存入数据库之后呢,通过渠道把数据传输出去,比如说通过网站、直媒的渠道、移动端渠道、电视台视频的渠道等其它渠道出去,这些渠道出去的东西被观众、读者、听众所获取后产生反馈,或无反馈,但最终数据都会被特点的人员即统计人员进行统计。如果说是直媒,它不像电子媒体有收视率,阅读量的概念,但直媒会有甄别能力的数据量,可以在系统里面或者是企业内部的甄别系统里面查到。数据又分散在不同的系统里面,甄定有甄定的系统,网站有网站的CMS,视频有专门的视频点播系统,APP有APP的客户端,新媒体有新媒体的客户端,如头条等其它媒体渠道,这些大部分信息都是由我们的统计人员把它们重新合并、归类放到我们自己的企业如报社、杂志社内部去进去分布的。这个过程需要绘制一张统计报表。

1、 看了一个报道在报纸上看到的
2、 看了一篇新闻在电视上看到的
3、 网站上看了一个视频,这个视频多少分钟,讲述了一个什么样的事情

看到的这三样东西,可能表现形态是不一样的,但在整个的新闻单位内部,是有一个起始点出发的,从某一个新闻线索出发延伸出来的三条数据,把这些扩散传播出去的信息反向回收回来,再跟这三条线索关联和绑定:
一是通过这样的关联和绑定去解析营收,可以具体去看到是什么样的新闻,什么样的文章更容易得到读者的喜欢,或什么样的内容下它的广告效果会更好。
这些营收的解析都是通过我们的统计人员反向解析后绘制出来的报表来解析我们的营收这样一个过程。
二是绩效考核。绩效考核主要是针对我们的记者、编辑、新闻工作人员、美编、电视台的采编人员这样一个绩效考核,这个就会关联到年终奖,月度季度奖金都会有一定的关联。
这就是我们传统媒体整个的一个工作流程,从开始介入工作到最终出绩效考核,得出的一个全流程的概览。

流程版的工作流:
image

人肉方式跟进传播路径:这里的路径比如说传播到了微信,或者是传播到了某某网站,传播到了电子刊物、电视台等各种各样的新媒体。
通过粗浅的分析大致了解传播效果:这里为什么会是粗浅?人肉的跟踪方式一定是不会有很好的效果,因为它有时效性,统计的时间节点,各平台的传播路径产生的反馈结果是不一样的,比如说有一篇文章,放到了今日头条里,今天下午3点去统计,它的阅读量可能只有1500,但你把这个数字记录下来后就没了,但你明天再来看,可能晚上特定标签的用户在晚上9点钟批量的阅读,这类人就爱看你这种类型的文章,这样可能就会有一个爆发式的增长,就会有2万次甚至是5万次的阅读量,这样前面统计出来的1500次由于时效性的问题变得极其不准确,这是第一个时效性带来的问题。
第二个就是传播渠道太多,人力有限,通过人力基本上是无法100%覆盖的,大部分的人力统计都是肉眼去识别、去记录再汇总的EXCLE里面,或者有更高级的方法,半自动化的方式抓取,通过爬虫去抓取一些电子版的一些阅读量、评论数据等等。不可避免的是渠道的限制,以及转载转发的限制,无法很全面的收集回来,这是传播效果遇到的最大阻碍。

总结:
1)时效性
2)渠道覆盖面

通过内容付费或增值业务产生营收:比如本身就是通过付费来看的,或者是通过一本出杂,这本杂质是要买了才能看。或者说你的内容是免费的,但里面有一些像广告业务,或者是帮助其它公司做了一些PR的品牌宣传,通过增值的方式产生营收。
粗放的进行绩效考核:由于前置流程比较粗,所以这个考核一定是不全面的,对员工不公平,或者过度发放绩效,明明没有那么好的价值,通过直观感受来评定绩效考核的标准,这就会产生一个粗放的绩效考核。
从上面的图形版到流程版,除了不精细的问题外,好像没有什么很致使的错误在里面,以前我们做媒体行业,也是这么认为的,凑合用,没有出现什么恶劣的后果,但目前在我们这样一个时代里,竞争对手都在往前跑,我们也不得不往前跑,对此我们就分析了一下,拿到了一个点告诉媒体行业客户问题出在哪里。
下面这张图可以看出一个正常的媒体工作流应该有的样子。

image

图的前半部分是和我们上面讲到的一样的,但是从传播渠道开始,你的数据就开始脱缰而出,不受控制。

image

这个过程就有了人,做了机械的事情以及不准确的事情,接下来的操作,统计,营收,绩效都会由于依赖于不准备的统计数据,就像导致后续所有环节都出现问题,这个过程最大的问题在于人为进行数据收集的关卡没有做好,导致数据脱缰,不受控制。人为会存在很多客观,主观等各方面影响,就会容易出一系列的错误,但往往又最难控制,最难管理。
在整个工作流最重要的三个环节之前加入了一个不靠谱的人来完成这样的工作,所以让自己的整个数据环境应得很不安全,这也是在和客户进行问题处理中总结出来的一个概念,传统媒体是这样一个情况和现状。
改造完之后的状况又是怎样的呢?
看一下下面这张图,一个前沿媒体的工作流程:

image

还是通过采编人员去创作内容,之后通过近期的热点、读者偏好进行定向化或者有权重的创作,创作完成后进行智能核对及智能排版,这样一个过程,像媒体行业都有三审三校的过程,防止出现大的疏漏,像错别字、书写错误、拼写错误等,可以通过比较智能的校对工具或者是校对过程,以及一个比较智能的排版过程解决这些问题,当这个问题解决之后,才会把一个比较标准的内容入到内容库中,进一步进行内容传播,内容传播后分到不同的渠道。

现在变为千人千面的推荐内容,推送给相应的读者,这个模式很像头条,或者是新闻版的淘宝,每个人会看到不一样的内容,伴随着每个人阅读的信息越多而差异性越大。每个人的阅读习惯以及行为都不同,不同程度的阅读时间积累之后把握到你感兴趣的信息点,给你推荐你喜欢的信息。

当你把信息推送给读者之后,就会产生各样各样的数据,比如像我们的传播数据,如一段视频、 一段声音,传道到不同的渠道媒体(头条、网易新闻、网站以及APP)上等,这个传播的数据是需要记录下来的,以及阅读的数据,比如某某某什么时间阅读了什么文章也需要记录下来,还有行为数据比如在阅读或者是观看信息的过程中产生的一些行为,最长见的像评论点赞、视频发弹幕,这些是比较基础的,还有更深层次的,像在这个过程中产生的分享,或者是看了几分钟,或者是跳行等都是行为数据。
这三类数据我们把它汇总到我们的大数据池中,之后就进入到下一个流程:通过内容付费或增值业务产生营收。这一步是没有变化的,你用不用大数据,它都是这样没有任何的改变,比如说方式都是固定的,但是可以通过创作人、作品口碑、题材口碑等要素形成决策报告。

在上一个环节中,我们说到的最主要的问题,用来做决策的东西的前置数据比较粗糙、杂乱,以致于没有办法提供一个强有力的数据支撑。这个环节来解决这个问题,通过创作人、作品口碑、题材口碑等要素做一个决策报告出来,这个决策报告就比较直白的告诉管理层或者是决策层。某某创作人最近30天创作了多少篇内容,每一篇内容又是怎样的阅读情况,甚至可以再细分,什么样地域的人或者是什么样标签的人更喜欢某某创作人产生的什么类型的内容。

作品口碑就是针对特定的内容,比如说一部影视作品,一个数据报告,把所有和这个作品相关的各个纬度相关的信息汇总起来,进行清晰,介绍,介绍完之后进行总结报告,每一类的题材都可以通过数据分析他各个纬度形成数据报告。

拿到决策报告之后,就可以通过决策报告驱动内容创作。比如说某个创作人杭州人比较喜欢看他的内容,就可以通过数据报告把这些信息展现出来。除此之外,还可以拿来做更精细化的绩效考核。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
169 1
|
2天前
|
存储 人工智能 数据管理
|
24天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
1月前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
163 19
|
1月前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
1月前
|
数据采集 机器学习/深度学习 搜索推荐
大数据与社交媒体:用户行为分析
【10月更文挑战第31天】在数字化时代,社交媒体成为人们生活的重要部分,大数据技术的发展使其用户行为分析成为企业理解用户需求、优化产品设计和提升用户体验的关键手段。本文探讨了大数据在社交媒体用户行为分析中的应用,包括用户画像构建、情感分析、行为路径分析和社交网络分析,以及面临的挑战与机遇。
|
2月前
|
存储 分布式计算 druid
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
74 1
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
ly~
|
2月前
|
供应链 搜索推荐 安全
大数据模型的应用
大数据模型在多个领域均有广泛应用。在金融领域,它可用于风险评估与预测、智能营销及反欺诈检测,助力金融机构做出更加精准的决策;在医疗领域,大数据模型能够协助疾病诊断与预测、优化医疗资源管理和加速药物研发;在交通领域,该技术有助于交通流量预测、智能交通管理和物流管理,从而提升整体交通效率;电商领域则借助大数据模型实现商品推荐、库存管理和价格优化,增强用户体验与企业效益;此外,在能源和制造业中,大数据模型的应用范围涵盖从需求预测到设备故障预测等多个方面,全面推动了行业的智能化转型与升级。
ly~
217 2
ly~
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
大数据在智慧金融中的应用
在智能算法交易中,深度学习揭示价格波动的复杂动力学,强化学习依据市场反馈优化策略,助力投资者获取阿尔法收益。智能监管合规利用自然语言处理精准解读法规,实时追踪监管变化,确保机构紧跟政策。大数据分析监控交易,预警潜在违规行为,变被动防御为主动预防。数智化营销通过多维度数据分析,构建细致客户画像,提供个性化产品推荐。智慧客服借助 AI 技术提升服务质量,增强客户满意度。
ly~
162 3
ly~
|
2月前
|
供应链 搜索推荐 大数据
大数据在零售业中的应用
在零售业中,大数据通过分析顾客的购买记录、在线浏览习惯等数据,帮助零售商理解顾客行为并提供个性化服务。例如,分析网站点击路径以了解顾客兴趣,并利用历史购买数据开发智能推荐系统,提升销售和顾客满意度。此外,大数据还能优化库存管理,通过分析销售数据和市场需求,更准确地预测需求,减少库存积压和缺货现象,提高资金流动性。
ly~
507 2