大数据在媒体行业的应用——《企业大数据实践路线》之二

本文涉及的产品
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 阿里云MVP戚俊带你以媒体行业为例,深入分析大数据在媒体行业的应用

作者:阿里云MVP戚俊

本文系《MVP时间》视频课程《4节课看懂企业大数据实践路线》的文字版,视频请看MVP时间课程主页

本期视频可见课程直通

上期内容回顾:
《企业大数据实践路线》之企业大数据的现状与痛点
下期内容链接:
解析业务数据的特征——《企业大数据实践路线》之三

上期我们讲了企业大数据的现状与痛点,本期我们以媒体行业为例,深入分析大数据在媒体行业的应用。
先来看一下媒体行业工作流:
image

新闻工作者先产生一个内容,形式可以是文字的、视频的等,无论你是编辑还是记者或者说是美编,或电视台的采编人员等等所生产的内容都会存入到业务数据库里面,业务数据库通常存在我们内部单位的机房里面,媒体行业也同样,再小都会存放到自己的机房里面,都有自己的业务数据库,把业务数据存入数据库之后呢,通过渠道把数据传输出去,比如说通过网站、直媒的渠道、移动端渠道、电视台视频的渠道等其它渠道出去,这些渠道出去的东西被观众、读者、听众所获取后产生反馈,或无反馈,但最终数据都会被特点的人员即统计人员进行统计。如果说是直媒,它不像电子媒体有收视率,阅读量的概念,但直媒会有甄别能力的数据量,可以在系统里面或者是企业内部的甄别系统里面查到。数据又分散在不同的系统里面,甄定有甄定的系统,网站有网站的CMS,视频有专门的视频点播系统,APP有APP的客户端,新媒体有新媒体的客户端,如头条等其它媒体渠道,这些大部分信息都是由我们的统计人员把它们重新合并、归类放到我们自己的企业如报社、杂志社内部去进去分布的。这个过程需要绘制一张统计报表。

1、 看了一个报道在报纸上看到的
2、 看了一篇新闻在电视上看到的
3、 网站上看了一个视频,这个视频多少分钟,讲述了一个什么样的事情

看到的这三样东西,可能表现形态是不一样的,但在整个的新闻单位内部,是有一个起始点出发的,从某一个新闻线索出发延伸出来的三条数据,把这些扩散传播出去的信息反向回收回来,再跟这三条线索关联和绑定:
一是通过这样的关联和绑定去解析营收,可以具体去看到是什么样的新闻,什么样的文章更容易得到读者的喜欢,或什么样的内容下它的广告效果会更好。
这些营收的解析都是通过我们的统计人员反向解析后绘制出来的报表来解析我们的营收这样一个过程。
二是绩效考核。绩效考核主要是针对我们的记者、编辑、新闻工作人员、美编、电视台的采编人员这样一个绩效考核,这个就会关联到年终奖,月度季度奖金都会有一定的关联。
这就是我们传统媒体整个的一个工作流程,从开始介入工作到最终出绩效考核,得出的一个全流程的概览。

流程版的工作流:
image

人肉方式跟进传播路径:这里的路径比如说传播到了微信,或者是传播到了某某网站,传播到了电子刊物、电视台等各种各样的新媒体。
通过粗浅的分析大致了解传播效果:这里为什么会是粗浅?人肉的跟踪方式一定是不会有很好的效果,因为它有时效性,统计的时间节点,各平台的传播路径产生的反馈结果是不一样的,比如说有一篇文章,放到了今日头条里,今天下午3点去统计,它的阅读量可能只有1500,但你把这个数字记录下来后就没了,但你明天再来看,可能晚上特定标签的用户在晚上9点钟批量的阅读,这类人就爱看你这种类型的文章,这样可能就会有一个爆发式的增长,就会有2万次甚至是5万次的阅读量,这样前面统计出来的1500次由于时效性的问题变得极其不准确,这是第一个时效性带来的问题。
第二个就是传播渠道太多,人力有限,通过人力基本上是无法100%覆盖的,大部分的人力统计都是肉眼去识别、去记录再汇总的EXCLE里面,或者有更高级的方法,半自动化的方式抓取,通过爬虫去抓取一些电子版的一些阅读量、评论数据等等。不可避免的是渠道的限制,以及转载转发的限制,无法很全面的收集回来,这是传播效果遇到的最大阻碍。

总结:
1)时效性
2)渠道覆盖面

通过内容付费或增值业务产生营收:比如本身就是通过付费来看的,或者是通过一本出杂,这本杂质是要买了才能看。或者说你的内容是免费的,但里面有一些像广告业务,或者是帮助其它公司做了一些PR的品牌宣传,通过增值的方式产生营收。
粗放的进行绩效考核:由于前置流程比较粗,所以这个考核一定是不全面的,对员工不公平,或者过度发放绩效,明明没有那么好的价值,通过直观感受来评定绩效考核的标准,这就会产生一个粗放的绩效考核。
从上面的图形版到流程版,除了不精细的问题外,好像没有什么很致使的错误在里面,以前我们做媒体行业,也是这么认为的,凑合用,没有出现什么恶劣的后果,但目前在我们这样一个时代里,竞争对手都在往前跑,我们也不得不往前跑,对此我们就分析了一下,拿到了一个点告诉媒体行业客户问题出在哪里。
下面这张图可以看出一个正常的媒体工作流应该有的样子。

image

图的前半部分是和我们上面讲到的一样的,但是从传播渠道开始,你的数据就开始脱缰而出,不受控制。

image

这个过程就有了人,做了机械的事情以及不准确的事情,接下来的操作,统计,营收,绩效都会由于依赖于不准备的统计数据,就像导致后续所有环节都出现问题,这个过程最大的问题在于人为进行数据收集的关卡没有做好,导致数据脱缰,不受控制。人为会存在很多客观,主观等各方面影响,就会容易出一系列的错误,但往往又最难控制,最难管理。
在整个工作流最重要的三个环节之前加入了一个不靠谱的人来完成这样的工作,所以让自己的整个数据环境应得很不安全,这也是在和客户进行问题处理中总结出来的一个概念,传统媒体是这样一个情况和现状。
改造完之后的状况又是怎样的呢?
看一下下面这张图,一个前沿媒体的工作流程:

image

还是通过采编人员去创作内容,之后通过近期的热点、读者偏好进行定向化或者有权重的创作,创作完成后进行智能核对及智能排版,这样一个过程,像媒体行业都有三审三校的过程,防止出现大的疏漏,像错别字、书写错误、拼写错误等,可以通过比较智能的校对工具或者是校对过程,以及一个比较智能的排版过程解决这些问题,当这个问题解决之后,才会把一个比较标准的内容入到内容库中,进一步进行内容传播,内容传播后分到不同的渠道。

现在变为千人千面的推荐内容,推送给相应的读者,这个模式很像头条,或者是新闻版的淘宝,每个人会看到不一样的内容,伴随着每个人阅读的信息越多而差异性越大。每个人的阅读习惯以及行为都不同,不同程度的阅读时间积累之后把握到你感兴趣的信息点,给你推荐你喜欢的信息。

当你把信息推送给读者之后,就会产生各样各样的数据,比如像我们的传播数据,如一段视频、 一段声音,传道到不同的渠道媒体(头条、网易新闻、网站以及APP)上等,这个传播的数据是需要记录下来的,以及阅读的数据,比如某某某什么时间阅读了什么文章也需要记录下来,还有行为数据比如在阅读或者是观看信息的过程中产生的一些行为,最长见的像评论点赞、视频发弹幕,这些是比较基础的,还有更深层次的,像在这个过程中产生的分享,或者是看了几分钟,或者是跳行等都是行为数据。
这三类数据我们把它汇总到我们的大数据池中,之后就进入到下一个流程:通过内容付费或增值业务产生营收。这一步是没有变化的,你用不用大数据,它都是这样没有任何的改变,比如说方式都是固定的,但是可以通过创作人、作品口碑、题材口碑等要素形成决策报告。

在上一个环节中,我们说到的最主要的问题,用来做决策的东西的前置数据比较粗糙、杂乱,以致于没有办法提供一个强有力的数据支撑。这个环节来解决这个问题,通过创作人、作品口碑、题材口碑等要素做一个决策报告出来,这个决策报告就比较直白的告诉管理层或者是决策层。某某创作人最近30天创作了多少篇内容,每一篇内容又是怎样的阅读情况,甚至可以再细分,什么样地域的人或者是什么样标签的人更喜欢某某创作人产生的什么类型的内容。

作品口碑就是针对特定的内容,比如说一部影视作品,一个数据报告,把所有和这个作品相关的各个纬度相关的信息汇总起来,进行清晰,介绍,介绍完之后进行总结报告,每一类的题材都可以通过数据分析他各个纬度形成数据报告。

拿到决策报告之后,就可以通过决策报告驱动内容创作。比如说某个创作人杭州人比较喜欢看他的内容,就可以通过数据报告把这些信息展现出来。除此之外,还可以拿来做更精细化的绩效考核。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
26天前
|
数据采集 数据可视化 大数据
Python在大数据处理中的应用实践
Python在大数据处理中扮演重要角色,借助`requests`和`BeautifulSoup`抓取数据,`pandas`进行清洗预处理,面对大规模数据时,`Dask`提供分布式处理能力,而`matplotlib`和`seaborn`则助力数据可视化。通过这些工具,数据工程师和科学家能高效地管理、分析和展示海量数据。
59 4
|
13天前
|
分布式计算 大数据 Spark
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
《Spark大数据处理:技术、应用与性能优化》深入浅出介绍Spark核心,涵盖部署、实战与性能调优,适合初学者。作者基于微软和IBM经验,解析Spark工作机制,探讨BDAS生态,提供实践案例,助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)
52 1
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
|
22天前
|
机器学习/深度学习 自然语言处理 大数据
社交媒体的情感分析大数据模型
构建基于大数据的情感分析模型,利用Python和机器学习处理社交媒体数据。情感分析识别文本情感倾向,助力市场洞察和舆情监控。技术栈包括Python、NLP库(nltk, spaCy, TextBlob, VADER)、Scikit-learn、TensorFlow/PyTorch及大数据工具。数据收集(如Twitter API)、预处理(去除噪声、分词)、特征提取(TF-IDF、词嵌入)、模型训练(逻辑回归、BERT)是关键步骤。模型能捕捉文本情感,支持决策,随着技术进步,应用前景广阔。
73 10
|
21天前
|
搜索推荐 安全 大数据
大数据在医疗领域的应用与前景
【6月更文挑战第26天】大数据在医疗领域提升服务效率,助力疾病预防与精准治疗。电子病历优化数据管理,疾病预测预防个性化医疗成为可能。未来,智能医疗系统普及,远程医疗兴起,数据共享促进行业发展,同时隐私保护与安全备受关注。大数据正重塑医疗,开启健康新篇章。
|
24天前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用问题之如何优化大数据量的查询和处理
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
22天前
|
SQL 运维 druid
深度分析:Apache Doris及其在大数据处理中的应用
Apache Doris是一款开源的高性能实时分析数据库,设计用于低延迟SQL查询和实时数据处理,适合大规模实时分析场景。与Apache Druid、ClickHouse和Greenplum相比,Doris在易用性和实时性上有优势,但其他产品在特定领域如高吞吐、SQL支持或数据处理有特长。选型要考虑查询性能、实时性、SQL需求和运维成本。Doris适用于实时数据分析、BI报表、数据中台和物联网数据处理。使用时注意资源配置、数据模型设计、监控调优和导入策略。
|
24天前
|
分布式计算 NoSQL 大数据
MaxCompute产品使用问题之数据在redis里可以通过接口调用到大数据计算吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
29天前
|
监控 数据可视化 大数据
大数据技术在公共交通系统规划中的应用
大数据技术在公共交通系统规划中的应用
|
16天前
|
分布式计算 安全 大数据
大数据计算MaxCompute
【7月更文挑战第1天】大数据计算MaxCompute
25 0
|
22天前
|
消息中间件 存储 大数据
深度分析:Apache Kafka及其在大数据处理中的应用
Apache Kafka是高吞吐、低延迟的分布式流处理平台,常用于实时数据流、日志收集和事件驱动架构。与RabbitMQ(吞吐量有限)、Pulsar(多租户支持但生态系统小)和Amazon Kinesis(托管服务,成本高)对比,Kafka在高吞吐和持久化上有优势。适用场景包括实时处理、数据集成、日志收集和消息传递。选型需考虑吞吐延迟、持久化、协议支持等因素,使用时注意资源配置、数据管理、监控及安全性。