《R语言游戏数据分析与挖掘》一1.3 数据分析师的能力要求

简介: 本节书摘来华章计算机《R语言游戏数据分析与挖掘》一书中的第1章 ,第1.3节,谢佳标 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3 数据分析师的能力要求
因为在数据化运营中,数据分析师要深入业务背景,倾听和发现业务需求,走到业务第一线,与业务团队并肩作战,所以要求数据分析师具备很强的组织协调能力,具有项目大局观,懂得在不同阶段调用不同的资源。从这点来看,业务理解力和沟通能力的重要性甚至要超过技术层面的能力(数据处理能力、数据统计分析能力、数据挖掘能力、数据应用能力)。图1-2是游戏数据分析师需要具备的关键能力。

image

首先数据分析师要具备组织能力。这体现在项目前期调研、方案制定、项目开发和项目落地的职责和能力要求。

  • 调研:深入业务背景,发现、倾听业务需求。
  • 方案:通过前期调研,有效判别分析需求价值,根据需求能有效提供分析解决方案。
  • 开发:针对制定的解决方案,能通过技术手段进行项目开发。
  • 落地:将开发成果结合业务场景进行落地,并持续跟踪落地应用效果,修正或优化方案和模型。

数据处理能力、数据挖掘能力和数据应用能力这三大块能力需要数据分析师通过时间、项目经验去磨砺,不断成长,懂得何时运用哪种数据挖掘技术解决相应的问题。

1.3.1 数据处理能力

刚刚收集上来的raw data(原始数据)一般存在脏数据,不能达到直接建模的要求。我们不能直接利用raw data进行数据分析建模,所谓“垃圾进垃圾出”,这样得到的分析结果也不一定是可靠的。对于raw data,我们需要评估数据质量,清洗脏数据,通常包括缺失值和异常值的处理,使之达到数据分析的需求。假如现在有一份30万的用户调研数据,由于某些玩家不愿意填写自己的性别、收入等,导致这些变量存在数据缺失的情况。现在利用数据分析技术对缺失值模式进行可视化探索,如图1-3所示。
由图1-3可知,有2万位玩家没有填写性别信息,其中有609位玩家同时缺失性别、年龄信息,31位玩家同时缺失性别、年龄和收入的信息。掌握了数据缺失模式后,就知道应该运用何种技术处理这些缺失值。

image

针对异常值数据,我们同样希望能通过科学的方式甄别异常值并处理。例如,可以利用箱线图发现异常值,并在图上打印出异常值的样本号和数值,直观地对异常值进行可视化展示。比如现在有某个月日新增用户在第30日留存率的数据,通过普通曲线图很难发现是否有某些天的新增在第30日留存存在异常情况。此时可以借助箱线图的方式甄别异常值,如图1-4所示。image

由图1-4可知,这个月有三天的新增用户在第30日留存率低于正常水平,分别是5日、6日和9日。
进行数据清洗后,有时候还需要对数据进行数据整合转换,使之符合建模前的数据需求,常用的一种方式是添加衍生变量。所谓衍生变量,其实就是指数据分析师在分析(建模)过程中人为增添的一些新变量,这些新变量产生之后,可以明显提升模型的效果,或者可以有效提炼出有价值的分析结论。

1.3.2 数据挖掘能力

数据分析师在建模的过程中,需要根据业务需求和数据特点选择合适的算法,利用专业的数据挖掘工具进行建模,并评估模型效果。比如在面对用户分析的需求时,可分别分析玩家点击行为的路径和玩家购买的道具,根据不同的方向和目标选择不同的算法和工具。
如图1-5所示,在研究玩家的点击行为时,如果是单路径情况,可以使用漏斗图查看每一步的转化情况;如果是多路径的点击情况,可以使用sunburst事件路径图快速定位用户的主要点击路径,也可以利用社会网络图对玩家间的点击事件关系进行可视化。

image

在研究玩家的购买行为时,可以利用关联规则发现购买物品之间的关系,如图1-6所示。

image

1.3.3 数据应用能力

由于业务团队的数据分析意识和能力不如专业的数据分析师,他们大多不懂解读模型结果。此时需要数据分析师将模型得到的知识用朴素的业务语言表达出来,从而利用分析结果指导运营和营销活动。以图1-6为例,业务团队一般看不懂这个图传递的信息,需要帮他们解读。比如圆圈越大表示两者的关联关系越强,很多玩家都购买过超级大礼包和新手礼包这两个道具,在做运营活动时,可以将这两个礼包进行捆绑销售,提高另外一个道具的销量。

相关文章
|
2月前
|
数据挖掘 PyTorch TensorFlow
|
26天前
|
机器学习/深度学习 并行计算 数据挖掘
R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域
【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。
42 2
|
26天前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
27 2
|
1月前
|
数据采集 数据挖掘 API
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
在Python数据分析的世界里,Pandas和NumPy无疑是两颗璀璨的明星,它们为数据科学家和工程师提供了强大而灵活的工具集,用于处理、分析和探索数据。今天,我们将一起深入探索这两个库的高级功能,看看它们如何成为数据分析的加速器。
41 1
|
3月前
|
数据采集 算法 数据挖掘
10余位大佬+10余年经验的结晶:Python数据分析与挖掘实战
LinkedIn 对全球超过3.3亿用户的工作经历和技能进行分析后得出,目前最炙手可热的25 项技能中,数据挖掘排名第一。那么数据挖掘是什么? 数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此“数据挖掘”已成为企业保持竞争力的必要方法。 今天给小伙伴们分享的Python数据分析与数据挖掘手册是10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。从数据挖掘的应用出发,以电力、
10余位大佬+10余年经验的结晶:Python数据分析与挖掘实战
|
2月前
|
数据采集 算法 搜索推荐
R语言营销数据分析:使用R进行客户分群的实践探索
【9月更文挑战第1天】R语言以其强大的数据处理和统计分析能力,在金融数据分析、营销数据分析等多个领域发挥着重要作用。通过R语言进行客户分群,企业可以更好地理解客户需求,制定精准的营销策略,提升市场竞争力和客户满意度。未来,随着大数据和人工智能技术的不断发展,R语言在营销数据分析中的应用将更加广泛和深入。
|
3月前
|
数据采集 算法 数据挖掘
10余位大佬+10余年经验的结晶:Python数据分析与挖掘实战
LinkedIn 对全球超过3.3亿用户的工作经历和技能进行分析后得出,目前最炙手可热的25 项技能中,数据挖掘排名第一。那么数据挖掘是什么? 数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此“数据挖掘”已成为企业保持竞争力的必要方法。 今天给小伙伴们分享的Python数据分析与数据挖掘手册是10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。从数据挖掘的应用出发,以电力、
|
4月前
|
数据挖掘 PyTorch TensorFlow
Python数据分析新纪元:TensorFlow与PyTorch双剑合璧,深度挖掘数据价值
【7月更文挑战第30天】随着大数据时代的发展,数据分析变得至关重要,深度学习作为其前沿技术,正推动数据分析进入新阶段。本文介绍如何结合使用TensorFlow和PyTorch两大深度学习框架,最大化数据价值。
109 8
|
3月前
|
机器学习/深度学习 数据可视化 数据挖掘
为啥我敢说Python是数据分析界的扛把子语言?
为啥我敢说Python是数据分析界的扛把子语言?
|
3月前
|
机器学习/深度学习 数据采集 运维
数据分析与挖掘
数据分析与挖掘
下一篇
无影云桌面