开发者社区> 老白爱分析> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

小白学数据分析----->怎么看待数据处理

简介: 本来这算不上一篇文章,但是我仍旧写了,除了解决一个小问题还要说点其他的关于数据分析的想法,首先先解决一个小问题。 第一部分 问题描述:处理游戏帐号信息时发现有重复的帐号,比如帐号A有N个重复项,希望留下1个重复帐号,但是要把剩下N-1个删除重复帐号删除。
+关注继续查看

本来这算不上一篇文章,但是我仍旧写了,除了解决一个小问题还要说点其他的关于数据分析的想法,首先先解决一个小问题。

第一部分

问题描述:处理游戏帐号信息时发现有重复的帐号,比如帐号A有N个重复项,希望留下1个重复帐号,但是要把剩下N-1个删除重复帐号删除。具体的原数据(黄色)模拟如下:

而我们希望得到的最终处理数据格式如右侧一列(绿色)所示。针对这个处理,其实有很多方法,可以参看小蚊子的《谁说菜鸟不会数据分析》,比如使用条件筛选就能搞定,今天不谈这个方法,说说另一种思路。

首先我们对于原数据进行排序,怎么排序都OK,重要的是重复项会在一起,如下图所示:

之后我们使用IF和Exact函数嵌套使用,解决这个问题,操作如下:

增加一列,叫做标识项,并写下公式=if(exact(A2,A3),1,2),关于Exact()和if()函数的使用介绍这里不再累术,自行查阅Excel函数帮助文档就OK了,具体公式如下图显示:

这里公式的秘密和为什么不解释了,估计大家看到这里都明白了,下面我们要继续操作,解决问题,之后选中第一行,快捷键“Crtl+Shift+L”打开自动筛选功能,筛选标识项为“1”的数据,如下图:

之后,选择这几行数据,然后删除,之后打开再次打开筛选,选择全部,结果数据如下所示:

但是到了这样这一步,其实已经完成了,可是很多人还是有疑问,那些空白行怎么办啊,我们需要数据都是像最开始的那个绿色的格式最好了,这样有空白的位置不好,至于这个问题,这里不回答了,大家自己想一想,其实很简单,非常容易解决。期待大家的答案。

第二部分

这一部分,其实还是想发一些牢骚和学习数据分析的建议,作为数据分析师,首先是先把数据处理和优化工作做好,当然这之前必须要进行商业理解,把问题搞明白,才能后期把数据提取出来,进而才能借助模型、算法进行数据处理,模型发布,评估,分析,这是一个完整的CRISP-DM,数据处理优化要用去整体流程80%的时间,因此快速有效掌握数据提取,处理方法很关键,其意义不仅仅在于效率效能的提升,最关键的是锻炼思维和形成一套自己的方法。

你说的有点夸大了吧?

很多人会有这个疑问,很正常,大多数情况下,我们喜欢把数据需求明确,然后让DBA同志帮助我们取数据,解决数据处理过程,但是往往需求理解的差异,导致了后续CRISP-DM全部错误,而且相当不容易发现,所以很多时候我们要自己来做,一个DMA同时也要会一点SQL,数据量非常大时自己倒入数据库,练习一下SQL操作。

当然这是适用于那些学过计算机的人,很多DMA是没怎么学过SQL,因此就会基本上借助Excel、SPSS解决数据处理,这个时候其实非常关键,早期我喜欢拿着网上的文档或者什么宝典来解决问题,发现没用,因为你看了你也记不住,你也不会用,只有当问题摆在面前时,你才有需求,要学习,但是往往又不能找到合适的答案,所以很多人借助别人力量解决,但是解决完了,你仍旧不会,下次问题摆在你面前,你还是不会。

所以,请不要逃避问题,有问题才是你学习Excel,数据处理的最佳时期和机会,不要小看摆渡,如果你能从浩瀚的搜索中找到解决你问题的办法,这是一种能力,如果借助那个答案,你有新的更好的解决之道这就是提升了。这是一种学习能力,通过问题学习。

其二,表述问题,找到自己的习惯。在搜索上如何把自己的问题表述出来,寻找答案,这是你的本事,就像你要求助于他人解决这个问题时,你依然要别人先理解你的需求,才能解决一样,在这一个问题肯定有很多的办法来解决,但不是每个办法都适合你,但是总有一个适合你,因此找到自己解决这种问题的习惯,以后越用越好,融会贯通。

其三,你要学会排列组合。这个排列组合不是真的排列组合,其实是说,日常我们在进行数据处理时,基本上80%以上的工作只需要20%左右的函数和方法就可以搞定了,比如vlookup,sumif,countif,if,条件筛选,排序等等,这也是符合幂律分布的。所以,尽管我们面临不同的问题和需求,但是通过这些公式的嵌套,组合,最后基本上都能解决我们的数据处理和分析需求,而如何优化,组合这就是看你的能力和发挥了,难道你说这不是一种锻炼吗?DMA的工作不仅仅是对得出来分析结果进行分析,在这个过程中,你如何应对产生的一系列问题都将有助于你发散思维,解决最后的分析。

好了废话太多,近期有时间,分享一些我的Excel技巧,欢迎大家也分享和评论。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
小白学数据分析----->ARPPU的误区
新年到来,该应该持续坚持写下去,还是有很多人要来学习和进步的。 今天提到了一个概念:ARPPU。 这个概念等同于之前大家认识的ARPU(其实这句话我是很不愿意说的),ARPPU是总收入除以总付费用户数,得到的每个付费用户的平均收益。
732 0
小白学数据分析----->ARPDAU的价值
最近盛大刚刚发布了财报,有人给我打电话问什么是ARPDAU?ARPDAU能够起到什么作用?本文就这个问题给大家解析一下ARPDAU。在讲ARPDAU之前,有两个概念大家应该很清楚,一个是ARPU,另一个是ARPPU,如果有不清楚的同学请查看《移动游戏数据分析白皮书》。
1156 0
小白学数据分析----->如何设计和分析数据指标
今天说到的这个题目,看起来有点大,不过作为游戏数据分析师,早晚都要设计和分析数据指标。在《移动游戏运营数据分析指标白皮书》(http://www.xuefenxi.com/forum.php?mod=viewthread&tid=2&extra=page%3D1)中,提炼了一些针对游戏数据分析的指标,这只是分析工作的第一步,还要有效的组织起来,并按照需求进行细分,即按需进行二次设计和分析。
687 0
小白学数据分析-----> 转化率的四种形式
在数据分析中我们经常会使用各种类型的转化率分析,在游戏数据分析中,我们对于转化率的使用更为频繁,比如渠道分析,玩家购买流程转化率等等。在实际使用过程中,总结出来了四种转化率的形式,这里简单说说。 回炉型转化率 所谓回炉型转化率指的是在转化的第一步到第二步的转化过程中就出现了较大的障碍,从第一步到第二步,转化率变化比较大,这种转化率形式的出现,就需要回炉进行问题分析和处理,这种类似的转化率比如在渠道用户推广时可以作为一个渠道用户质量把控的分析方法,同时,也是检测游戏本身在新用户导入时的新手引导等功能的检测。
648 0
小白学数据分析-----> 有关于流失分析的探讨
早先我曾探讨一个关于流失分析的整套流程问题,也说了流失分析是如何的重要,大概这种解说是苍白无力的,因为拿不出数据来说明这个问题,因此大家就会感觉比较飘渺,今天就是流失分析再次进行探讨,这次从数据的角度来理解为什么要做好流失分析。
740 0
小白学数据分析-----> 你的游戏数据分析做好了吗?
“策划和数据的关系和SM一样,你穿皮衣,握着鞭子的时候,才会体验到驾驭数据的刺激,前提是你很坚定你必须站着,一次都不要跪。如果你是跪在地上的那个,那永远永远只能被牵着走。” 我们作为游戏运营一直在说数据重要,数据化运营,然而,往往给出来的就是留存率、流失率、活跃、付费渗透率,这些是目前大家都在做的,而且做了很久很久,可惜的是目前还没有形成一些统一的规范,因此我们有了ARPU的质疑,有了一次又一次的质疑,虽然再各自为战,但是没有战出一个所以然。
682 0
小白学数据分析----->付费渗透率再研究
今天所谈到的东西其实是关于新增付费用户的研究模型的内容,谈到模型,有时候我们过于神话了,模型其实最后就是一套方法论,我自己觉得这倒是自己思维思考最后落地的一个载体,因为思维要实现、训练、评估,最后出现一个载体来落实我们思维的所思所考这个载体就是模型。
576 0
小白学数据分析-----> ARPU之殇
昨天看了香橼对360的质疑的相关报道,并且也看到了多个企业的大佬站出来拿着数据在互联网各种解释,今天新浪上也多了一篇文章《页游自曝ARPU值背后 不重要因计算方式不同》http://biz.265g.com/1209/183961.html,看罢后,感慨万千,鄙人也做了不算长时间的游戏数据分析,对于这个ARPU认识也算有一些,这里我谈谈香橼对360的质疑的事。
923 0
小白学数据分析----->到底要怎么做流失分析
最近看了很多关于流失分析的文章,也构建了一些模型,流失这个问题看似有些让人抓不住一根主线来做,这几天也有几个朋友问我怎么来做流失的分析,但是最近工作变动,外加上很忙,就没有很好的跟他们说说这个问题。
861 0
小白学数据分析----->流失分析设计
前段时间说过一些关于玩家生命周期的问题,其实那些有点大,有点虚,从宏观的角度了解我们此时此刻正在做的分析是属于那一部分,哪一个体系的,说实话,这是为了建立一种意识而要做的工作,玩家生命周期价值源于电信行业的客户生命周期管理和PLC(产品生命周期)的解读和应用,限于本人水平和能力因素,不够深刻,全面,在此请各位谅解,以后的内容会逐步深入到这个体系之下的很多细节的问题探讨,今天就和大家简单说说流失率。
1094 0
+关注
老白爱分析
从事数据分析及咨询工作,天天和数据打交道,搞过游戏数据分析,搞过金融,最近在搞零售,对基本的数据分析和技术有一定的理解,啥玩意都去理解一下,分析一下,不限范畴,只要自己能理解和搞得懂的。写过一本书《游戏数据分析的艺术》,写过专栏《小白学数据分析》,现在是个老白了。
文章
问答
文章排行榜
最热
最新
相关电子书
更多
SAS数据分析开发之道:软件质量的维度
立即下载
实时数据分析演示
立即下载
《实时数据分析演示)》
立即下载