
从事数据分析及咨询工作,天天和数据打交道,搞过游戏数据分析,搞过金融,最近在搞零售,对基本的数据分析和技术有一定的理解,啥玩意都去理解一下,分析一下,不限范畴,只要自己能理解和搞得懂的。写过一本书《游戏数据分析的艺术》,写过专栏《小白学数据分析》,现在是个老白了。
前段时间读了一本书《颠覆营销》,写的还是有些意思的,这里分享一下,希望给大家一些Tips。 “市场变得比市场营销更快,如果5年内你还用同样的方式做生意,你将要关门大吉。” 菲利普-科特勒 在今天你会发现我们的策略总是后知后觉,因为你的理解根本上消费者的变化,实际上在很多时候,我们要先于消费者,了解想法,诉求,但这件事其实在最近的7-8年才真正得以实现的可能。为什么?这要从营销近一个甲子发展来说起。 如果要划分营销的发展,营销战略本质只有两个时代,实体时代和比特时代。 这一点毫无疑问,夸张一点说,真正的变化是从手机,移动互联网的发展作为分水岭。 在没有手机和移动互联网之前,我们其实很难做到实时,摆脱渠道限制的一对一的快速触达,纵然在整个互联网发展来看,2000年以后逐渐迎来的快速互联发展,还是没有完全摆脱位置的束缚,在浏览器作为主要的流量入口和不断降低的宽带成本,硬件成本,使得早期互联网有一定的客户营销的促进作用,但不是从理解消费者和群体个性化,实时化等唯独考虑的。人口红利和暴力的重定向广告,与不断增加的消费需求之间,用户做了一定的妥协,不过在今天来看,消费者逐渐开始细分,逐渐开始有垂直和符合个人需要的新入口来满足需求。 从战后甚至更早时期,我们需要靠的是区域的实体小店,换句话居住周围3-5公里的实体店面为营销主要区域,这一点在今天很多ShoppingMall,百货大楼依然是考周边的流量带动消费,因而选址在一定时期中,以位置抢占市场,不过今天,随着在线通道的触达,对客群深度的理解,使得这些传统线下模式的企业,有了超越3-5km范围的营销触达能力和客群影响力,比如在一些社交和口碑极好的零售门店,也会因为在线通道的传播,进而拉动客流。 在一段时间中,邮政网络系统的健全之后,以Postcode作为主要方式的邮寄传单营销是相对有效的方式。这一点也是随着渠道不断的升级而才有可能实现的。在这个时期,我们其实很难了解消费者,更多的是尽可能覆盖渠道和触达更多的流量。到今天,我们依旧可以看到很多的超市也在使用一些单页或者手册来分发给用户,刺激用户的消费。 渠道的升级演变,实际上将在一定的程度上,决定营销的触角,客群的理解深度,在一些小店的辐射能力中,我们会发现,店主对于客群是经营能力有限的,但是对于每个客群却能做到100%的理解和驾驭。 不过,在随着手机的发明,邮件系统的发明,互联网的发明,逐步的我们可以超越时空,对消费者进行实时,精准的触达,同时不断完善的数据收集,对于消费者有了更多的理解,这一趋势在移动互联网到来后,将唯一的位置限制取消了,场景营销上,开始进入随时随地随人的立体阶段。 90年代到两千年之后,无论是CRM,EDM,互联网广告,都是在一定时期和阶段建立的对用户的触达和营销方式,或者工具。这个时期最大区别于过去,就是还是无法建立更加准确细致针对人的理解分析,还是基于在不公平的暴力划分手段上,来进行营销。 营销的本质是对消费者的需求进行有效管理,并为之建立差异化的价值,并最终建立持续交易的基础。这一点启示无论怎么升级营销,这是不会改变的。由此在未来真正的营销要实现以下几点目标: 消费场景化 渠道多元融合化 服务产品一体化 品牌传播实时化 营销理论从上世纪50年代开始建立,在近半个世纪的过程中,我们一直在谈的营销4P理论,即Place(渠道),Price(价格),Product(产品),Promotion(促销)四大要素为主。 过去的营销4P理论是实体时代的产物,在今天当遇到了大数据时,也将无法完全发挥作用。伴随互联网,大数据等新技术,对人进行了重新的认识和洞察理解。过去的4P理论出现了极大的局限性,这里我们先看看过去半个世纪的4P理论发展情况。 营销1.0-被动营销(反映需求) 被动策略,消费者需要什么,企业提供什么,满足客户需求,这个时期是典型的求大于供,企业占据了主动权,消费群体之间缺少媒介沟通,也缺少可被影响的媒介,换句话说,半个世纪前的产品很难像今天通过网络等快速的在线媒介迅速传播和影响消费者,具有极大的区域性和渠道局限性。消费者也多数是满足刚需和生活基本需要为主。 营销2.0-主动营销(创造需求) 主动策略,产品核心转向消费者核心,创造差异化,吸引客户内心。随着战后经济的复苏和发展,在原有产品基础上,开始进行了局部差异化建设,建立起来的4P理论,也预示着市场要从促销,价格等元素上进行建设,而消费者也不断萌芽需求。但是本质渠道方面没有改进,对消费者的理解和分析也仅限于渠道对产品的反馈,没有真正对消费者认识和理解。企业视角对消费者的需求创造为主。 营销3.0-关系营销(经营需求) 精准对接个人需求,不再满足一次消费,保持互动,定制下次服务,永久跟随,迎合用户心智。在90年代开始,CRM概念普及,网络有了长足的发展,这个时期,因为消费者的触达又因为手机的发明,Email儿注重长期关系维系,早期通过邮政编码的纸质EDM营销手段,得到了本质的升级。因为科技手段发展,数据库技术,触达手段的升级,使得我们有机会可以长久经营和维持需求,并且对消费者有更佳直观的认识。在21世纪的前十年,因为PC互联网的发展,广告和数字媒介的快速崛起,营销有了新方法,在渠道方面的建设得以本质提升,局限性降低。 营销4.0-预测营销 帮助客户实现自我价值,先知,预知渴望,快速定位,快速分析,提前建立一对一策略,计算下一次可能性。在2010年之后,也就是营销理论发展50年后,伴随移动互联网,云计算,大数据,IOT等技术的崛起,我们对消费者可以做到比特化,随着移动互联网以及新的传播技术的出现,客户能够更加容易地接触到所需要的产品和服务,也更加容易和那些与自己有相同需求的人进行交流,于是出现了社交媒体,出现了客户社群。企业将营销的中心转移到如何与消费者积极互动、尊重消费者作为“主体”的价值观,让消费者更多地参与到营销价值的创造中来。 更多的数据被记录,更深度人本理解在形成,进而可以做到不同个体的理解和营销实践。传统营销不关注人,4P中并未提及对于人的深度理解和分析。无法做到很细致的个人化营销,多是大众营销或群体化营销。例如传统营销依据消费者的需求和差异性等,将市场区分为各个不同群体。这种分群方式本质就是一种不公平的营销手段,因为世界上不存在一种完美的人群分割方式,每一种人群的分割,都意味着对另一些人群的不公平的关怀。 新4P 在新营销4P出来的同时,营销也有一些新特征: 强化连接 消费者比特化 数据说话 强化参与 动态改进 在过去的4P以经营商品的视角看待问题,而新4P则是以经营顾客的视角看待问题。也是真正的通过数据来看待营销和洞察理解消费者。 新4P注重对于人的理解和分析,这也是因为当今了有具备的条件,在所有的营销策略中,基于以上的4P理论,都是从对消费者的理解和分析开始,之后基于分析结果进行假设,并得到具体的假设成效结果,预测可转化的客群,和参照基础,最终基于以上的这些分析,假设,设计与消费者的参与流程,营销执行流程,优化流程。新4P着重强化以数据驱动解决实际问题。 关于People,这是在营销实践中,一直想去解决而又很难解决的问题,及消费者的决策过程和不可完全预测的,变化性也许可以做到70%的预测,然而还有30%的行为是无法预测的,因为变动性很强。 关于Performance,除了过往的结果导向指标以外,基于不同的流程,渠道策略,过程指标具备一定的个性化,换句话,ROI的衡量也是多重标准。同时performance的重要作用之一,也是驱动基于分析的假设,并进行预测新的成效表现。 关于Process,是确认在众多的建议,分析结果,假设条件下,到底选取什么作为重要的目标来进行处理和营销,我们的步骤和方式是什么,一则是在分析结果后确立优先级,要去解决的问题,二则是在成效分析之后,假设接下来针对分析结果所设计分方案如何确立执行优先和步骤。 关于Predict,基于假设和分析,最终要确认可能存在的转化结果,在营销结束后,可以针对该结果进行对比和过程调整,而这点也是在过往的营销实践过程中所不存在的。这也是在当今营销实践中,最需要重视的环节。 注:新4P是Gartner Research的VP Kimberly Collins提出的,但当时的最后一个P是Promotion,这里经过MIGO团队的修正改为Predict。在此框架下,新4P重视以下几点的达成: 实时掌握每个消费者的实际状态,是大数据营销的第一步; 未来要实现的是专属沟通时间节点,营销网络随时启动; 强调精益,边做边修,用A/B test验证假设,不要错到底才修正; 决策会不断修正,变得精准; 有能力识别个别消费者的细微差异; 精准-具备时间敏感度,个人差异化的“全个性化”精准标签; 广告曝光不是大而广,研究用户DNA,精准投放(一次性,无忠诚度);
最近在客户现场沟通几个系列的活动设计方案时,遭遇了一系列的挑战,说实话,客户给我深深的上了一课。在传统零售这样的行业中,思维模式与这些做惯了互联网和虚拟经济运营的人而言,有非常大的不同,多大的愿景,多么口若悬河的Story的模式,他们在意的不是这些。客户最在意的是落地,成本,ROI,你是否是基于数据驱动的设计。最大的感受是,在这样的企业中,更加注重数字驱动,对业态的敏感度并不是建立在纯粹的经验基础上,而是抱有对于数据的敏感度,提炼的经验。 的确在客户这里谈的最多是ROI,但是你不能简单的认为是客户只关注结果。在这种业态中,客户每一个决定都意味着数额庞大的预算支出,真金白银的花出去,上千家门店的培训和消息触达,相关有成本的实体物料准备,活动好坏,成本不是你所简单认为的那些短信的钱,那些券的费用。每一个offer的设计,都是实实在在的成本,因为背后的客群,会带来衍生的成本,比如习惯的培养,成本的增加。 零售并不是销售数字化产品,在每一笔订单的背后,都意味着,你所看不到的各种成本,这点与金融企业和互联网企业是本质的不同,金融本质上还是销售一种虚拟服务,不涉及繁琐复杂的供应链和库存问题,同样,今天的多数互联网企业也是销售服务,信息,本质上网具人的力量和信息,达成某一个目标。 但零售这样的行业却不能这么简单认识,这也造就了今天进入客户现场工作时,我们反倒是对他们肃然起敬。首先学会敬畏和学习。 说回来正题,关于活动的设计问题。有一点是不变的,无论是今天的互联网还是传统企业,比如零售,在面向对消费者的经营和活动设计营销方面,除了考虑本身业态的一些差异问题之外,在活动的最初设计思路和方法论方面,是不该有差异的,理论上,应该是一套方法体系,因为都是对消费者的服务和营销。 作为一直信奉数据驱动和数据说话的从业者,当进入项目后,却忽略了数据在活动设计的最大作用,过往我们在使用数据驱动的活动营销过程中,往往数据的作用在于对结果的分析,指标的制定,再对结果进行优化调整。换句话更多时候,我们习惯于感性的进行活动设计,理性的数据分析结果。但这恰恰存在了一些问题。因为最应该通过数据来驱动活动设计的工作,我们没有做。 说到这里,有的人说,我们的很多活动都是第一次,新创意,新想法,新思路,怎么基于数据驱动,因为根本没有数据来驱动设计,是的,以前我也是同样的思路,但我发现这个问题不是没有解决方案,在广告营销方面其实给了我们很好的借鉴意义,但是你会发现,你一个企业中广告营销在市场部,活动运营在运营部,彼此之间没有那么多活动,方法思路没有相互借鉴。 在最近,我们和客户设计了四个活动方向,分别是: 新注册会员营销:对于新注册的会员(没有购买),展开营销活动设计活跃会员营销:对于有过购买会员,展开营销活动设计沉睡会员营销:对于历史有购买,在近一个时期没有购买的会员进行营销特征会员营销:对于符合某些特征的会员进行营销刺激 在最初的思路中,我们发现这是四类典型的人群,基于不同的生命周期,我们理想的认为,这种人群的划分就是基于数据展开的,这就是我们策划活动的目标,比如拉新,促进活跃,增加粘性,唤醒用户。尽管我们做了一些基本维度的分析,比如用户量,用户的基本属性,但是我们并没有收到客户的肯定和对方案的认可,有几个问题暴露出来: 1.所有的活动方案设计,没有考虑实操落地执行难度,零售业态的营销背后不是简单的系统开发和优惠券分发;2.所有方案,并未明确活动设计的目标和量化考核点,比如新用户营销目的是什么,不是一句话,促进消费或者转化就完事;3.活动营销缺少假设条件,没有在某种分析判断下,进行方案设计;4.事先完整的数据分析,描述目标营销客群,分析已达成活动目标客群的典型特征;5.成本和预测收益。看似以上这些问题,觉得不是问题,实际上,我们在执行过程中,往往会忽略数据这一步的核心作用,对于数据分析的分析,也是浅尝辄止,更不会在一种假设前提下进行活动的设计,不过这种假设是源于对已达成活动目标客群的分析来实现,具体来说,如下: 1.我们要对新注册的会员进行转化,这是我们的笼统目标;2.具体我们要明确对这些会员完成的是什么转化,比如就是完成首次购买,这是明确的目标;3.活动具体目标是完成首次购买转化,则我们可以明确量化指标是首次购买转化率; 基于此,我们需要设计针对完成首次购买转化的具体方案,那么接下来我们要做的事情是最关键的,并不是马上开始设计活动方案,而是要去继续数据分析。 4.对于过去完成首次购买转化的会员,进行具体的分析,找到刺激用户首次购买转化的trigger,即什么原因促进了曾经的新用户首次转化购买;5.同时对这些完成首次购买转化的历史用户,分析典型的特征属性,比如某个渠道,某个客单价,某个品类,某个颜色,等等。基于已有的人群作为种子进行刻画潜在营销目标群体;6.从新注册的会员中,筛选出来一些潜在的客户名单,基于过往的offer,进行分组设计方案。 至此一个大概的真正应该基于数据驱动的活动设计框架就有了,当然了量化效果的指标,上线后的分析,这里不是讨论的重点。这里主要讨论的是活动在上线营销之前的工作,因为这部分工作耗费时间最长,磨合沟通最多。 基于数据驱动的活动设计有一个最大的好处时,所有人的目标和思维容易统一,不会因为反复复杂的设计搞晕,也不会问出来更多,你为什么如此设计方案,因为所有的道理则已经在数据分析过程中,梳理的很清楚。 不过这里讨论的活动设计方案,其实还要包括上线后,基于效果该如何去优化。比如响应组和对照组的设计,比如活动的结果只有两种:Yes NO,对于在过程中出现了NO的用户是继续等待,还是要开展持续的营销,这些问题,会在后续继续谈及。 在与客户沟通中,我们发现传统企业的数据意识并不是很若,更多是用经验方式代替一堆报表数字,然而受限于技术和人才的却是,数据整合继承的困局,新型渠道和数据应对不足,整个一个宝藏开发不足1/8,换句话,如果一天有8小时工作时间,坐下来基于一堆报表沟通的平局时间不到1小时,因为很多数字他们存在,但是用不了。 另外,这类企业你可以看到很多的BIG PROBLEM,这些PORBLEM,你若是基于数据稍稍优化,一个改动,带来也许是高达千万甚至是上亿的成本节约,同样,也会带来收益。对于这些实体企业来说,利用大数据也好,高级分析方法也好。首要解决的问题是效率的提升,决策的数据化,科学化,时效化,智能化。
写在回归之时 --------------------------- 抱歉,已经超过三年没有回到这里了。 浮躁,虚荣,一颗心没有落到地上,也没有好好总结一下自己。怀念最开始那个时候的状态,安静的做点事情,没有那么多关于管理,开会,PPT,甚至领略战略意图的繁琐。不是这些不好,而是有更重要的事情要组完成。Small is beautiful。越来越多的事情,越来越多的时间消费,失去了奋斗精神,失去了激情。我不相信这是因为人多了,一切就要随着变,我希望传统不变。 我想去研究一点东西,做一点事情,一点可以一直做下去的事情,这几年,经历了很多的主题,战略,每一个都没做踏实,但又幸好走过来了,可是自己,带着伙伴,却变得有些缺少狼性,缺少信心,为什么?也许是缺少坚实的基础和底气。 我想踏实认真的做一件事,哪怕它失败了,至少我是完整的经历了。 我已经没了最开始的激情,多了很多的抱怨,痛苦,诉说自己种种无法释怀的事情,种种无法让人理解的事情,其实到头发现,没人会在意,自己不去改变,什么也不会变化。 所以,现在需要给自己一个重新来过的机会。做好一件事。 以前做过游戏,做过金融,做过培训,做过广告,当下在做零售,事杂,但求从此刻开始,做好一件事。 --------------------------- 正文 这是回归这里来的第一篇文章,就从自己最熟悉的方向开始说起,今天要聊的是DAU。 这个指标已经不需要再去解释定义,从前几年开始,流行于整个互联网行业,也是投资者看中的重要维度,有了这个,等于拿到了船票。之前我也写过文章,从运营层面解读过,今天要说的,其实是DAU的新解。 DAU的确是当下最直接的反馈用户规模的指标,而不是累计注册用户数,累计注册也就是Vanity Metrics,实际上没什么直接价值,但却是可以反应你的数据资产情况的重要维度。下次我们在具体聊。 DAU折射出来的问题有以下几点: 到目前为止,平均每天与你的业务有交互的人有多少; 到目前为止,每天你能够收集到数据资产有多少; 到目前为止,每天你能够触达的用户有多少; 到目前为止,有多少人仍旧对你有信心; 对于任何业务而言,当最终用户不再登陆或者访问你的平台时,意味着从此他不再是活跃的一份子,而你丧失的不仅仅是当初获取这样一个用户所花费的几十块钱,真正核心的是,从此丧失了数据资产,因为只要与你的业务产生交互,就意味着会产生数据,积累数据资产。而这些资产就是最重要的材料,来帮助你去转化用户和业务。 数据资产产生的前提是与你所提供的业务有交互过程,交易过程。DAU代表的价值之一,是当下你还能收集多少的有效数据,能够帮助你营销和运营。而同时,基于这些每天创造的资产,经过整合加工后,又能够去触达多少人,影响多少人,但这里会有疑问,为什么不是累计注册用户代表你能触达多少人,从实际情况看,当用户丧失与业务之间的联系,理论上可以做到触达,然而,我们其实已经不了解这个人了,因为从体验和决策路径上,这个人已经不在你控制的闭环体系内,除非你能通过其他的数据,捕捉到人的近期诉求,恰好你有很好的解决方案或者产品。 至于最后一点,信心,是因为如果你有100个用户注册,而今天仍旧有5个在使用或者交互,说明它们5个还对你有信心,或者至少没失望。 通俗地说,DAU将直接反应你现在拥有的数据资产情况,以及持续的收集能力。而这些则决定你的营销,运营是否会带动业务的突破。 有人说,今天我在企业营销时,我缺少数据,很多人我无法基于数据进行建模,分析,挖掘价值,最典型的就是针对新用户,也就是那些刚刚选择你的业务,或者登陆一次,从而离开了。当我们意识到DAU背后的数据价值,我们就知道了,我们的一次短信,一次PUSH,一次campaign都是在某个层面促动用户来贡献更多的数据,进而不断的了解客户,提供优质服务。 换句话说,今天我们有个误区,所有的营销,有的投放,所有的运营成本,最直接的反馈就是用户数和金钱价值,实际上,这其中还有数据价值。因为如果你理解了当你的营销进行时还带来海量数据时,你就能懂得,我会通过这些数据不断的了解用户,不断提供优质服务。 举个例子,我们知道对于一个新客户进来后,我们其实很难捕捉精准需求,但是我们可以通过曾经的大量新用户的行为和特征,来测算出新用户适合的几个营销场景和营销机会。而这有赖于对曾经的新客户的数据分析挖掘,同时,对于一个新客户,还需要不断的使其参与平台或者业务互动,贡献更多的数据,寻找特征。 也就是说,对活跃客户或者新客户的持续活跃运营,当然基于数据的,则会不断使用户无限迫近于某个典型特征,从而进行有意义的营销。 比如对服装企业而言,10月份的季节,同一个品牌,一家开在上海,一家开在吉林,对两个新顾客,你的激活销售的策略完全是不同的,活动方法也是不同的,而这可以通过天气数据来刺激消费群体,同时换取用户的有效活动行为,比如参与兴趣或者意向,最终会定制出来一些不同的营销策略。 总的说DAU上升一个层次的理解,是在数据资产的维度,交互意味着带来更多的数据,更多的数据有助于推动数据的建模和分析,进而反向刺激客户,收集数据,促进转化。
行业指标观察分析-DNU/DAU 写在分析之前 一直以来,我们对于数据都是在做加法,也希望这个过程中,不断搜罗和变换出来更多的数据指标,维度等等。而在实际的分析中,我们发现,一如我们给用户提供产品一样,太多的时候,我们思考的是如何增加功能,而产品的核心功能和诉求,却越来越远。 最近有幸和一些团队在做数据分析的交流,一个现象是,基于最基本的数据指标,实际上我们并没有深入的理解,或者说,我们并不了解数据,以及背后的用户,使用场景等等。因此,也就造成了,在夹生的数据理解上,我们不断还在探寻新的数据组织和加工。 前年的时候,我制定了关于游戏数据分析的一些基本指标,后来有人和我说,我们的数据指标定义和你的不一样,你的指导意义是不够的,不符合业务需要,比如这里我举一个例子: 很多企业在定义日活跃用户数(DAU)时,都会和我说,我们是按照每天登陆2次以上的用户算作DAU,而给出的行业标准,是只要登陆过的用户,就算是日活跃用户。 就这个问题,我想表达的是,DAU这样的指标,他本身代表的是业务场景,而非一个简单粗暴的指标内容,换句话,在背后是存在一个围绕DAU的体系和流程的。 我们可以以“转化率”或者“金字塔”的思想来理解这个DAU,实际上,我很清楚,大家在做DAU数据时,我们有的定义是登陆两次以上是活跃用户,或者登陆时长超过10min,算作一个活跃用户。但是在这个背后,我们会发现,登陆是最基本要具备的要素,有了这个要素或者场景后,刚才我们提到的登陆两次也好,还是在线时长超过10min才是被满足的。如果按照“转化率”或者“金字塔”的思想来看,我们其实想知道层层过滤之后的,所谓那部分高价值用户的比例。 从业务场景的角度分析来看,这其实是我们在研究用户到达的好坏,而围绕在这一点场景的核心,我们就会发现,影响到DAU的分析因素其实很多了,比如我们刚才提到了,基本的DAU定义是指,登陆游戏一次就是活跃用户,这个过程中,如果结合我们刚才提到的转化率思想,你会发现,DAU的转化率关系或者金字塔结构(仅从登陆次数作为统计维度),是能够发现一些问题所在的。比如用户的游戏行为习惯,付费相关性,营销活动刺激,举例,间隔时间极短的两次登陆用户,且级别很低时,很可能是登陆存在问题,趋利用户(即积分墙用户)。 行业指标观察 今天我们要分析的是和DAU相关指标,DNU,DAU,后面还会和留存率放到一起讲解。 今天,我们花一些时间就只说DNU和DAU,而分析的指标就是DNU/DAU,你可以成这个指标叫做活跃度指数,当然大家喜欢叫做新增用户占比。 且看下面的图片: 这里的老玩家指的是:DAU-DNU,注:DAU-DNU与DOU是同义。 在此图蕴藏了几个信息: 玩家的行为习惯逐渐形成,周六成为用户游戏的高峰时间段; 尽管这个事实,也许很多人都注意到了,但不是所有人在做周末奖励活动时都考虑了这个因素。对比的大家可以看到在1月到2月份春节期间,行为特点则是完全不同的。 蓝色区域面积,越小,则留下的老用户(即DAU-DNU)比例就越多,相对的留存质量则会好一些。游戏的玩家自循环系统则逐步成立,则推广期间的大部分玩家则在次日之后都留在了游戏中。针对这一点,在下面展开解释。 我们将DNU/DAU的比率拿出来,做出如下图的曲线: 可以看到,基本上这个比率维持在一个很低的比例,大概在10%-15%左右,换句话说,新增用户的占比只有全体日活跃用户占比的10%~15%,即使当我们游戏开始大范围拉新推广时,这个比例仍旧维持在10%~15%,但此种情况仅存在于游戏已经上线,且用户的自然转化情况比较理想的情况下。从数学的角度来看,这个比率计算的分子和分母,分别是DNU和DNU+DOU(即DAU),基本上变化幅度是同步的,当DOU足够多的时候,DNU的新增影响是有限的。但是如果一段时间内DNU的诸多用户不能转化为DOU,则此比值则在不断升高。如下图所示: 可以看到的是,昨日的DNU中的一部分(次日留存部分)变成了,今天的老用户(DAU-DNU),而昨日(DAU-DNU)部分则有一些转化为今天的老用户,同时,今天DAU中,则继续有DNU的加入,而这一部分,也构成了明日(DAU-DNU)的一部分,在明日的DAU-DNU中,同时还有昨日DNU在明日的部分贡献,昨日DAU-DNU在明日的贡献。 由此,我们可以认为: 在游戏足够吸引用户或者流量足够理想的情况下,随着不断新用户被带入到游戏中,游戏中DOU的比例则会越来越高,那么我们的DAU就会不断的成长。 在游戏带入的流量是虚假的或者游戏不足以吸引玩家时,则每天导入的DNU则会不断的被损失掉,就变成了一次性用户,即新增当天登陆过游戏的用户,且此后不再登录游戏。此时,我们会看到在随后的一段时间(尤其是停止推广后),DOU即老用户的比例并没有发生显著的增长,这一点从DAU事看不出来的,但是我们从DOU的比例就可以看出来。此时,不需要等待几天来看效果,推广的第二天如果效果不佳就需要停止。 案例 从下图我们可以看到,在大推开始,DAU的规模开始急剧增长,但是基本上是DNU的贡献,推广几天的DNU/DAU平均水平在83%左右,这一点恰恰说明了,在推广期间每一天的大量DNU并没有在次日有效转化为DOU,这一点,我们从DOU比较平滑的曲线就可以看到,尽管这期间我们发现DAU急剧膨胀,但是实际DOU较推广前的涨幅则是有限,经过计算,较推广前,DOU平均涨幅30%, 而实际此期间,DNU的平均涨幅100倍左右,而推广结束后,DAU较推广前涨幅了30% 左右。对比DNU约100倍流量的涌入,实际DAU和DOU的涨幅,则实在是很微弱。 总结起来看,这个指标对于游戏的粘性理解和投放效果评估,能够起到一定的积极作用,同时,要说明的是,这个指标从长期运营的游戏来说,是评估其生命力的一个重要参照,想必用过的人是很清楚的。最后奉上行业水准: 一线:<10% 二线:<20% 三线:<30% 四线:<45% 行业平均水平:28% 注:游戏上线初期的1~3天不具备参考意义。
你的注册转化率及格了吗? 注册转化率,一个基本上可以忽略的指标,虽然简单,但是却真实反映渠道,发行商,开发者的实力,以及对待产品的态度。 所谓的注册转化率,其实指的是玩家从下载游戏后,打开激活游戏,注册成功游戏的比率,即注册账户/激活账户数,如果出现单个设备,多个账号的情况,算作一次转化。 注册转化率的市场表现 一线 90% 二线 80% 三线 75% 行业平均 普通 70% 实际上,对于大多数游戏而言,尤其在安卓市场(包括越狱渠道),注册转化率并未有理想的效果,超过40%的游戏在注册转化率的表现是低于70%的表现。 为什么注册转化率很重要 流量的利用和转化 一款游戏现在的营销和推广费用极具增加,实际上,刨除本身积分墙的强推背后,很多的垃圾用户的存在,产品本身在流量涌入进来的时候,并没有做好最佳的准备条件,服务器承载能力是大家都会考虑的,有些问题是必须要解决的: 如何快速友好的解决注册 解决输入法 解决适配 以上这些要素则是衡量产品实力,渠道实力的重要标示。当然,圈里面的人都知道,积分墙做用户在强推用户量的同时,还在于其榜单效应和传播营销带来的自然用户(当然这部分其实是很多时候被我们忽略掉的,后面文章会讨论这部分自然用户),但是,无论在推广端如何用力,玩家如何进入游戏的问题则是避免不了的。 渠道软实力的彰显 如下图,大家可以看到四个渠道对同一款游戏的注册转化率迥然不同的表现: 一款游戏在不同渠道的注册转化率水平变化很大,从60%到80%水平不等,我们清楚一个事实是,如果每天我们推广10000的新增注册用户,提高10%的转化率等于至少在入口提升了1000人进入了游戏,如果1000人中,500人流失了,而剩下的500中,300人稳定活跃,有50人最终产生了付费,且有一个大R用户,则至少从10%的提升中,我们得到了一部分收入。也许,并不能cover成本,但是实际我们成就了用户的转化和良好的产品体验。 一个不争的事实是,基本现在的渠道都在做联运,都提供了支付SDK,实际上一个账号,一个支付功能。然而接入渠道后,实际的SDK表现的性能和账户系统的体验,却给产品开发者带来了不小的麻烦,有的支持匿名注册,一键登录,有的进行复杂的渠道注册流程,搞的用户很不爽,也就牺牲了产品。在注册转化率的提升问题上,实际不是谁的责任问题,而是互相促进,和改进体验。 产品实力的证明 如今,我们的智能机普及率已然很高,在我们进行注册转化率分析的过程中,实际上影响因素很多,比如从产品层面来讲,UI布局和逻辑,按钮大小,输入内容,输入法,系统版本,UI配色,注册等待体验等等。 对于我们而言,注册转化率额这个指标其实一个很简单的指标设计,但是背后隐藏了我们在产品开发,用户体验,渠道对接等等诸多环节的问题,作为分析师和数据使用者,真实了解指标背后的意义和作用,其实很关键的。
这是一篇好久就想去写的文章,这不是一篇PR,这只是在说明一个事实,你不得不承认的事实。 其实在中国一直就存在第三方服务,只是,这么多年,伴随互联网浪潮的发展,却始终尴尬,其个中缘由太多,最多的一点,或许是信任,但今天我们不说这个,而是说点别的,这就是价值。 的确业务的拓展想要得到用户的认可和使用,是一个非常漫长和苦逼的过程,因为我在游戏行业就说说游戏行业的这种现象。 和一位在游戏公司从事游戏统计分析系统开发的人员在聊天时,他说了句话:“其实最主要的 一些功能我们大部分都能开发,如果走第3方的话,我们这些人也没什么用了”。我想这是大多数游戏公司的老板,员工包括商务都能说出来的一句,站在一个客观的角度讲,这句话是对的,但是又是错的。因为,在别人甩了无数次的泥坑中,你选择的是再次摔下去。把精力投放在一个已有方案的问题上,对比开展前瞻性的研究,你会觉得那个对企业的发展价值更大一些呢? 中国人好面子,中国人也一直笃信,什么事我们只要努力都能干好,这点的确在过去的年代中,让我们突破帝国主义,资本主义的封锁,走出了一条自己发展的道路。但是反过来,如果在一些没有阻碍的方面,已经提供了解决方式,却不去吸收而要自己高喊口号,做下去,那结果可想而知。 在游戏这个领域上,第三方的出现,比如云服务,统计,推送,统计等等,其实是在树立一些标杆,突破一些新的技术,建立标准。这个过程是漫长而又辛苦的,但是能够看到的是,减轻了时间和金钱的成本,大家要牢记一点,价值是一个金钱和时间的乘积,这些第三方的出现其实是降低企业内部自己的成本,而却扩大了使用这些服务的价值。 拿第三方的数据统计来说,如果还是自己去建立和构建自己的一套体系标准,去进行分析的话,其压力和成本是非常大的,尤其是对于中小团队。当然巨型公司,在经历长期积淀后,也会有自己丰富和完整的体系,这个过程中,第三方做的是什么?其实是引导市场,引导正确的方向。回到开头的那句对话,其实对于这些企业的开发人员来说,第三方的引入,并不会影响到他们的生存,相反让他们的业务纵深加强了,进一步拓展深入的领域和问题分析。 我自己也在多个场合说过,就数据分析来说,企业要把视角打开,不仅是企业内部要自建符合行业贵方和标准的系统,同事也要借鉴和参与第三方的服务,你可以选择不用,但是要去学习和掌握,因为这个过程中,你会发现,太多的东西你不要自己费时费力的区思考和研究,同时,空出来的时间和经理,你要去思考的,却是那些第三方服务满足不了的领域和内容,这也是一个公司成长为巨型道路上必须走的。
新年到来,该应该持续坚持写下去,还是有很多人要来学习和进步的。 今天提到了一个概念:ARPPU。 这个概念等同于之前大家认识的ARPU(其实这句话我是很不愿意说的),ARPPU是总收入除以总付费用户数,得到的每个付费用户的平均收益。今天说的误区其实也就是大家一个使用上或者是认识上的误区,这个误区被巧妙的利用了,以至于那些可能不会注意到细节的人被蒙蔽了。 ARPPU是一个算数平均数,在均数的范畴中,概念很大,比如几何平均,截尾平均,调和平均(主要用于在玩家升级的平均速度方面的应用)等等。而恰恰因为ARPPU是算数平均数,所以,一些使用上的误区或者认识是需要背去校正的。 算数平均数是描述数据分布的集中趋势的统计指标,但是如果数据分布严重的偏态,那么这个时候算数平均数算出来的结果其参考意义是有限的。从ARPPU来讲,我们希望通过ARPPU的计算能够代表整个付费群体的平均消费水平和收入贡献,也是集中消费的趋势。但,对一款游戏而言,事实上并不是如同我们考虑的那般呈现所谓的正态分布形式,其实,如果我们把每人收入贡献绘制成频数分布来看,这是一个典型的幂律分布。小额付费群体多,但收入贡献少,大额付费群体少,但贡献收入多。而这时如果合并一起进行ARPPU的计算,显然高估了小额群体的付费能力,低估了大额群体的消费能力。 从集中趋势分析的角度来看 其实,多少年来,不是非常懂得精细化运营的人都是这么粗略的看待这个指标进行分析的,而现在对于这样一个使用误区,尤其当我们进行精细化运营后,需要更多的是跟多的群体细分,群体定位。当然,如果我们要从宏观把控整个游戏的平均消费水平,一种办法是去掉一些噪声,比如截尾均数(按比例去掉两端数据,在计算均数,如果和原来的均数相差不大,则说明极端值不存在,均数不受影响,一般是取5%),除了这种方法,这里我们可以通过一种非常简单的统计指标来分析,这就是中位数。 中位数:全体数据按大小排列,在数列中处于中间位置的那个值。中位数主要是位置平均数,所以不会受到极端值的影响,因此在评估ARPPU这类衡量平均水平,但是偏态分布严重的情况,中位数是很合适的,更加能够代表其集中趋势和平均水平。 从离散趋势分析的角度去看 百分位数 我们知道游戏中付费用户群体我们划分为三个部分,小鱼用户,海豚用户,鲸鱼用户,三个群体我们可以通过对总的付费群体进行百分比划分,这里就是用了百分位数据,所谓百分位数就是一个位置指标,我们可以把所有玩家的付费额从小到大排列,然后按照百分比划分,比如从左向右50%为小鱼,40%为海豚,10%为鲸鱼。在此情况下,我们分别计算各个群体的ARPPU值,这个相对我们刚才的从宏观的得到ARPPU,会更加准确的分析不同群体用户的消费能力。实际上刚才说到的中位数其实就是一个特殊的百分位数。 当然了,从离散趋势分析的角度,全距也都是可以去使用的,也是很简单的,这个只是一种检查而已,但是就方差,标准差等可能并不适合在游戏中消费数据的分析,虽然说他们涉及我们要分析的每个变量,但是由于他们也受到极端值的影响,所以不适合去做这种分析,他们的合理使用范畴是在服从正态分布的数据中。 总的来说,一个ARPPU所代表的内容很多,但是我们在使用和分析中,要避免一些误区产生。也要适当的使用统计学的一些灵活的方法重新审视和分析这些数据。
这些时日,更新少了一些,因为有些个事情和情况占据了太多时间,文章也落下了很多,以前回首总要去总结过去。现在累的已经有些倦怠,一年过去,不说发展,身体确实有些吃不消,年底的几次生病,确实让我有些力不从心,所以不再去考虑过去这一年怎么样,现在觉得应该把时间留给当下的时刻,做好眼下那些正需要做的事情。 2014年就要来了,多花时间低头把事情做好,做细,这是正道,除了工作,健康是2014年的我要去考虑的事情,还有我的妻子,在事业与家庭之间需要更好的平衡。对于那些之前已经关注了文章的人来说,14年也许大家是幸运的,因为我会抽出更多时间去和大家交流,学习。在2014年,希望大家和我一起见证。
写下该文章,是因为之前看到了几款游戏一个典型的玩家刺激活动,在《多塔联盟》,《萌江湖》等多款游戏的设计中都有体现,如下图所示: 这个功能点的设计,今天在这里讲的更多的还是跟数据有关系,跟用户的行为有关系,大家可能发现了,英雄招募首日共计5次,每次10分钟,如果你感兴趣,一定有一个疑问,为什么是5次,且每次是10分钟? 对于这一点,我相信有的开发者并没有仔细的考虑过,只是在大家都有了这个功能后,我也应该具备,然而这背后其实还是有些值得东西去探索的,今天我们将看到为什么在这款游戏中一共做5次,每次10分钟是可以的,而在别的游戏中就不行,就不可以这么做的故事。 如果对于以上的设计给予一个数据的解释,那么我们应该从以下的方向上进行探讨: 新增玩家的单次使用时长(次数) 新增玩家的单日使用时长(次数) 新增玩家的每周使用时长(次数) 当然,如果你统计的数据足够多,也可以分析活跃玩家,付费玩家在这几点的统计。 在第一张截图中,我们看到,玩家首日要进行5次,每次10分钟的抽奖,换句话,你的新增玩家群体首日的游戏关注时长(注意不是使用)要有这个能力才可以完成这个抽奖活动,所以我们需要了解你的用户是否是这个行为习惯的。比如在下面的玩家群体,首日的游戏时长是19分钟,而此时让玩家去承担完成一个50分钟的抽奖活动,对于用户而言是存在压力的。 原因其实是因为下面的这个U型曲线造成的: 在这个曲线中,我们理想的用户激励成长曲线是蓝色,因为,玩家会随着给予奖励或者激励的丰富而不断进行响应我们的设计,实际上我们设计的累计登录30天之类的活动也是这么思考的。然而我们从黄色曲线可以看到,玩家在初期对于激励的响应是很好的,但是随着激励的不断增加,这种响应并不会显著增长,而是缓慢降低。而这种态势的 进一步扩大,其实就是我们看到的白线,其实我们很多的设计,其响应情况都是和白线是一致的。 回头我们在看刚才的问题,其实我们发现也许我的游戏不应该设计5次,每隔10分钟的抽奖,因为很可能很多进入第3次时就疲劳了,其激励并未有玩家很好的响应。因为很多的玩家的游戏时长并未达到你的要求。 如下图,我们看到玩家单次游戏时长有21%在3-10min,23%在10-30min,这个时候我们可以确定,至少有46%的人是有响应的可能性,也许在这个过程中,我们应该调整每次抽奖的时间间隔,让玩家响应活动的可能性在提高一些。 当然,下面这个图的单次游戏时长我们可以看到,小于1min的比例是很低的,这里也可以和大家说的是,这种情况是正常的,至少对于新玩家这个表现来看,玩家进入游戏还是正常的。 下面我们也可以看一个其他的情况,如下所示,明显的发现,单次游戏时长小于1min的比例较高,也就是说这款游戏对于新玩家而言,前期的体验解决的不是非常理想,是需要不断的优化和改进的。 当然,从我们刚才看到的游戏活动的截图中,玩家是可以在一天中不断上线和下线参与活动的,而从这个维度,我们需要精确去了解玩家的单日游戏时长情况,这点对于这类通过时间设计的活动是很有效的。在下面的图中,我们看到对于新登玩家而言,没有小于1min的玩家,也就是说,对于新玩家而言首日的体验还是很流畅的,而就我们刚才设计的活动来看,活动设计时间应该保持在10-30min是很理想的,也许50min并不是一个很好的选择,至少有46%的玩家是这样的。 如果从活跃玩家的单日游戏时长来看,这点也许是更明显的,不同群体在游戏时长的表现差异是很明显的,所以对我们而言,了解了游戏行为或许可以帮助们更加合理的设计运营活动。 当然,对于活跃用户而言,我们在这个问题上,也可以统计分析活跃用户的使用时长问题,尤其是我们要进行一些针对活跃用户的活动或者系统设计时应该给予考虑的,在下面的图中,我们可以看到,活跃用户群体的使用时长和新增用户的时长之间差异是很明显的,如果对比付费用户的使用时长,这点差异是更加明显的,而这些玩家看似简单的统计信息背后可能就变成了我们文章开头的活动设计关键参考因素。
付费用户其实存在一个付费周期转化的问题,直接指标可能就是付费渗透率的问题,然而在此背后其实还有更深入的问题。我们经常遇到的是推广渠道获得的新用户,且这批用户进入游戏的状态。其实在付费用户问题研究方面,本质上是类似的。对于广告网络,渠道带来的新用户而言,我们判断了新用户在随后的留存情况,今天我们研究的是当一个用户付费后,则是另一次“新用户”在随后留存情况的分析。换句话,我们把付费用户当作“新用户”开始研究留存,也就是付费留存。付费留存概念付费留存概念这一点,对于大家是不难理解的,实际上我们能够判断用户随后的付费留存率是多少。但它与付费用户的生命周期其实是存在关系的。注:留存问题的分析不是停留在一个表面问题的解析上,在背后其实我们可以看到,我们对于每一个发生状态转移的用户群体都可以做类似的留存模型分析,比如我们今天提到的付费用户的留存分析,还有比如当我们发现付费用户累计付费达到了某一个额度后,随后用户的留存表现,这都是对固定用户群的在此留存解析,留存问题不是一个停留在表层的计算,其实是代表了一种分析思想的呈现。或者我们提到了那些跨过新手引导阶段(或者达到某个等级)的留存表现,本质上都是我们对于一个用户群体的划分,决定了留存的计算模式。付费用户留存模型在有了刚才提到的付费留存后,接下来我们将重点分析用户付费留存质量。我们就按照每天来计算,我们会发现今天的付费用户中,会有两部分人构成,一部分是新增付费用户,另外一部分是之前的活跃付费用户,但是活跃付费用户其实是由之前不同时间点的新增付费用户在这一天又进行了付费的累计加和组成。从这个角度我们就可以计算出来每天的付费用户贡献度的问题了,一个典型的问题就是,今天100个付费用户中,20个是本日新增,80个是老付费用户,这些付费用户其中近7天中付费的有40个,剩下40个是7天之前有过付费,且在今天有付费行为。在这个简单的逻辑中,我们看到了今天的付费用户有40%来自于7天之前,且能计算出来这些40%用户的贡献收入。这种做法的好处是把很多之前的问题绑定到一起来看待。一个典型的场景就是,在最初我们考察一个阶段新用户的+1或者+3留存率的同时,可以对这些几日留存用户的付费进行留存在跟踪,这个过程复杂,但是最后可以很快的衡量用户质量效果好坏。回头继续刚才的计算,我们会发现一些显著的特点,比如一般而言付费用户群中,最开始新增比例会很大,而老付费用户比例很低,然而随着时间的推移,这个老付费用户比例会逐渐变大,从10%不断变大,到了一个阶段,不在变化,之后可能是下滑,也可能是提升,而这是一个形象的付费用户生命周期的直接立体。
最近花了很多的时间在体验各种游戏,从火爆的卡牌,到策略,RPG等等,有一个问题在影响我,什么才是留存率的关键?今天就先讨论一些我的想法。 留存率已经成为大家最常提到的词汇,也是拿出来show一下的武器,不过一个困扰的问题在于,什么影响了留存,怎么优化留存。关于留存指标的描述这里不去解析,要说的就是什么影响留存,怎么优化留存。 我们会发现一个事实,即使那些在7日还返回游戏的玩家,并不是在新增后的每一天都会一直登录游戏,这点是有数据参考的,大家可以计算一下新增用户在新增日后到第7日之间登录过几天的分布。不过,最近见到了很多的游戏这个留存和活跃天数确实在增长,因素我觉得有几点: 渠道为了用户资源和媒体资源,必须在自己的范围内大肆的覆盖密集的游戏福利,游戏活动,进而拉动用户的参与,提升活跃度; 游戏的整体前期体验在不断的优化和改进,用户认知在不断被利用; 其他的,就不提了。 不过,有一个核心可以概括的就是,体验成为了目前游戏想要去取胜的一个关键点,因为你会发现现在的游戏基本上呈现的游戏玩法其实本质上没有什么差异,而且太多的用户没有接触到这个玩法就已经开始流失了,这也是为何今天我们总是在说次日留存,7日留存要做到什么样的水平上,原因在于7日留存直接反映的就是用户是否可以接触到游戏真正好玩的内容,换句话说,一个游戏的前期体验是一个游戏能否吸引一个玩家持续投入时间和金钱玩下去的关键。 其实,为什么是7日,原因在于,太多的人在7日内,只会在游戏中光顾两天到三天,所以这个节奏是适应和把握一款游戏的最佳时间。但是,我们的留存因为体验丧失了太多。 说到这里,其实想说的就是,影响游戏留存的关键因素其实就是体验。这种体验是在用户接触到游戏时,就已经产生了。一个用户选择了什么渠道,看到了什么描述,什么关键字,什么截图,什么下载,什么安装速度,什么首次加载,什么二次加载...就已经诞生了体验,用户的流失不是一蹴而就的,而是不断积累的,当达到了体验上的“耐受点”的时候,用户就会突然离开,而且时毫无征兆的。 今天在这里就体验可以先去说几个简单的,只上图:
最近盛大刚刚发布了财报,有人给我打电话问什么是ARPDAU?ARPDAU能够起到什么作用?本文就这个问题给大家解析一下ARPDAU。在讲ARPDAU之前,有两个概念大家应该很清楚,一个是ARPU,另一个是ARPPU,如果有不清楚的同学请查看《移动游戏数据分析白皮书》。 首先我们明确ARPDAU的定义:日活跃用户的平均收益,Avg. Revenue Per DAU;计算方式为,ARPDAU=每日总收入/每日活跃用户数。 为什么要有ARPDAU? 在移动端市场由于移动游戏的用户忠诚度不够高,流动性强,手游产品生命周期短,推广费增长迅速、推广周期短的因素所以我们不能再以ARPU或者ARPPU这种按周或者月为维度的衡量方式来进行计算。ARPDAU其实是在更加短的时间间隔内对游戏的收益能力与用户量之间寻找一个桥梁。 从下面的公式中可看到其作用: Revenue=DAU*ARPDAU 上述公式是对每天收入的一种计算模式,如果按照用户生命周期来做衡量则变成: E_Revenue=DAU*ARPDAU*E_LT 注:E为期望,LT为生命周期 综上我们可以得到,在用户规模和平均收益固定的前提下,可以根据生命周期长度的变化来确定收入规模,这点其实是我们平时最常去考虑的。 其实上述公式在海外已经多次被讨论过,用户规模、用户生命周期、产品质量和渠道推广这几点都是对这个公式的直接反馈。就ARPDAU来看,我们可以理解为下面的一句话:每当游戏产生一个有效的活跃用户,则单日为游戏贡献收入为ARPDAU,如果有效活跃用户的生命周期为LT,则单个用户全生命周期内贡献的收入为LT*ARPDAU。 由此可见,ARPDAU已成为衡量游戏收益能力的一个新指标。ARPDAU直接反馈在推广阶段,是一个有效活跃用户预期收益能力的表现。为什么这样说,因为一个有效活跃用户每活跃一天产生的收入就是ARPDAU,如果留存效果比较好,生命周期比较长,那么单个活跃用户在生命周期内贡献的收入就是ARPDAU与LT的乘积。这一点如果和CPA结合起来,就可以去衡量近来的一个有效CPA与ARPDAU*LT之间的大小。 DAU 无论是重计费游戏还是轻计费游戏,都想把用户规模做到一定的量级。从这个公式中能够看到,在ARPDAU较低的情况下,生命周期长度和用户规模都成为保障收入的支撑;其次有效用户群不仅代表推广阶段较好的用户质量,同时也是产品质量的重要体现。 就DAU而言,我们需要进一步了解DAU的结构和质量。因为DAU是最直接影响未来的用户生命周期和提升付费概率的因素(比如DAU中,优质用户不断的积累)。 LT 用户生命周期,一方面是对近来推广的用户质量体现,同时也是产品黏度和质量的重要衡量指标。如果要在三个参数打上标签,我觉得下面的标签算是一个例子: ARPDAU Jon Walsh说,“从游戏类型来看,有的游戏属于高转化率游戏,这类游戏付费转化率高,但是ARPPU低;有的游戏属于高付费游戏,这类游戏付费转化率低,但是ARPPU高。“不过如果你去从ARPDAU的角度去看待的时候,你会发现不必考虑付费用户的付费结构和规模,从而快速通过生命周期和规模衡量收益能力。
有关留存率的事情最近扯得比较多,因为在分析数据的时候,越发觉得,分析一定是要来解决问题的,留存率不知何时突然变得流行了,在此讨论留存率倒不是因为流行,而是觉得以留存率为核心,的确是可以帮助我们解决不少的问题,但前提是,不要只停留在你所知道的次日,3日,7日留存率就OK,因为纵然你知道与benchmarks是差距,如果只抱着这个指标,你依然不知道自己该怎么做。下面会给大家一张图,让小白们看到,真正懂得要如何看待和分析留存率的,恰好,也验证我之前的一个观点。 公测100+周,各周新用户在他们各自生命周期内各周的留存;孤单的蓝线,是第一周的新用户和不删档内测阶段的用户总和; 当然以上的曲线是按照周留存来计算的。不过比较明显的是,如果你看过长尾理论就会知道这是符合幂律分布的。 回到今天的话题上,今天要说的留存率和运营活动的一些想法。近期卡牌类的游戏,比较流行,从榜单来看覆盖的密度也比较高,今天的例子就以卡牌游戏的运营活动为例来说说。 在整个运营的大体系中,活动运营只是其中的一部分,然而却起到了非常关键的作用,不要把活动当成了运营的全部,这是首先大家要建立的认识。之所以要拿卡牌作为一个例子,主要是在卡牌游戏对于活动的以来程度比较大,其中缘由我简单说一下: 核心玩法[解题模式]相对简单,易疲劳; 内容丰富性和节奏感; 所以很多的时候,我们需要去用活动去进行相应的刺激和鼓励。 在如今已变成红海的卡牌市场,游戏众多,想要突破在玩法变革,题材内容变化等方面,运营实力是一个很重要的因素,这个运营实力不只是说运营人员的营销和经营用户的能力,还有对于细节的调整和挖掘。 在活动这个问题上,我们可能组织了以下的各种活动: 但活动其实本身是一个过程,是一个需求反馈过程,因此在这个过程中,怎么去借助数据挖掘需求,提升留存质量是一个关键。不过要说明的是,留存的提升活动只是一个手段,但是核心还在产品质量,说到这点,其实细节是关键。 仔细看这张图,你会发现多了一个活动弹窗,其实这么做的目的有很多,它不仅仅只是一个弹窗,在背后有这么几条核心价值: 弹窗对于移动用户而言是有认知的,用户不会反感,国内用户很习惯活动这一套,极低的认知成本造就我们可以在启动的时候就做这件事; 弹窗的出现以及内容的引入,至少是70%以上的用户愿意停留5s左右的时间来查看各种充值,福利活动信息,因为这点,这为客户端的加载,程序更新,网络连接等争取了时间,这一点可以给大家举一个例子,同样是与人聊天,同样是一样的时间,与爱人和朋友的内心感受是不同的,一个感觉时间总是短暂,一个总是感觉时间漫长; 目前每一个CP都要对接很多的渠道,很多的渠道也为游戏开设了论坛,游戏的新闻,活动信息都是发布在这些渠道论坛上面,然而面临一个现实问题在于,并不是所有用户都能被我们的相关信息覆盖到,也就是说,用户的分散性,和渠道多样性,造成我们很难将信息很好的传达给每一个玩家,然而这个弹窗信息却解决的了这个问题。 对游戏而言,尤其是移动游戏,如何快速的让用户进入游戏,流畅体验,这是必须要解决的问题,纵然你的核心玩法再好,美术再好,进入不了游戏一切都免谈,在这点上,弹窗其实帮助我们缓解了这个问题。 从我们关心的留存来看,我们的计算中,一定那些成功进入以后的用户才能算作是留存用户,而这些留下来用户的行为其实就变得很重要,关于这点的分析见http://www.cnblogs.com/yuyang-DataAnalysis/archive/2013/05/10/3071764.html 从这点来说,既然是留下来这些人,那么我们就需要了解留下这批人做了什么,在那些方面可以拉升这个留存率,这是一个核心问题,其实这点上除了游戏本身的质量决定之外,你的运营手段使用,譬如活动运营就是一个核心因素,这点在随后的文章中讲解。
上个月,做了一次关于最关心的游戏运营数据指标分析,收到了很多游戏数据分析师,运营人员,BOSS的反馈,参与了投票,参与投票的用户总计有65位,不是很多不过最后的调查数据,似乎说明了很多问题。 上图为调查结果,攻击选取了19个相关的运营数据指标内容,根据这些投票来看,活跃用户量,付费转化率,留存率成为大部分用户关注的数据指标,而相对反映用户行为的比如游戏次数,转化率等信息似乎并没有得到运营人员的重视。换句话来说目前的形态还是一个粗放的运营形态,在数据运营这块还是停留在比较浅的状态,在游戏CP的运营结构上,可以看得出来目前处于一个不合理的结构。 运营概念狭窄 游戏运营是一个很大的概念,简单来说,首先是一个贯穿于游戏产品生命周期的过程。涉及到的方面有: 数据分析 用户运营 市场推广 活动运营 游戏内容 竞争情报 品牌建设 今天我们提到只是这个运营中一环,数据分析。因为他是运营体系的驱动因素,也是贯穿于始终的过程,可以理解为过程控制(Process Control)。然而回头从我们上面数据中可以看到,我们的关注点,太过于倾向于解决人气和收入问题,以至于这之外的因素被忽略了。打一个比方就是,市场推广人员不需要关心游戏人气如何,只需要完成用户量级的带动就可以,事实上,这种情况就意味着,把市场推广营销排除在运营体系之外,所以很多时候运营不再去关心用户量的问题,转而解决留存活跃的问题。 而说到留存活跃,之前写到其实这块我们面临了一些窘境,因为我们追随行业领导者绣出来的数据,比如次日留存,7日留存,注册用户量,活跃用户量,殊不知,具体的运营分析开这些解决不了你游戏本质上存在的一些问题。在这些指标的背后,蕴含的更多信息也没有进一步被挖掘和分析出来。造成这点的有几点原因:KPI,行业风气,人员素质。 KPI的定义结构性障碍,运营体系角色之间不存在交叉,造成了一些真空地带。 行业风气,其实和第三点有一定关系,大家只知道有问题,但问题背后的解决办法,不得而知,因为不知道究竟在行业共识之后,该去怎么分解,解决问题。 游戏数据分析人员没有一个全局的数据分析体系认识,如何驾驭,分析指标,如何利用起来解决问题,不得而知。 在整个的数据分析内容上,应该是一个整体,在某些KPI的交叉使用上,可以确立一些运营的协同和效率,核心问题是解决问题,因为解决问题是服务于KPI,而同时指标粗略反映的问题实际上是多个连锁反映引起的,所以,在关注和分析数据时,不应该只是停留在一个维度和方向,交叉的分析和数据利用价值是很大的。 回到刚开始的数据来看,就是当我们看到了留存问题的时候,就要在留存的全局下,分解和解析用户行为,游戏内容问题,解析市场营销和推广反馈。 好了就这些,这类话题有些大,就想到那里说到那里。
对于游戏数据分析来说,我们要从很多方面下手,具体从数据分析角度来说,作为游戏CP需要作三块工作,第一是游戏推广,第二是游戏质量,第三是游戏运营,就这三点来看,推广是未来游戏是否有稳定人气,获得稳定收入的关键一环。 关于手机游戏的渠道分析,是很重要的分析方向,对于这一点,其实无论是端游,页游还是如今火热的手游都是一样的,也确实是作为游戏CP很头疼的事情。原因很多,就手机游戏来看,比如苹果商店的封闭性,不能进行多渠道的转化追踪;而多渠道时(比如国内现在的多个安卓渠道),追踪转化分析又太过麻烦,基本上每家的游戏少说也有20+的渠道。这点导致了,我们在做安卓市场时,面临适配,系统,分辨率等等问题。所以大家都选择在ios上先发和投入,如果OK,在进行下一步的研发运营。因为会觉得,少了适配等一些列的硬伤,倒是做起来比较容易。 然而这点其实又规避了另一个问题,那就是,国内现在无论在官方的ios商店,还是第三方的市场商店,解决了适配,但是依旧要面临对渠道的追踪。因为尽管游戏下载的最终入口是在官方[未破解情况下],抑或是第三方的破解渠道,作为CP必须面对的就是渠道转化,用户质量,谁都不想自己做一笔糊涂账。实则我们的研发之路避开了机型适配等问题,但是却面临渠道转化的障碍,进而就是如何进行优化投放。 既然大家现在很关心渠道推广优化,那么以上的问题就必须有个解决的办法。这个解决办法就是如下的最佳渠道评估策略。 所谓最佳渠道评估策略有三部分构成: 数量: 渠道获取用户能力 作为渠道而言,对于游戏的首要价值,就是大量的用户资源,这点成为了目前粗放推广最为关注的部分,因此成就了今天很多的大渠道,也因此使得很多小的CP没有竞争实力,推广上架无比艰难。 数量分析揭示了渠道的用户获取能力,再更加实际的来说,可以探测用户对渠道的粘性和忠诚度,这点对于渠道推广是有帮助的,因为如果一个渠道本身用户的成长体系不完善,不存在具有粘性的核心用户群,那么给予CP的用户资源也是有限的。 在这数量这一最粗放的力度上,我们将注重关注以下的指标: 以上几个指标,似乎是大家很常用的,但是仅仅到这个层级是远远不够的,因为我们并没有准确的去监控和识别用户的行为信息,仅仅是数量级的分析。实际上,对于某些大渠道来说,我们可以关注,玩家在活动或者更新周期,返回渠道的概率分析,这点也是值得的。 一般而言,我们可以通过安装后的注册转化率来了解渠道用户是否目标用户,当然这只是分析目标用户的第一个重要标准,同时这个转化率连带的会引发很多的实际的问题进行分析。 以上是第一个层级的分析策略,当然基于以上这些因素的分析,这里不再展开,可以根据自己的实际需要,有目的的进行实施就可以了。 质量: 玩家参与游戏情况 目前的移动互联网环境下,很多的游戏产品对于渠道推广投放,有很多是停留在数量这个层级上,稍微好一些的会关注渠道收入贡献情况,这点也是在渠道能够带来收入的前提下来进行的,不过我们似乎忽略了一些问题,那就是,在收入之前,连渠道用户的质量都不了解,就不能谈收入。因为这种情况下,会一直存在CAC〉LTV,即单用户的贡献远远小于用户获取成本。 因此,质量的分析,快速的优化,决定未来投放渠道的收入增长潜力。 以上四个指标作为质量控制的重要要素存在,帮助我们在渠道投放初期就要去了解渠道的投放质量,这点实际上相比较玉前一个层级,重点解决投放质量的问题。 平均日活跃用于了解该渠道的长期日活跃走势和平均水平,而一日玩家比例了解新增玩家中,只有在新增当天进行过游戏的玩家的比例,由于这点对于后续的留存率影响很大,所以必须要去了解留存率的水分有多少,真实的用户留存是什么水平。有关于这点在后续的文章中会继续与大家探讨。 刚才谈到了留存率,作为质量控制的一个节点,次日留存率水平在衡量渠道质量这方面还是有作用的,这是衡量渠道质量必须要考核的指标之一。 最后是首周付费比例,这点是辅助的分析渠道接下来营收能力的一个重要因素,因为渠道的用户资源最终还是要转为收入,不能完成这一步,不能完全判断一个渠道质量的价值。首周付费比例,决定了渠道推广后,用户的付费质量情况,这点可以和非推广时期的用户首周付费比例作一个对比分析。 收入 渠道收入能力情况 一如刚才所说的,渠道的用户资源,最终还是要转化为实在的收入,这是体现渠道价值的最佳方式,在这点上,我们重点覆盖以下的指标: 这几个指标的使用应该来说大家很熟悉,刚才也谈到了游戏产品的终极形态一定是要营收的,这是我们做游戏的目的,在这点的关注上,其实我们不必聚焦于详细的细分数据,只需要知道渠道究竟有多大的收入价值就可以了。当然在长期持续的过程中,我们要不断的监控和衡量渠道收益能力,做好用户获取成本和单用户收益之间的杠杆。 而以上所说的,实在宏观全局上,了解渠道与渠道之间的差异。实际上在渠道整体的策略上存在一个完整的闭环过程。 我们刚才的策略是构建了一个完整的基于渠道分析的数据体系,也就是做渠道分析该去看那些指标,以及如何作出分析。后续的其实还有详细的渠道分析,真正从具体的业务逻辑上实际分析把控,说的简单点,了解一些渠道本身的特点。 ————————————————————————————————————————————————————————————————————— 后记 数据来源:TalkingData 下图中,这个渠道的用户大量是休闲用户,而这些用户中,也存在具体的兴趣特点,这些都是需要作为CP需要去了解和熟悉的。尽管我们现在看到市场中,都在谈论轻付费,休闲游戏是比较好的研发方向,实则未必说一些重度游戏不存在市场,如果自己产品本身发定位准确,再加上渠道的特点和游戏特点契合度很大,那么一旦精准定位了用户群,其活跃,付费都是很棒的。 在游戏数据分析领域,其实我们要关注的方面无非就是三点,推广、质量、运营。今天所谈到的只是在推广这点上,一个细分的渠道分析策略,尽管只是一个点,但是足以影响了我们整个渠道策略的闭环形成。可以想象和了解的是,在过去没有数据作为基础支持的情况下,有着太多的教训,原因其实你没有用数据化的思维来做渠道运营。 最后,简单提一下另外的质量和运营,所谓质量,可以简单的理解是游戏的品质,这个品质涉及的面很广,从基本的游戏流畅性,到系统设计,可玩性,游戏性,付费深度等等很多的方面,另外一点就是运营,所谓运营,就是当产品投放到市场后,如何更好的经营用户,经营收益,这是运营要去考虑的。因为推广完成了精准用户群的导入,质量保证了内容的绝对精彩,而运营则要集二者之大成,确保游戏的生命力持久,收入稳定,用户群活跃。 啰嗦几句废话,尽管目前的渠道情况,作为CP来说是很清晰,不过大家不能失去了希望和动力,因为总有好的资源可以使用和挖掘,在这种如北京天气般有些朦胧的气氛下,数据一定程度上可以帮助我们擦亮眼睛,找到方向。anyway,未来的渠道格局和生态,作为CP一定是要通过数据来说话的。
随着移动游戏整体的火热,现在看到太多的数据,太多信息,很多时候我们仰慕和钦佩别人的成功,我们总是把这个行业达成所谓共识的一些数据来出来说明问题。因为我们笃信数据是有力的证据,并且可以说明实力。然而太多的时候,因为沾染了更多的外在气氛,以至于在一些情况下看不到自己接下来的清晰的方向。比如今天说的留存率问题。 关于留存率,之前也谈到了很多,包括计算标准和使用方法,不过细心的人应该懂得那些只是一个最初级的阶段,因为即使你知道的留存率是什么,但是你会发现你依旧不知道要去做什么?原因在于,你觉得大家都在谈论,所以,我也这么谈论。很多时候,见过很多人都在询问,这个类别的游戏,benchmarks是多少,一方面的确很有用,因为你看到了差距,另一方面,却发现,纵然自己知道差距,却依旧不知道如何弥补差距,如何解决问题。 因为,所有的数据分析和数据都是以解决问题为先。 然而,我们把数据分析和数据当做了夸夸其谈的佐料。 留存率的最大的窘境在于,即使,你了解到了你存在差距,但是你依旧找不到解决这个问题的办法。比如我们都知道我们的次日留存、7日留存水平都不是很高,需要进一步提升,但是往往我们找不到方法,很多时候,我们可能回过头来通过不断的游戏体验,去寻找问题,实则现在很多人已经知道通过留存率来分析体验的问题。然而驱动用户体验决策而有意义的成功标准,一定是可以明确的与用户行为绑定的标准,而这些行为也一定是可以通过设计来影响的行为。然而我们看到了所谓现在探讨的次日留存率和7日留存率并不能准确捕捉行为,并且帮助我们完成设计,进而影响行为。 所以,我们要解开这个窘境。 所以,我们要去寻找在留存率背后的行为,而这些行为必须要能够进行量化,同时通过设计可以影响行为。 从设计的角度来看,我们很关心如下的内容: 因为这些因素使我们通过设计可以进行改进的,而这些改进,必然会对应在一定的量化基础之上,因为刚才提到了,只有这样的标准才是存在价值的,也是可以真正通过数据分析解决问题的,换句话, 只是一个单纯的留存率指标我们并不能更加清楚的发现这些问题,抑或更多的时候,只能凭借体验和感觉来解决问题,这种情况下其实数据分析并没有发挥应有的作用。 留存用户的等级分析 我们可以通过分析次日、7日、30日用户的首日等级变化情况,了解不同质量用户区对于游戏内容和进度的把握情况,进而快速定位是否是游戏内容过难,或者新手教学没有做好导致的结果。 如上图所示,次日留存用户,在首日停留的等级有22%的是在4级,而有13%的次日留存用户直接是安装了但是没有进行游戏内容,与此同时,我们对比7日留存用户的新登日变化情况来进行对比分析: 在此,可以看到,7日留存用户中,等级达到2的用户有14%,而在次日留存用户中,首日等级达到2级的比例是18%,这点来看,7日留存用户的质量的确是高于次日留存用户。从这点来看,围绕游戏本身设计的要素,比如每日游戏时长,可以判断用户的首日游戏体验是否达到了预期的效果。所以这里我们可以去结合用户的游戏时长进行判断。 留存用户的游戏时长分析 作为每一个游戏设计者,肯定会判断自己的游戏时硬核,还是中核,或者休闲,不同的情况对应的游戏时长水平是不同的,比如下面的例子: 结合新增用户等级的变化情况来看,其实我们比较容易看到,用户的游戏时长中有30%的人在0-10s就离开了游戏,针对这点其实可以反映几个潜在的问题,比如网络的不稳定,加载问题,渠道的虚假用户等等问题。针对这款游戏10-30min用户的数量相对占比不高,因此对于那些首次接触该题材的用户来说,新手引导存在一定的问题,用户在最开始的成长遭遇了一些问题,比如初期的赠送奖励不足以让用户继续体验接下来的游戏内容。不过值得肯定的一点事,在这款游戏中,我们可以看到基本上是一个正态分布,相对合理,而在某些游戏中,比如服务器不稳定,或者网络没有解决,那么此时用户的游戏时长曲线就会变成一个偏态分布,诸如下面的情况: 这种情况,可以肯定都是存在较大的问题,游戏核心机制没有有效的吸引住用户,因此在这种情况,就需要去做比较深入分析和改进。关于接下来的问题,在后续的文章中接着说。
前几天在顽石讲了一些3D手游的问题,抽点时间写点东西,简单来说说3D游戏的研发和运营过程中,我们可能面临的问题。 随着智能设备性能的不断提升,很多的手游产品主打3D牌,一直以来,无论端游,页游,还是手游,玩家对于3D的追求都是一个永恒的话题。然而在实际的研发和运营过程中,可以看得到,我们犯下了太多的错误,而这些错误其实可以避免,我们争取是早发现早解决。在这个过程中,如果利用数据分析来分析解决问题,我们的效率会高出来很多。以下将列出几个如何通过数据分析来发现移动3D手游的特征和问题。 在开始描述之前我们要罗列一下在分析3D游戏的特征和问题时要关注的一些方面 转化率低 这里所指的转化率是指玩家注册量/玩家安装量,之所以这么定义的原因,在于只有当玩家正常下载并安装了,这样的设备激活才具有效果,而在设备激活到转化为新玩家的过程中损失的数量很大(超过40%),所以我们需要通过对转化率的衡量了解用户获取的第一个环节是否存在问题。 这里我们对比了3D产品和非3D产品的转化率表现,可以看到非3D游戏的转化率平均达到78%,而3D游戏的转化率在47%也就是说,这个过程中,3D使得在无形过程中,损失了30%的玩家数量。 究其原因,主要集中在占用资源过大,渠道投放失策,适配没有解决,游戏不能正常运行等等,涉及到这些,其实我们要从内存优化、图形优化、资源优化等方面入手。 其实,除了以上的内容,有些问题是最容易被我们忽略的,比如服务器的稳定性,网络连接的通畅性,这些问题很细很小,但是却是我们最容易忽略的因素。在很多时候,转化率上不去的根本因素就是网络问题没有解决。 分辨率高&wifi联网密集 3D游戏主打的一个特色就是画面和表现力,也是因为这点在用户群的定位和表现上会出现一些比较明显的特征差异,如图所示,分辨率分布相对而言,以大屏幕手机居多,同时wifi联网占比居高,这两点其实是大家可以想得到的,不过从数据统计的角度来看,这可以帮助我们快速的定位我们目标玩家和产品之间的关系。 设备偏向高端 由于3D游戏的特殊原因,玩家的设备要求其实存在很高的要求,当我们作为研发啊,如果了解了目标玩家的设备情况,应该率先去解决这些主流设备的适配问题,在这点上,其实也是可以帮助我们去制定渠道投放的策略,因为目前一些渠道可能不是很适合你的这类游戏投放。 客户端式的更新 这点其实问题还是最大的一类问题,由于不支持脚本更新,所以很多的时候,一旦要更新内容,玩家往往要下载新的客户端,这对于玩家的成本是很大。当然这只是其中一个方面,还有一点就在于,一个游戏CP本身要维护的渠道很多,有些情况下可能忽略更新某些渠道的安装包,这种情况下,也就意味着,你不能再这个渠道获得更多的用户资源,因为渠道包已经出了问题,如同下图一样,一段时间内的留存率出现了下滑。 与此同时,可以看到的是,玩家的活跃水平历经了半个月之久的时间才恢复回来,所以说影响是很大的。 安装包的大小 针对这点,其实每一个cp尤其注意,但是往往做不好,因为太大玩家不愿意下载,太小,玩家不相信该安装包的真假,所以说,这种情况下,选择合适的安装包大小成本为了一个很关键的问题。 如图所示,渠道包经历一次压缩调整,用户的获取和活跃都有所增长,不过这对这一点,需要张弛有度,还是要基于数据和用户反馈,不断优化和调整策略。 以上就是3D游戏的几点特征和问题总结,后续还将继续总结和分析。3D手机游戏在未来一定会成为越来越多的CP的研发选择和重点,不过在这个过程中,还是要注意一些很细节的问题,尽管和隐晦,但是对于游戏的活跃,收入影响是很大的。而针对这些问题的处理,分析,解决是需要依据数据作为支撑的,当然了一些固有的经验也是可以帮助优化的。不过值得说的是,这些经验就是源于不断的分析,总结的出来的。
关于留存率的文章,现在很多,以下要说的内容实际上算是对于留存率使用的一个小归纳。这篇文章所要阐述的内容其实早在去年就已经形成了,一直没有足够的时间组织起来,因为我觉得虽然简单,不过影响的范畴和可扩展的领域很多。值得去思考和借鉴。 留存率存在三个原则 留存率原则之一 不同用户群之间的留存率趋势是一致的 针对这点,其实可扩展的内容很多,比如不同渠道之间的用户留存趋势是一致的,不过不同渠道之间的留存率水平是不一致的,这一点在前一篇文章中已经有涉及过,这里不详细讲述。不同用户群,渠道的留存差异可以作为衡量玩家使用粘度的一个量化。 而说到这点,我再多说一下,往往我们的游戏会有推广时期和自然增长时期,我们可以对比推广时期和自然增长两个时间的用户群的留存率表现,这点其实作用很大,如果我们只是使用一个次日、三日、7日,其实很多时候会规避问题,因此,也建议在做留存率分析,多多进行不同时期的留存率对比,而这点可行的基础就是留存曲线整体上的趋势是一致的。 留存率原则之二 不同产品之间的留存率趋势是一致的。 这一点对于开发者而言,也是具有很大意义的,因为每个公司不止研发一款产品,在系列产品中,用户的留存表现可以帮助开发者理解自己的产品质量,此外我们可以把同一款产品的两次更新当做是两款产品来看待,这样也帮助我们比较前后版本的粘性和质量情况。 再者,留存曲线本身就存在流失期、蒸馏期、稳定期,通过横向,纵向的对比,帮助开发者尽快找到玩家的生命周期长度。同时,这条曲线其实对于渠道而言,也存在很大的意义,因为同一个位置,什么游戏的质量更好一些,我们就可以通过对比多款产品的留存曲线表现,来进行决定,当然这只是渠道在量化最佳位置收益最大化的一个数据分析点,不止于此。 留存率原则之三 不同日期之间的留存率趋势是一致的 这点我想是大家最不陌生的,也是我们常用的,如果我们只是每日孤立看待留存率,效果并不是很明显。 对于不同日期的留存率衡量不是只限于两日,也可以是自定义时间点,自定义用户属性(比如时间段内,启动至少3次,这部分在后续文章会说),总的来说,就是要说明,不同时期的用户留存的变化情况,这有利于我们把握不同时间点的推广和投放情况。
学分析论坛|专注于游戏数据分析 针对本文的相关的讨论,请移步http://www.xuefenxi.com/forum.php?mod=viewthread&tid=112&extra= 上周六做了一个演讲,关于渠道、数据、运营的内容,今天开始,针对演讲的一些内容,有针对性的阐述一下。不过既然我是一个数据分析师,自然还是从数据分析角度来看待这个问题,在后期的文章中,我会加入一些案例,帮助理解。 渠道是最有效的获取潜在用户的方式 渠道存在海量的用户资源,并服务于开发者。渠道本身聚合了大量的用户,进而形成平台,成为了平台,就必然存在“货架”,而这些货架的位置是有限的资源,但是开发者对于资源争夺和需求确实强烈,这点使得渠道货架的位置变得无比重要,再者,开发者也一直认为获得了最佳的位置,就会带来不错的收益,基于此点认识,导致了渠道投放成本的增加,而渠道在寻找最佳适合渠道的产品征途上变得异常艰难。其实,开发者没有找到适合自己的最佳渠道,渠道没有寻找到最适合自己用户资源的最佳产品。 最佳渠道是让产品利益最大化的方式 最佳渠道可以精准定位用户,并建立忠诚关系。说到这里,其实有两层含义,第一点,作为渠道而言,希望自己飞用户资源是最契合产品需求的,进而对于自己用户资源的把握和PUSH,决定开发者认定这个渠道是否对他是有价值的,第二,本身渠道的用户与渠道之间是否存在稳定的关系,是否对于渠道存在一定忠诚度。如果本身渠道用户在渠道中没有忠诚度,比如长期回访用户很少,谈不上忠诚度,进而即使用户从渠道了解产品,那么留存率也会受到影响。 品牌的力量 作为一个渠道也好,作为产品也罢,其实是需要品牌的。现在看到很多产品都在挣快钱,先过冬再说,这点不能说是错的,但是绝对也不是对的。 渠道需要品牌建设 针对这点来说,最简单的一句话,渠道需要回头客。一般而言,作为玩家或者普通用户,对于每一个渠道都会产生一个固定的认识,这个固定认识的其实就是品牌的影响,如果你的渠道总是提供的一些带有捆绑软件的渠道,那自然用户对于你的认识是不好的。这点就有点像那句话,今年过节不收礼,收礼只收脑白金。当用户一旦形成了对于某一个渠道的认识后,要想去改变是很困难的。 说到这里,可以多说一句,如果你的渠道其他特性没有,但是就是下载速度比别人快一倍,那么当用户体验过后,他对于你的品牌建设和认知的第一步就已经形成了,那就是这个渠道下载速度快,软件包是最新的,干净的。 渠道的品牌建设也许不需要面面俱到,但是可能一点就够。因为用户对于品牌的忠诚不需要太多理由。那么,相应的你会去挖掘自己的渠道具有以下的特点: 产品需要品牌 针对这点,我不想说的很多,在手游这个圈子,至少我们已经看到一些产品是具有这个品牌影响力的,如今交叉换量这种形式的出现,我想一方面是得益于交叉用户,大用户资源,但在背后的,其实还是形成的口碑,品牌在影响最终用户的行为。 要建立数据监控体系? 其实,说到数据分析监控体系,这是两个方面的工作,一方面从渠道而言,除了固有的网站分析那些之外,还要结合自己的商业逻辑设计一套数据分析指标体系,今天再次对这点不展开讨论,其实更多时候,针对这些开发者和产品,他们更需要因地制宜的数据分析模型,来优化渠道投放和策略。 无法衡量,就无法改进 这句话是说给渠道和开发者听的。现在很多时候我们会发现,市场人员往往制定的营销策略是滞后的,不能实施应对市场的变化,其实原因就是在没有监控实施变化,进而进行优化调整,这就导致了成本的不断增加。再者,推广营销人员,对于产品的把控周期太短,如果只是把KPI定在了下载激活,自然用户后续的质量,行为,就和这些人员没有关系了,自然也就不会关注产品本身的一些质量,优化问题,是否你的推广策略适合该渠道的投放。而这就是第二点,我们太多时候忽略了用户下载后的行为,对于渠道而言,当用户下载后,是否再次返回渠道,进行相关关注,是否更新等等,对于产品人员来说,是否推广用户的质量达到要求(次日、三日、七日留存率,新手通过率等等)。 数据驱动下的最佳渠道优化策略 目标定位 什么能做,什么不能做 两方面,第一方面,了解自己的用户到底是什么特点,是否和最初产品设计需求背离;第二点,基于产品的渠道特点是什么,渠道本身特点是什么?为此,需要建立针对目标定位的数据分析内容。 了解渠道与定位产品 获取数据 哪些先去做,那些后做 这点其实更多的把重心放在渠道推广的效应层面上,从宏观了解渠道推广的影响,对比自然增长阶段水平,或者对比往期推广效果。这点和目标定位是存在紧密关系的。 渠道监测 如果说获取数据是从比较粗的粒度上看待问题的话,那么渠道监测僵尸全面了解渠道的表现情况,这里将不仅仅是下载激活,还有留存率,还有付费收益等等环节,推广运营解决不是下载激活,而是带来自然的活跃和收益,并不断增长的良性循环。因为我们了解一下的事实: 同时,好的渠道推广运营也必然了解这条曲线: 关于策略优化和深度推广,将在以后的内容继续阐述。 在此先上图,关于渠道优化的点有如下: 有关于渠道深度推广部分,这里主要会将一个闭环介绍给各位,内容稍多下次再议 我这里有一些如何通过数据优化渠道推广的策略,谨在此向各位展示一下,针对这些的案例分析和描述会在后续的文章中出现。
首先声明,该文章是石头哥的最新文章,力作之一。石头哥是游戏数据挖掘与分析QQ群的群主之一,该文出自他手,在此予以转发,望从事游戏数据分析的各位可以从中学到一二。本来我的博客想来很少转文章的,不过在此,这样的好文必须转起来。 原文地址:http://blog.sina.com.cn/s/blog_c308e7dd0101cp4h.html 流失预测模型在很多行业都有引用到切实的市场运营当中,而接下来就开门见山的说一下游戏行业有关用户流失模型的建立。 目标:关于游戏用户的流失,普片的衡量指标有周流失与月流失,接下来研究的问题有两个: ① 有关付费用户的月登陆流失问题 ② 有关付费用户的月付费流失(付费用户的月登陆流失定义:本月充值的用户在下个月不再有登陆行为。付费用户的月付费流失:本月充值的用户在下个月不在有付费行为。但有可能还有登陆行为,这部分用户被称为沉默付费用户。) 数据指标理解:影响流失的普片判断有:在线活跃、充值或消费活跃、还有玩家账号一些属性(如果细分还有副本的活跃度,某些活动的活跃度,或者社交的数据等)。本文在做流失预测模型之前做以下数据准备: 玩家ID 玩家角色名 等级 注册时间 本月充值总额 本月铜币活跃(铜币的交易次数) 本月绑定铜币活跃(绑定铜币交易次数) 本月元宝活跃(元宝交易次数) 本月活跃天数(登陆天数) 本月登陆次数 本月登陆总时长 下月充值总额 下月登陆天数 以上是从数据库中取出来的基本指标,而进行分析的指标可以在这个基础指标的基础上再进行丰富,例如:每活跃天在线时长=登陆总时长/活跃天数;每活跃天登陆次数=登陆次数/活跃天数;活跃度=活跃天数/本月已注册时长(大家将发现这里衍生的“活跃度”指标在后面的分析会起到神奇的效果)。数据都准备好了之后,现在就开始建立模型,以下用到的是SPSS Modeler软件。 首先采用源节点来录入数据,数据分为两份,第一份为“11月预测12月”数据,第二份为“12月预测1月”的数据。 接着利用“导出”节点导出我们所需要的衍生字段。 因为这里的“下月充值流失”是根据下月是否有充值来判断转换的,下月充值为0即为流失则标志为T,否则为F(“下月登陆流失”同理)。利用导出节点,我们依次衍生了以下字段: 下月充值流失 下月登陆流失 每活跃天铜币交换次数 每活跃天绑定铜币交易次数 每活跃天元宝交易次数 每活跃天登陆次数 每活跃天登陆时长 每活跃天充值额度 活跃度(登陆天数/本月已注册天数) 接下来就是对一些多余字段的过滤还有数据的清理(如包括空值的数据,或者不合理数据,如活跃度>1为不合理数据)。 添加“过滤”&“选择”节点。把无用的字段过滤掉(根据自己源数据来过滤,如这里的下月充值(元宝)字节已经转换成“下月充值流失”字节,所以可以删除过滤掉),点击确定。 打开“选择”节点,模式选择“抛弃”,条件写上一些需要清除的数据,点击确定。 模型之前的数据准备都基本完成了,最后添加一个类型节点。 我们先研究的是下月登陆流失,所以现将下月充值流失角色设为无,下月登陆流失设为目标,接下来就是选择需要预测的模型。这里选择了贝叶斯与C5.0的算法。 贝叶斯这里运用了三种方法:TAN、Markov、Markov_FS 分别添加三个贝叶斯节点,名字分别命名:TAN、Markov、Markov_FS(方便辨识)。 TAN设置结构类型为TAN;Markov设置结构类型为Markov Blanket;Markov_FS设置结构类型为Markov Blanket并且勾选“包括特征选择预处理步骤”。分别运行得到3个模型,最后连接一个“分析”节点,默认状态下按运行。 分析节点运行结果: 大家可以明显发现,运用贝叶斯的三种方法的准确率基本都为83%,这说明三种方法差别并不大。其实在一般预测来说,80%以上已经算比较好的结果了。但是这里将进一步采用C5.0的算法与其比较。 添加C5.0算法节点,默认状态下按运行,得到C5.0的模型,点击C5.0模型节点 可以看到每一个变量的重要性,而“活跃度”这个变量的重要性是最高的。(这也说明了一些衍生字段对后期分析的重要性) 接下来再添加“分析”节点发现准确率达到85%,比贝叶斯要稍微好点。(有一些情况对决策树使用boosting方法或者进行截枝修剪严重性会得到更好的效果) 我们再用C5.0模型进一步进行流失分析,添加“直方图”节点: 选择字段level OR 注册时间,交叠字段颜色选择我们通过C5.0预测出来的“$C-下月登陆流失”字段,点击运行。 用这个方法可以进一步预测分析下月流失的等级分布,或者注册时间分布,或者更多有关玩家的信息,原理一样在这里不再做拓展。到这里流失预测模型已经建好可以投入使用了。接上我们需要预测1月份的数据,我们可以进一步看到这个预测模型在下个月的准确性仍可以保持在85%左右,说明预测的效果还是不错的,之后可以直接进行一系列的分析。(在这里说明一下,一般预测模型会随着时间的推移慢慢减低准确性,所以建议在做预测之前都用前一个月的数据来训练一次模型,从而能让模型保持一定的准确性) 附加一个12月份付费用户在1月份流失的注册时间分布图,大家看有没有发现什么有意思的东西~
题外话 下面的内容是在国外的材料中看到的一个概念,叫做精益分析(Lean Analytics),想来觉得不错,内容虽然不是游戏相关的,不过比较深刻,思想也是不错的。这是其中的第一个case,简单翻译了一下,大家可以看看。关于精益分析,这个和最近这一两年提到的精益创业(Lean Startup)有很大的关系,大家如果感兴趣可以自行查阅资料。近期针对这个问题我会写一下我的体会。 前言 精益创业正在激起企业家行动起来。它聚焦于识别商业计划的最危险部分,进而快速找到降低风险的方法,是一个学习的迭代周期。它的大多数洞见归结起来一句话:不要卖那些你可以做的,而是做那些你可以卖的。而这就需要找到人们需要什么。 遗憾的是,我们很难知道人们想要什么。很多时候,他们连自己都不了解。当他们向你诉说时,往往他们想到的都是你想要听的。更为糟糕的是,作为一个创业者和企业家,对于人们怎么想的,颜色选择,以一种微妙、潜在的方式,施加强大的,几乎是压倒性的先入之见。 不过数据分析能够帮助我们。对事物的衡量,将有助于我们解释。事实上,你将不得已面对一些难以理解的真相。但从此,你不必花费大量时间和精力去构建一些没用的需求。 精益创业帮助组织你的进度,并识别出来你的商业中最危险的部分,接下来快速了解,因此你可以很快适应。精益分析旨在衡量这个进度,并帮助你找到重要的问题,并快速得出清楚答案。 精益分析对于你业务中的每一步都是一个仪表盘,从确认一个问题是否是真实的,识别你的目标用户,决定构建什么,定位对你感兴趣的潜在收购者。他不会强迫你使用数据,但是它居于靠前和居中的位置,使得你难以忽略,并且不至于完全离开方向。 精益分析不是空谈。这其实是精益创业的扩展,深受客户发展以及一些之前的概念影响。在开始做这些事之前,深入理解这些组成部分是很重要的。 客户发展 客户发展,被一个即是企业家又是教授的Steve创造出来的术语。将目标直接指向过时的瀑布式的制造商品和建立公司的方法:“制造它,接着他们就来了”。客户发展聚焦于收集持续的反馈,而这些将对于一款产品或者商业的每一步都施加重要的影响。 Steve首先在他的书中(The Four Steps to the Epiphany)定义了客户发展,并在The Startup Owner’s Manual 一书中加以提炼。他对于创业公司的定义是他作品中最重要的一个: “创业公司一个即是一个组织,旨在不断探索一个可扩展,可重复的商业模式” 精益创业 为了快速有效的发展产品和商业,Eric Ries结合客户发展、敏捷软件开发方法论、精益生产实践,定义了精益创业流程。 率先利用Eric成果的各种规模的新公司或者组织,正在瓦解或者创新。总的来说,精益不再是廉价和小规模的代名词,而是削减浪费,并快速运作,进而对各种规模的组织都是有益处的。 精益创业的一个核心概念就是:创造---衡量---学习,在这个流程中,你可以做几乎每件事,从建立认识,到建立产品特征,到发展渠道和市场策略(如图1示)。在这个循环中,精益分析聚焦于衡量环节,对于一个组织而言,在这个循环迭代速度越快,就向正确的产品和市场方向迈进了一步。如果衡量的越快和越好,就愈发容易成功。 这个循环不只是提升你的产品。也是一个良好质量的检验。开发最少的产品必备需求是Eric所称的Innovation Accounting的一部分,旨在帮助你客观的衡量你正在做的。精益分析就是一种可持续量化创新的方式,使你能够越来越接近真实的情况,换句话,就是事实本身。 案例研究 Airbnb 摄影-在增长中增长 Airbnb取得了令人瞩目的成就。在过去的几年里,这家公司在旅游业俨然变成一个强大的集团,它提供给旅行者一个可选择的酒店,提供不同的要租房间、公寓、住宅的人群,以获得收入。在2012年,旅行者使用Airbnb服务预订超过了500万个晚上。但是这家公司刚开始很小,它的创始人,是个精益创业模式的信徒,采取一种有条不紊的方式获得了成功。 在2012年的SXSW,Joe Zadeh,Airbnb的产品主导者,分享了公司成功的经验。他聚焦于其商业的一方面:专业摄影。 他以一个假设开始:”有专业摄影的业主能够带来更多商业机会,而且业主将把专业摄影作为一项服务。“而这是创始人的本能直觉,他们认为专业的摄影能够创造商业机会。但是,他们并没有彻底实施,而是做了一个最低限度可行性产品(MVP),进而可以快速测试他们的假设。 对他们MVP的原始测试显示,专业化的摄影一览表可以获得两倍到三倍的预订,相比市场平均水平。这验证了他们的假设。同时也显示出,业主对于从Airbnb通过摄影而获得订单,表现了极大的热情。 在2011年的中后期,Airbnb实际上一共有20个摄影师为业主照相,也就是在同一个时期,我们看到在预订数量上呈现了最著名的曲棍球式增长。如图2 所示。 事实上,Airbnb实验的更多。他在图片加上水印,以显示其真实性。一旦租客或者潜在租客有需求时,它就获得客户服务,进而提供专业摄影作为一种服务。这提升了对于照片质量的要求。该方式的每一步,这家公司都去衡量一下结果,并调整作为必须的部分。他们追踪的核心指标就是每个月拍摄数量,因为这已经可以证明随着他们的MVP有更多专业的摄影,就意味着更多的预订。 到2012年2月份,Airbnb每个月拍摄5000次,并持续加速专业摄影项目的增长。 总结 Airbnb的团队对于好的照片能够提升租费有着良好的直觉。 通过MVP,他们验证自己的想法,花尽可能少的力气去测试,进而提供给他们一个有效的结果。 当实验呈现一个好的结果时,他们开发必要的部分模块,并推向所有顾客。 要学的分析技巧 有时候,增长就是来源于业务当中某一个你没有注意到的方面。一旦当你发现你有一个很有价值的想法时,快速决定如何测试,使用最小的投资成本。事前还要定义好何种情况下是成功的,并了解如果你的直觉是对的,接下来,你要怎么干。
今天说到的这个题目,看起来有点大,不过作为游戏数据分析师,早晚都要设计和分析数据指标。在《移动游戏运营数据分析指标白皮书》(http://www.xuefenxi.com/forum.php?mod=viewthread&tid=2&extra=page%3D1)中,提炼了一些针对游戏数据分析的指标,这只是分析工作的第一步,还要有效的组织起来,并按照需求进行细分,即按需进行二次设计和分析。白皮书的指标旨在规范大家对于一些最基本最常用概念的认识和学习,有所领悟,有所发挥。 而今天说的是在当我们要在之前的基础数据基础上进行二度的分析,该如何把握设计和分析数据指标?首先,先引用一句话: “对于驱动用户体验决策而言,有意义的成功标准一定是可以明确地与用户行为绑定的标准,而这些用户行为也一定是可以通过设计来影响的行为” 用户体验要素--以用户为中心的产品设计 书籍下载 http://www.xuefenxi.com/forum.php?mod=viewthread&tid=3&extra=page%3D1 看到这句话,其实感慨很多,尤其是那些数据分析经验非常丰富的人,其实应该非常认同这句话。数据分析以解决问题为第一要义,然而很多新人看到或者设计了很多很复杂的指标和算法进行问题的分析,其实这个时候,如果仔细审视一下就会发现,我们设计的标准与我们的分析和解决问题的目的是背离了,尽管有了很好的设计和数据,但是问题依旧是没有解决,而这样的指标就算不上一个成功的指标,为什么DAU/MAU这样的指标成为了大家比较认可的标准,因为这是可以拿去衡量游戏是否具有比较好的粘性的标准。 但是,上述我们谈到的只是我引用的这句话的前半段,我说到了,数据分析要解决问题的,因此指标绑定的用户行为,经过分析后,如果不能通过我们的设计者予以改进,并衡量前后改进的效果,那么这样的指标就意味着价值不大。作为一款产品,我们的确需要知道用户是什么样的,有效的数据指标设计,能够帮助我们立体展现出来我们用户的行为和画像。但是往往数据分析不只是告诉你用户是什么样子的,还要针对这些特征,采取有效的措施和运营手段,成功的标准最后其实帮助我们去挖掘和发现,我们的措施和设计,是否最后改善了效果,成功的标准不仅仅是绑定,更是实施。 对于数据驱动的游戏运营而言,有意义的数据指标一定是可以明确绑定游戏问题的标准,而这些游戏问题也一定是可以通过研发、设计、运营来解决问题的。 不过,最后还要说一点的是,虽然我们需要成功的标准来帮助我们去改进产品,做好运营,不过再成功的标准也只是一个一个孤立的数据指标点,这样的结果,就容易造成我们看不到问题的全貌,而造成错误的分析结论,因此,切记,必要的时候要记得退一步。
记得大概去年的这个时候给自己做了一个2011年关键词,恍惚间2012已经走过。过去这一年发生了太多的事。在cnblog已经待了一年半,这段时间结识了太多的人,纪录下了很多很多的点滴,当然更多的因为时间和精力的原因,有些没有写出来。这几天没事看看自己2006年以后的一些文章,觉得蛮有意思的,几年过去了,不变的是一贯的坚持和热情,在变的是自己把更多的经验传播和分享出去。2012年在移动互联网的加速发展中,我也加速拓展和把更多的经验传播出去,与此同时也在不断学习和实践。这也许是数据分析在未来爆发和释放威力的元年。很庆幸自己这几年一直坚持自己的数据道路,尽管辛苦,尽管诸多非议,但我依旧在坚持。伴着数据科学的发展,希望自己以及更多的人都能在这里找到自己的空间和机遇。 12年因为几个关键决定使自己清晰了未来的道路,在此也得到了我的妻子的大力支持,她为此的牺牲和努力让我不断努力走下来。还有的父母,岳父岳母,他们对于的鼓励使我在这条路上走的坚定,坚实。 还有我的boss,我的同事,在这条路上没有他们的共同努力,我一个人是撑不下来的。集体的力量还是强大的,数据这条路上不在孤独。 除了这些,还有一群和我有一样梦想的年轻人,虽然我们彼此很多人没有见过面,但是,因为数据分析我们走到一起。一路上没有大家的陪伴、建议、批评、热情,很多事都做不下来。12年的事好多,几句话可能真的说不完,以后可能更多的时候是自己给自己做一张关键词图片,总结过去的一年。 新一年已经开始,花更多精力做好数据分析和研究,抽出时间陪陪亲人,努力做好游戏数据分析论坛。13年愿自己做出更多的成绩,愿公司发展更快更好,愿家人生活的更幸福。 已经起航的2013年,多了一个重要的伙伴,就是我的论坛上线了,希望来年的这个时候,我们能够结识更多的人,在数据的道路上坚持下来,走下去。 www.xuefenxi.com
最近在做留存分析时,遇到了不少的情况,也经常会有人问我,为什么我的游戏突然次日留存率降了一半。如果留存率是单单作为一个简单的指标的话,那对你价值还是蛮有限的,今天就和大家说说一个case,这是不久前解决掉的问题,相信会帮助不少人。OK,这也将作为留存率分析的第一篇文章,后续在和各位分享。 事件描述 统计发现某三日的次日留存率较之前和之后下降了50%,但是在DAU整体趋势上没有显示的变化。 但是通过查看安装量,用户注册量,发现安装量没有明显的波动,但是用户的注册量骤然增加。下图是系统统计的截图 我们再看一下用户注册量 原因分析 由以上的数据表现来看,初步断定是两种情况: 新开服务器 老玩家刷号 针对第一种情况,我做了以下注册和安装的趋势图 由游戏官网得到了游戏开服的时间表 图中除了1月6日的波峰是由于游戏做了软文投放,刺激了游戏用户增长外,其他的红圆圈(除了1月16日)均是在周末开新服刺激新用户增长的,工作日所开的新服并没有出现波峰,比如1月3日,1月7日,1月9日等等。该游戏在1月18日开设新服,根据刚才的经验,1月18日不会出现较大的波峰,但是从1月18日~20日出现一个较大的波峰。即排除了工作日新开服务器造成的影响。 那么也就是剩下了第二种情况,即老玩家存在刷号的可能性。那接下来,我们需要做两方面的工作: 继续查细分数据,如注册活跃占比,注册安装转化率,玩家单日游戏次数,留存趋势表现数据 继续查找数据有问题期间的运营活动情况,便于问题定位。 这里我们先说第二点,我在该游戏论坛发现了一个活动: 新服开放后,新建帮派在开服后前3日,召集10名玩家加入其帮派,即送帮主大量金币。 由此,基本确定问题出在了此处。不过我们还要从另一层面来看当时所在时期的问题,即从数据层面来看。 单日游戏次数 明显发现18~20日的单日游戏次数增加明显,这是小号增加,刷号的一个征兆,因为刚才我们看到了这个时期的安装量没有增长,只是注册大幅增长。 单次游戏时长 单日游戏时长从一直保持的相对平滑和稳定,但是在18~20日三日,出现了明显的波动,即用户单次游戏的时长不高,即存在大量低级账号。 留存趋势表现 留存率能够我们快速定位问题 是否是某一个新登用户质量的问题; 某一日或几日外部事件导致的留存变化。 如果是用户质量问题,那么该批次用户的新登次日留存率、二日、三日等留存率都会偏低; 如果是外部事件导致的,那么就是不同批次新登用户在某一统计日的留存率会表现的都很低; 我们先来看第一种情况: 次日留存率的前后变化 很明显的发现,次日留存率只是在18~20日三天下滑的很明显,三天之后次日留存率恢复正常水平。 接下来,我们再看看18~20日的留存趋势与21日之后的留存趋势表现 这里我们可以明显的发现,18~20日的留存曲线趋势表现整体上是低于之后的21~23日留存曲线的趋势表现,即18~20日的新增用户质量不高,因为大量是老用户刷新号登录造成数据增长,这样的用户实际上活跃度是有限的,即为了得到利益,使用小号作弊获得奖励的行为,而在数据层面的表现是很难看的。 换句话来说,这是运营活动设计的有问题,间接的影响了各项数据的表现。 至于第二种情况,这里就不说了,后续的文章中,会说到这个问题。 总结 这里就很简单了,留存率的分析绝对不是孤立的,也不是就看看可以了,驾驭留存率分析,能够帮助我们解决很多运营的问题,比如今天讨论的因为运营活动设置的比较事务导致数据的下滑,或者因为外部事件的干扰造成了数据的下滑。单一的留存率指标其实意义不大,但是综合利用其他指标,组合定位、分析问题,就显示出了它的作用。在后的关于留存率的文章中,会继续的来说,如何进行留存率的分析。
在移动互联网的圈子里,凡是做游戏的应该都很关注次日留存率,一直以来我们也把次日留存作为衡量一款游戏品质好坏的标签。这点就像你在一个淘宝店买到一件商品后,下次是否继续去购买完全取决于你第一次购买的体验和购后的反馈。对于一款游戏而言,也更是如此,游戏首先是一款商品,其次才是个人思想的体现。不同的是,我们先去充分体验商品,再去决定是否购买和消费。 在实际的分析中,我发现,品质的确对于次日留存存在一定的影响,不过从运营层面来说,给予次日留存率的影响的确是不小的。只是这种影响是有好的,有不好的。次日留存率的表现游戏测试的初期确实一定程度代表了品质、游戏引导设计、玩法等问题。不过当游戏进入常态的稳定阶段,我们不可能对于游戏做大幅度的引导优化、玩法改进。那么此时我们继续关注次日留存率要分析什么,解决什么问题? 最近接触了很多卡牌类的游戏,也做了很多关于留存率的分析,今天要说的问题,就拿卡牌类的游戏作为一个例子来说明吧。卡牌类的游戏还是主要讲究内容的,笼统的可以说成是PVE,这类游戏玩家不需要贡献太多的数据,就能了解游戏的核心玩法和内容,也就是说在短期玩家就能了解游戏主要的内容和玩法。因此,对于这种游戏如果想要保持较好的数据和收入,本身游戏品质自然是不用多说的,比如美术风格、体裁风格、UI易用性等等。除此之外,还有两点比较重要的,就是游戏内容的延续性和运营的不断刺激。而这两点与次日留存率有非常大的关系。 游戏内容的延续性 刚才说了,这类游戏是以内容为主,核心玩法比较简单,然而,我们还是会发现好的游戏在内容和玩法的结合上的确做得到位,这点反馈就在于玩家的次日留存率上。玩法在这类游戏中其实就像人体的骨骼,而内容就是人的肉体,不同的填充,决定了玩家是否会持续下去。实际上,就是用内容制造玩法和成长。由于内容存在一定的连贯性,因此尽管玩法是简单的,但是可以通过内容的生产和挫折的出现,制造新的玩法和发展方向,也就是在骨骼上把肉填上去。 这么说下来,如果内容制造玩法和成长,那么以内容为驱动,带动玩家成长,就会形成粘性和动力。最简单来说,就是玩家很容易继续游戏下去,因为玩家对玩法早已熟悉了,恰恰对玩法的熟悉刺激了玩家自信的膨胀,此时玩家想通过自己的驾驭和游戏能力在不同的内容、副本任务间穿梭,寻求更大的成长和满足感,自然的就会不断的通过重复性的玩法需求更刺激的内容。 而以上说的这些东西,其实对于卡牌游戏而言,在第一次游戏体验中,就能感受出来。因为内容和玩法在最初的体验中,已经展示出来了,第二天是否选择回来游戏,就取决于,是否能够通过内容来驱动玩家继续重复这一玩法,并体会到实际的成长和自信膨胀。 游戏的运营 这里说的运营其实更多的是根植于游戏内的游戏活动,粗浅的可以理解为游戏内容的延伸。好的活动运营确实能够在游戏的活跃上起到比较大的作用。还是拿卡牌来说,玩法和内容过早的呈现,很容易让玩家产生疲劳,想要解决这个问题,就要提升玩家的期望值。说期望值有点虚,实际就是一种内容破解的需求。在卡牌游戏中,玩家需要更好卡牌,而更好卡牌的获取是需要通过更好的关卡和等级的,这点大家都是了解的。问题在于要得到这些就要消耗更多的资源,而这些资源是可以参与活动得到更多的,这些给予可以作为一些长期累积性运营活动根植于游戏,逐步培养玩家的游戏兴趣和粘性的。其实,不是玩法玩家期望值,而是这种有利可图(钻空子)获取一些资源帮助自己成长和破解更多的内容,刺激用户返回来继续游戏。 以上说的比较肤浅,废话比较多,以后慢慢把一些新的体会再发上来吧。不过有一点确信的是好的内容和运营活动,的确是在留存问题上可以拉动很多的。这里不是要放大留存率作用,作为一个衡量来看,至少是有用的。关于留存率的问题,我还会接下来更新一些内容的。
在数据分析中我们经常会使用各种类型的转化率分析,在游戏数据分析中,我们对于转化率的使用更为频繁,比如渠道分析,玩家购买流程转化率等等。在实际使用过程中,总结出来了四种转化率的形式,这里简单说说。 回炉型转化率 所谓回炉型转化率指的是在转化的第一步到第二步的转化过程中就出现了较大的障碍,从第一步到第二步,转化率变化比较大,这种转化率形式的出现,就需要回炉进行问题分析和处理,这种类似的转化率比如在渠道用户推广时可以作为一个渠道用户质量把控的分析方法,同时,也是检测游戏本身在新用户导入时的新手引导等功能的检测。 常规型转化率 如上图所示,整体来看,不同步骤之间的转化率的变化是比较缓慢的,并没有出现某一个步骤的大幅下滑,且整体的转化率趋势保持的还是相对平稳的,此种就是常规型的转化率。一般来说达到这种类型的标准就很不错了。由于转化率的这种模型结构在很多地方都能用到,所以这里不具体举例子来说明这个问题。 优质型转化率 所谓优质型转化率就是在常规型转化率的基础上表现的更好一点,只是在几步之间的转化损失更小一点,即下降速度更加缓慢,在很多涉及到转化率的分析上,这种类型的转化率属于优质型的转化率。但是一般而言是达不到的。 问题型转化率 如上图所示,所谓问题型转化率,往往问题都是出现的比较怪异的,一般而言,都是前几步转化率都比较理想,但是这其中后续的某一步出现了问题,这种落差都会比较明显,在转化率表现上,就是突然某一步的转化率下滑较大,这种形式的转化率一般会出现在购买流程转化率分析,某一个事件的转化过程中也会出现这种下滑。 这样的转化率问题定位其实比较快速和直接,能够马上进行修补,不同于回炉型的转化率,这种转化效果只是需要针对某一步进行优化就可以了,而不是全局性的优化。 以上就是四种转化率模型,这里只是简单的描述了一下,如果要深刻理解,还需要进行具体的数据分析和实践才能搞定这件事。
写在之前的话 2012年12月15日,有我参与的《移动游戏运营数据指标白皮书》对外发布了,在参与和规范指标的过程中,我思考了很多很多,这其中对于大多数人来说,最大的疑问莫过于,为什么要去做这件事。今天有关于这个问题的答案将在下文中进行阐述。 如果有需要白皮书的可以在此下载:http://vdisk.weibo.com/s/kPSC7/1355760139 从这次发布的情况来看,大家对于这件事还是给与很大的关注和热情。这里一并表示感谢。还有几位群中好友专门提出了意见,大家也说了对于这件事的看法和意见。这里我来说为什么要去做这件事,以及对于大家一些问题的回答。我想从几个方面来说吧,第一点从数据分析师的角度来看待这个问题。 作为一名数据分析师,当然我们的第一要务是要做好数据分析,解决问题提出解决方案为先,从这个角度来看,不管你有什么样的指标和定义,只要是对于使用者本人是有效的就可以了,因为我们以解决问题为先。这点是是绝对没有问题,然而换个角度来思考问题,如果你是一个刚刚要进入这个行业的新人,那你如何去学习和建立对于一些基础数据标准的认识?从我自己的经验来看,度娘和谷歌绝对是一个很好的东西,但是往往是在我们需求时才会去使用,对于我而言,现阶段他们对于我的作用很大,因为我建立了对于基本指标的理解和运用。但是对于新人而言,这个过程有点痛苦,因为互联网给与我们的资源太多,太多信息涌入,但你又缺乏基本的筛选和辨别能力时,你只能有两种选择,放弃或者全盘接受,如果全部接受,对于新人来说,就完全不懂得什么是正确的,什么是错误的。所以作为数据分析师的第一个角度,我们解决如何让更多新人有个基本和正确的对于入门阶段数据分析的理解和学习。作为数据分析师的第二角度来说,这是一个学习和促进的过程。 这话有点大,实际来看,每一个数据分析师都有自己的方法和定义方式,这点是没问题的,但是往往在一起交流学习是缺乏一个基本的标准,信息是不对称的。所以我们需要尽量说一些同一个规范的话,但是我们不要把每个人分析和使用数据指标的习惯改变,只是,游戏数据分析在最大的层面和宏观角度是需要这样一个规范的。说到这里,不得不说我之前一篇关于数据分析师的尴尬的文章,在研发运营中间生存的分析师,其实如果要突破尴尬,就要使研发和运营都来关注和使用数据分析,因此,界定一些标准帮助研发理解如何处理提取数据,数据如何重要,对于运营来说,他们更希望用数据解决问题,完成kpi,然而往往基本数据都没有建立完善的理解。以上是的有点远了,下面从老板的角度来看这个问题,每一个老板都是要了解自己的游戏水准和水平,因为需要和行业有个比较,老板的眼里面不管有多少指标或者你完成了多少分析,他们只关心,游戏人气怎么样,收入如何。这点我觉得说的最露骨,但最现实,所以,我们必须教育老板如何用数据来看待这些问题,那些数据可以看,如何和行业能建立信息对称的分析和了解,这就是指标的问题。数据分析师有很多指标,那些可以拿出来在行业大部分情况下可以使用和比较的,这是很重要的事情。在从行业发展来说,移动市场发展可以说非常的快,快的超出想象,作为一个新兴的市场环境,其实更需要在发展初期就要很好规范环境,不然,几年过去了,依旧是蛮荒生长,以至于大家说的话办得事不是同一个规范和标准下实现的。再者,现在更多的企业想突破向海外市场进军,如果还是不能在这个基本的问题上建立与国际统一的规范,即使走出去,那还是步履蹒跚。ok,最后来说下,还是要感谢几位热心博友和朋友的建议,受益良多,之前提到白皮书一些定义术语有些不是便于新手理解,已经了解,之所以还是坚持这样做的原因,是因为现在大部分人都是这样的叫法,白皮书的界定是尽量用最小的代价帮助大家理解和明确这个术语的标准定义,在后续的修订版和系列内容上继续完善和改进,希望各位继续提出意见和参与。这里一并表示感谢。
最近和几个人聊天,大家对于活跃都有着自己的看法,此外因为一些标准的问题,不熟悉分析术语的很多人把活跃,留存等很多信息都搞混了.后来发现这是一个很现实的问题。在一些我 看来不是问题的问题都变成了问题了,因此在此特地说说活跃的事,帮助更多从事游戏数据分析的小白们成长。 究竟什么是活跃?在日常与外界合作过程中,我们经常日活跃、周活跃、月活跃等等信息,貌似听起来比较简单,但是真正如果自己实施操作统计数据时却发现自己又不懂这些定义,因此作为一些分析师、甚至开发人员就会发现很难去操作。以下我将描述三个活跃的定义、使用方式、分析方法以及注意事项,限于篇幅今天就说说日活跃的分析使用。 日活跃 统计标准 日活跃的统计标准有很多种,在RPG中有日活跃角色数和日活跃账号数。这类游戏由于存在创建角色的问题,所以一般会分成两种统计方式。一般比较多见的是日活跃账号数,可以认为就是日活跃用户数。当然,很多游戏室不存在这样的多角色概念,因此通用日活跃账号数来作为统计的标准为最佳。 当然,还有一种统计标准就是设备的唯一标示,比如MAC,这样统计日活跃设备数量,不过价值相对不大。 定义标准 统计日登录过游戏的账号数,此处要去重。 比如某日有1000个账号登录过游戏,总计登录次数为1600次(因为存在某些账号重复登录游戏),那么该日的日活跃账号数为1000。不要小看这个解释,在实际操作中,经常会出现问题,例如我们在写SQL语句提取数据时就应该加上distinct 进行去重操作: Select count(distinct passportid) from playerlogintable 如果没有加上distinct 统计的就是所有登录玩家的总计的登录次数,这样就会出现大的问题。 日活跃能分析什么? 单单一天的日活跃其实只能与前一日或者历史同期做一个环比或者同比的分析。但是日活跃的能发挥的作用远远超出你的想象。 核心用户规模 核心用户规模的衡量其实和产品周期结合起来来看,在大部分游戏中,日活跃大概的构成可以分成以下的部分。 其中,新登用户对于日活跃用户的影响是最大的,一般新登占比达到40%,而这个比例其实是可以判断游戏核心用户规模的依据之一。 从上图的构成来看,如果新登用户在后续不断转化稳定的老用户以后,那么老活跃用户的规模是在不断增长的,同时,如果新登用户的注入水平保持不变,这样来看,游戏的核心用户有规模是在增长,并且新登用户所占的日活跃百分比是在下降的;如果新登用户注入水平也在增长,且不断转化为老用户,即核心用户规模也在增长,那么新登用户所占百分比会在一个区间稳定的变化的。 刚才所提到的核心用户规模,之所以使用日活跃用户来衡量,原因在于,以每日作为一个衡量的单位比较客观反映用户的游戏积极性,以日作为统计长度,恰好符合用户游戏的最短的周期性循环。 那么在日常的分析中,我们可以简单计算一个周期内,每日新登用户和活跃用户的关系比例,看一个长期趋势,一定程度上反映了目前核心用户的规模增长情况。 那这里有人会问,怎么看待回流用户的作用呢? 实际上,回流用户对于日活跃用户的贡献比例是极低的,但是该部分的贡献却不能够忽略,因为在重大节日、渠道推广等各种营销手段上线以后,会对于游戏日活跃产生一个很大的贡献值。但是一般而言,该部分的贡献比例比较低。 说了这么多,那么老用户和回流用户的定义究竟是怎样的?这里只给出参考的标准: 回流用户:统计日登录游戏,但是之前7天未登录过游戏的历史用户(所谓历史用户就是非新登用户,历史上登录过游戏的用户) 老活跃用户:如果粗略的计算,可以如下计算 日活跃用户数-日新登用户数-日回流用户 当然如果要精确衡量老用户规模,可以给予老用户定义,例如: 统计日登录游戏的用户,在此之前7日内再次登录过游戏(注意此处没有严格区分新登用户的情况,即也把新登用户的次日登录的部分计算为老用户,可按照实际需要提出此部分对于老用户的影响)。 下面我们通过几个曲线来简单说明一下怎么利用DAU分析问题。 首先我们要得到划定时间区段的DAU和DNU的曲线图,如下图: 在该图中,我们DAU和DNU的走势基本上是一致的,DNU对于DAU的影响还是比较大的,但是随着后期波动的减小,我们发现从106天到280天,两条曲线是呈现缓慢的下滑趋势的,但是这不足以说明问题,仔细观察,我们发现夹在两条曲线之间的面积是逐渐缩小的,而这部分面积就是DAU中除去DNU的部分,即我们可以认定是老用户的部分,这个面积的缩小,意味着用户的流失加剧,活跃用户的控制不得当,此外,也可能是新用户在短期内留存率不高引起的,那就需要结合留存率来看问题了,这里不讨论。 在发现上述的情况后,我们可以使用DAU-DNU的差值做一条曲线来进行分析这个问题。如下图所示: 可以很明显的看到,这个差值在逐渐走低,也就是说用户的活跃度是在下滑的,这个下滑可以认定是后期渠道导入用户质量不高造成的,也可以是产品本身的用户周期问题造成的。但是断定一点的是,这个时期,需要紧急的拉动用户规模增长,因此,可以看到,随后进行了两次相应的拉动,其规模有所提升。 此外,我们还要看一下新用户所占的比例曲线,如上文所述,基本维持在40%的水平上,但是有一个值得关注的是,当处于一个相对的稳定期时,即使有大范围的推广和拉动新登增长,那么这个比值的变化也不会太剧烈,唯一剧烈的原因就在于,原本游戏的老活跃用户规模就在下滑,流失较多。 当然了,用户的流失、产品的粘性等等都可以通过对DAU不同角度的解析获得相应的信息,这点也是要和其他数据结合来分析的,比如次日留存率,用户流失率、启动次数、登录时长分布等数据,找出来DAU中的虚假用户,例如1-3s用户非常多,那么在正常的网络和设计情况下,这种数据就可能是很多假用户造成的,也就是作弊行为。 再比如的情况,我们可以通过事件管理,区分推广和非推广时期的用户增长对DAU的影响,比如自然增长时期的新登用户对DAU的影响,判断DAU的质量,渠道的质量;或者推广时期的新登用户对DAU的影响情况分析。 如果需要的也可以结合用户的登录习惯,比如登录次数,登录天数等等数据进行忠诚活跃用户的阈值确定,以此来保证DAU的质量。 其实在DAU的背后,隐藏的问题和分析的要素很多,这个也是需要结合自己的业务需要来进行的,这里只是给大家提供一个分析的思路和方式。至于具体的问题,还要结合具体需求进行分析。不过话说回来,DAU的解析离不开细分数据和其他数据的支持,但是也是不一定一直细分进行数据的分析。因为有一些因素不是靠细分数据就一定能够得到的,还要经验积累,有关这部分的分析参见: http://www.cnblogs.com/yuyang-DataAnalysis/archive/2012/02/08/2303909.html
早先我曾探讨一个关于流失分析的整套流程问题,也说了流失分析是如何的重要,大概这种解说是苍白无力的,因为拿不出数据来说明这个问题,因此大家就会感觉比较飘渺,今天就是流失分析再次进行探讨,这次从数据的角度来理解为什么要做好流失分析。 挽留一个老用户相比于拉动一个新用户,在游戏收入、产品周期维护方面都有好处的,只是我们现在解决用户入口的问题,但是没有重视用户流失的问题。这个问题就好像一个水池子,有进口,但是也有出口,我们不能只关注进口的进水速率,却忽略了出水口的出水速率。这点对应了我们对于指标的量化和关注,比如当今我们考虑和分析更多的是留存的问题,却鲜有讨论流失问题,不过也可以理解,因为移动互联网上大家都从平台,渠道获得海量用户,至于你愿不愿意待着,我们就不关心了。不过,移动互联网的手游行业却不能不关心,因为手游也是一种端游缩小后一种存在形式,一定意义上手游的分析应去借鉴端游的一些分析思路和管理方法。 因此,我们需要去做好流失分析,并不断的训练、实践。 今天我将利用一系列的指标,来说明流失问题,首先,列出来今天用到的指标: MNU:月新增用户 MAU:月活跃用户 DAU/MAU:活跃比 M_Churn_Rate:月流失率 OMAU:老活跃用户 M_1-Churn_Rate:月存留用户率 首先我们要明确对于月流失用户的定义: 一般而言,上个月(自然月)登录过游戏但在本月未登录过游戏的用户数。 自然的,对于流失率就是这部分用户数占上个月月活跃的百分比。 针对流失率的计算一种是通过技术手段精确的按照定义进行计算,而另一种方式就是粗略的进行估计计算,此处,说一下如何进行粗略的计算,在后续的讲解中,也会用到此部分知识。 我们知道上个月的月活跃中存在两部分群体: 上个月月活跃用户构成中,一部分是上个月流失用户,另一部分就是过渡到下个月活跃用户中的存留用户。 而在下个月的用户中也存在两部分,一部分就是上个月过度来的存留用户,另一部分就是本月的新增用户。 至此我们得到两个等式 上个月MAU=流失用户+存留用户 本月的MAU=存留用户+本月新增 那么上个月流失用户=上个月MAU-本月的MAU+本月新增 上述的计算方式和通过技术手段计算的流失率基本一致,可以作为粗略估计使用。解决了流失率的计算问题,下面我们就能详细开始分析流失率背后的秘密。 之前在文章中说过,游戏产品是存在一个生命周期问题的,从具体游戏产品的一系列运营来看,产品经理CB、OB和商业化运营阶段,这里面是包含着流失问题的,而且在每个时期的策略和侧重是不同的,今天我将做一些假设,来分析流失,这样便于理解。 假设如下: 月导入新增用户为20000; 月1-Churn_Rate=20%(存留率为20%,即上个月登录过游戏,且本月又登录的用户比例为20%); 月流失率为80%; DAU/MAU为0.15; 我们可以根据上述的指标进行下述的计算: 上线第一个月 已知: MNU1=20000 M_1-Churn_Rate1=20% M_Churn_Rate1=80% DAU/MAU1=0.15 Old_User(老用户)1=0 那么: 平均的DAU1=0.15*20000=3000 MAU1=20000 上线第二个月 已知: MNU2=20000 M_1-Churn_Rate2=20% M_Churn_Rate2=80% DAU/MAU2=0.15 MAU1=20000 那么: Old_User(老用户)2=MAU1* M_1-Churn_Rate1=4000 MAU2= Old_User(老用户)2+ MNU2=24000 平均的DAU2=0.15*24000=3600 上线第三个月 …… 按照以上的思路进行数据计算,最终能得出来一些数据。 下图为按照流失率80%,月导入量20000进行的计算。 下图为按照流失率70%,月导入量20000进行的计算。 下图为按照流失率60%,月导入量20000进行的计算。 下图为按照流失率90%,月导入量20000进行的计算。 如果大家仔细观察会发现,流失率处于不同水平,反馈的MAU以及DAU都是有差异的,这点差异就是因为流失率的变化引起的。 说到此处,再仔细观察,会发现,流失率达到90%时,基本在第四个月游戏的增长就停滞了,而为80%时,在第6个月开始增长停滞了,70%时在第8个月增长停滞了,60%时在第12个月增长停滞了。也就是说流失率水平的高低也刺激了游戏的用户量变化情况,从游戏设计的角度来看这点是因为游戏大量用户流失,对新用户进入带来一种负面的反馈,对于来用户而言,则生存和游戏下去的信心不足。时间久了,用户群流失就打破游戏原本稳定的环境,此时我们一般通过加大新用户的注入来解决办法。 以上是从游戏角度来解释问题的,下面从数学角度简单的解释一下为什么到了一定的时候,后期数据变化减小,基本上达到了稳定状态。 我们了解到 注:1-Churn_Rate简写为CR% MAU1=MUN1 MAU2=MAU1*CR1%+MUN2 MAU3=MAU2*CR2%+MNU3 MAU4=MAU3*CR3%+MNU4 …… 那么 MAUn=MAUn-1 *CRn-1%+MNUn,且MNUn-1=MNUn-2=…=MNU1,CRn-1%=CRn-2%=…=CR1%,即有 MAUn=MNU*(CR%^n-1+ CR%^n-2+…+ CR1%+1) 由上述等式,可以发现,随着n逐渐增大到一定阶段,对于MAU的影响就变得越来越小。逐步稳定。 侧面来看,如果CR%本身就很小那么这种影响就更小了,也就是说MAU变化很小,但是相对应的流失率就会居高不下,游戏处于了一个放水内耗的时期。 以上是利用一些指标对于流失率进行了一个探讨分析,其实重点就是说流失分析对于一款游戏而言是非常重要的,小处来说是挽留用户,避免流失,大处来说是拉长产品生命周期。 后记:文中所用计算方式和方法作为探讨之用,不妥和纰漏之处望各位斟酌使用,如有以为和错误,欢迎指出,不胜感激。
一款游戏产品进入成熟期后,重点基本都在拉动收入,原因在于用户量和游戏社会已经形成,老用户不会轻易流失,新用户不断涌入游戏,形成一个相对稳定的游戏社会,这个阶段的收入拉动也是比较显著,但是这样的稳定时期可能随着产品二度、三度开发,不断出现。 要想拉动收入就存在一个问题,就是对于付费用户的关注和分析,这点上我想方法很多了,比如RMF模型,二次消费等付费研究,今天将从另一个角度借助留存、渗透率、漏斗模型等思想重新进行付费的研究。 前段时间看到一个游戏万人商业价值的模型,从宏观上,这个模型能够避开ARPPU陷阱大致了解游戏收益这块的变化情况。不过这个模型的基础思想是采用数据累计,获得趋势判断,一定程度了解游戏的收益。 之前在我的一篇文章已经提到了类似的分析方法,在付费方面,我也曾经做过分析,现在先大概说说这个模型。 游戏每天都有新登用户,这些用户在随后的时间内随着自身不断成长逐渐显现出来付费意识,激发付费潜能。为此我们要去监控新登用户在随后什么时间开始转化付费以及周期是怎样的。所以,我们定义一个新的观测指标:累计ARPU,计算如下。 1.以月新登用户为对象,观察随后付费转化情况。观察时间点为新登导入月第一天至当前时间点。 2.以新登导入第一天的新登付费开始进行累计,至当前时间点为止。 3.每日累计充值/监测月的新登总数(累计ARPU) 4.将第三步的比值放大数量级(千级或者万级都可以) 为此基于以上几点,我们可以得到如下的曲线图: 上图观测了4月到9月的每个月新登用户随后至观测截止日期的付费转化情况,横轴表示观测天数,这里是201天,纵轴累计ARPU,此处需要将累计ARPU放大1000倍或10000倍进行分析。 放大后的曲线绘制如图上所示,可以看到的8月份导入的玩家资源在第二个月的付费能力偏弱,增长幅度偏低。然而6月份导入玩家,在第三个月付费出现了增长,这样的异常有助于我们细分玩家群体,找到问题所在。 此外上图,从宏观上了解每个月导入玩家的付费能力以及收益走向,这点对于游戏渠道投放意义很大,细分下去,找到某个渠道导入用户随后的生存和收入贡献状态变化,分析后选择更加合理的渠道投放资源。 但是,这个模型到这个层面其实还没有结束,这只是从曲线趋势大概了解了新登用户的变化情况,适当的我们应该对于玩家进行多维分析和钻取。 模型的衍生分析 上述模型很容易忽略一个问题就是,如果4月份新登用户在当月就完成了付费比和收入的大部分贡献,那么接下来几个月的持续观测和分析就显得单薄和无力了。这点我可以举一个例子,比如4月新登到观测时间贡献了10w收入,而4月份当月新登转化付费贡献了8w,那么也就是说在随后的5月到截止观测之日的,收入贡献只有2w,这样其实就是掩盖了一些问题的存在。所以,我们此处要去详细的观察在此模型背后的衍生数据,对其进行分析。 如刚才提到的问题,我们要把新登在随后每个月的变化都要详细的分析,此处我们要提取一些数据: 观测期间新登转化的APA: 例如4月份新登用户中在4月份转化为APA的数量,5月份转化为APA数量…… 观测期间新登转化的Revenue: 例如4月份新登用户在4月份转化的Revenue,5月份转化的Revenue…… 以以上的数据为核心,我们其实可以展开一个衍生分析结构,如下图所示: 该图为每个月新登用户在观测期间每个月转化为APA的比例。 比如4月份新登用户在截止的观测期间一共有1000人付费了,4月份转化付费的有600人,那么首月的APA贡献比为600/1000=60%,次月(5月)有200人付费了,那么贡献比为200/1000=20%。以每个月增加的APA作为计算转化付费的贡献比,这样我们就能看到新登玩家的付费转化的具体形态了。 在上图中,总结了4-9月新登玩家的首月、次月以及随后各个月的付费转化情况,上图来看,新登用户在首月转化付费的转化情况比较理想,但是次月以及随后的付费转化就比较低了,也就是这批新登用户的后期付费转化开始出现困难(有一种情况应该是玩家随着成长付费会逐渐形成需求)。因此需要具体分析其背后的原因,上图大致告诉我们新登用户付费周期大概是1个月时间,之后新登的转化付费就比较困难。 以上只是拿了一款游戏做分析,实际情况很多,不止这一种,勿对号入座。 同时,在这个图的背后我们要统计一些数据信息: 某月的新登在随后每个月贡献的收入占当月收入的百分比 比如4月份新登用户转化成APA的部分在随后观测月中,对每个月的付费贡献情况,重点监控比例。 此处拿收入占比举例,可以看到,新登付费用户在第三个月的收入贡献走低,第二个月的收入增长比较多,这点分析要建立在玩家在游戏中的实际成长曲线和时间情况才能的出来。 观测时期总计转化的APA占所观测新登总量的百分比 如下图,6个月新登用户在各自观测时间内的转化的APA的付费渗透率,比如4月份新登截止到观测时间点共计有1000人付费,而4月份新登为100000,那么付费转化率为1%。通过这个转化就能够了解每群玩家的大致状态。 新登APA贡献比 新登当月转化为APA占据当月总APA的比例 再者,刚才我们说过新登首月转化的APA情况,我们发现新登玩家在首月的付费转化情况很好,因此我们可以进行另一个数据分析,就是看看当月转化付费的新登玩家占据当月总的APA的情况,这样便于我们分析APA的质量。 从上图来看,我们可以看到新登APA的数量在每个月总APA的比例有所下滑,如果此时我们发现总APA是一直增长,而新登贡献APA在整体所占比例下滑,说明,APA的后续存留和付费持续性还是比较好的。 新登APA的付费贡献比 新登当月付费占据当月总收入的比例 由此分析,我们也可以看看新登付费玩家首月收入贡献占据当月的总收入贡献比例。 结语 此图看到,新登当月付费群体贡献的收入在新登当月的总的收入贡献比例中是开始向下走的,也就是说,老的付费用户群体逐步开始形成,但是此时要关注总的收入变化,以及新登收入贡献的变化,这样分析这个比例才有意义。 以上就是我分析的衍生分析,其实这个问题上研究点很多,我们经常要去评判渠道平台用户质量,单纯导入型和付费即可的模式不足以很好的衡量质量,还需要更加深入的探究和分析,这里的几点分析只是一个例举,仅作为参考使用。后续关于付费的研究也会慢慢整理,有时间分享给各位。
“策划和数据的关系和SM一样,你穿皮衣,握着鞭子的时候,才会体验到驾驭数据的刺激,前提是你很坚定你必须站着,一次都不要跪。如果你是跪在地上的那个,那永远永远只能被牵着走。” 我们作为游戏运营一直在说数据重要,数据化运营,然而,往往给出来的就是留存率、流失率、活跃、付费渗透率,这些是目前大家都在做的,而且做了很久很久,可惜的是目前还没有形成一些统一的规范,因此我们有了ARPU的质疑,有了一次又一次的质疑,虽然再各自为战,但是没有战出一个所以然。 其实我觉得太多的时候我们只是注意了怎么炫,怎么把握行业,却忘记了怎么做好产品。我不觉得你跟我说说留存、流失、活跃就是数据化运营,懂得数据了,有段时间我觉得自己懂得这些指标挺NB的,因为别人不会,别人不懂,但是其实你根本就不NB,因为你的所谓NB没有解决什么问题。 刚才说到了一堆指标,忽然之间,你会发现,这些指标 第一是宏观的“大数据”; 第二你拿到的必然是历史数据; 第三你即使意识到了问题(数据),但是你推动不了策划和设计者进行修正和改进,因为你有数据,但是你没有解决方案; 第四,你的运营永远乏力,因为你不知道问题所在。 有些时候我倒觉得更加实在和实际一点比较好,告诉我那个按钮设计错了,怎么改进。在游资网看到牛牛的文章,感慨颇多,有着相同的感受,游戏的数据分析不但是一种指标化的衡量和分析了,这点与电商分析,网站分析都是不相同的。玩家背后这种内在的分析最终能够帮助我们将流量转化为金钱的。但是我们现在只是看到了流量。 换句话,我们现在停留在了流量的层面上,因此我们一直在关注付费渗透率,因为我们相信高渗透率,高流量,就会带来高收入。但是这不一定就是对的。因为我们的运营策略是粗放的,我们总是用群体的意识和目光在观察我们的群体,诸如付费用户,在付费用户背后的蕴藏的价值似乎我们的挖掘是不到位的。 此外,一个游戏的价值不仅仅就用钱来衡量,还要看用户的流量质量,这点我们一直是粗放增长的,也就是我们没有考虑怎么增加这部分隐形的价值,这部分隐形价值就是用户对于游戏的反馈,注意这种反馈不是宏观大数据的反馈,而是反映游戏内在设计和用户体验的数据,这点似乎我们并没有做的很到位,因为我们认为这和RMB没关系,其实,这部分是和RMB紧密联系的,因为这就像一个组织一样,最怕的不是外来力量的袭扰,而是内部滋生的破坏力量,在一个游戏中,如果我们没有通过解决好游戏设计和体验的深层次问题,谈何留存、流失、收入、活跃?! 所以,一款游戏的成功必然是好的设计和好的运营共同作用的。好的设计不是天然的,是通过不断修正和改良的,好的运营是建立在好的产品上。
今天所谈到的东西其实是关于新增付费用户的研究模型的内容,谈到模型,有时候我们过于神话了,模型其实最后就是一套方法论,我自己觉得这倒是自己思维思考最后落地的一个载体,因为思维要实现、训练、评估,最后出现一个载体来落实我们思维的所思所考这个载体就是模型。在没有经过实现、训练、评估之前,算不上一个模型,只有经历以上的过程才是一个模型。 之前有说过付费用户金字塔模型,付费渗透率_I的内容分析,今天就的内容算是对于付费渗透率的再研究。可以肯定一点的是我们之前对于付费用户金子塔的研究包含了所有付费用户的成分,我们之前的方法是从用户贡献度或者说是价值量来衡量,把用户分成了鲸鱼用户、海豚用户、小鱼用户。但是我们今天将从用户的生命周期角度来剖析这个问题,进而引出付费渗透率的再研究。 付费用户的构成 付费用户是一个很复杂的群体,第一层认识使我们普遍认识的,也是我们最多采用的数据分析是层次,但是从第二层开始的细分,对于我们的后续很多分析其实是很有益处的。我有一个猜想: 如果用户金子塔是稳定的,那么付费渗透率的提升是否一定有意义? 提出这个假设的原因在于我们对不同付费群的研究中发现,群体用户的特征在最初的阶段就已经形成了,换句话说我们推测一个用户在一款游戏的付费能力基本上就是圈定了,当然针对这一点很多人会产生质疑,因为通过游戏付费“陷阱”、粘性、延伸消费,进一步扩大需求,刺激消费。这一点确实是存在的,然而如果你仔细去分析数据,很多玩家在整个的生命进程中,消费基本上是在自己的承受范围之内和压力之内。 我们不排除极限用户,比如深度迷恋游戏以至于全面投入游戏中,但是这类的用户所占比例很小。进而从这个角度我们来分析,每个人的付费能力是基本固定的(想要延伸和刺激消费,就得更新、运营),那么我们不断拉高的渗透率其实没什么太大的作用,因为付费的人终究付费,花费多的人(有钱人)自然就愿意花费,如果你的游戏足够值得他们去消费,那些本来付费就很少的人,玩到最后也会花费很少,甚至就是流失,因为游戏太多,选择太多,诱惑太多。这么看,渗透率意义是局限的。 那么在这种情况下,我们可以来做一件事,那就是在付费用户的初期,我们就能够预测和判断付费用户的付费能力,而不是通过后期的实实在在的数据来验证究竟哪些是真正的鲸鱼,哪些是海豚,哪些又是小鱼。这点也恰恰反映了数据分析的价值所在,用过去发现利用未来,而不是用未来验证说明过去,因为如果那样,你没有进步的可能。因为前进与创新的动力来自于对未知的探索和训练,这未知是指导的、灵感的、偶然的。 付费渗透率的结构化 在上次的分析论述中,我其实就是想将付费渗透率结构化,所谓结构化,就是分层建立付费渗透率,因为我们在付费用户的研究上已经建立了金子塔模型,那么过去我们使用一个付费渗透率指标去衡量的方式需要进一步细化,当然这不是说原来的方式不对,因为在一些高级别的分析报告和演讲中,我们就需要这种一个指标就OK了。 然而作为一个分析师,在具体面对业务时,我们不能够就这样的粗放使用一个付费渗透率去分析问题,因为这样会掩盖掉很多的问题。因此我建议的结构就是分层付费渗透率: W-PUR:鲸鱼用户的付费渗透率 D-PUR:海豚用户的付费渗透率 F-PUR:小鱼用户的付费渗透率 这里面可能就存在一个问题,估计大家都有这个疑问,我们该如何计算这个PUR呢?计算方法如下 鲸鱼用户/活跃用户数量 这里需要解释一下,这里的鲸鱼用户是基于历史鲸鱼用户特征计算出来的本月的鲸鱼用户,本身是一种预测数据,但肯定是付费用户,活跃用户即MAU。 付费渗透率的序列化 留存率我想大概大家都比较熟悉,比如次日、3日、7日、30日、这是从对一批或者一个渠道新登用户的一种观察分析手段,是一种时间序列化的方式,由此我想对于付费渗透率我们也可以进行时间序列化。 即推出首日、次日、7日、30日付费渗透率的,但是明确一点的是这里的用户是新登用户。其定义形式如下: N日付费渗透率 限定时间内的新登用户,N日付费的用户/限定时间内的新登用户 假设10月8日有500人新登用户,首日50人付费,那么首日的付费率为50/500=10%; 假设10月8日有500人新登用户,10月9日(即次日)有25人付费,则次日付费率为25/500=5%; 这种方式的付费比率从另外一个角度将我们之前统计的付费渗透率进行了细分和立体化,这种付费渗透率细分把新用户和活跃用户的付费问题明确了,因为有的新用户是首日之日便开始付费,而有的新登用户是在一定时期内选择付费,但是达不到活跃用户的标准。这样也能帮助我们更加细致的研究活跃用户的自然付费周期。 以上的是针对具体每日的付费渗透率分析,当然了就像留存率研究一样,我们可以限定时间为周,即一周的新登用户在下周内的付费渗透率研究,这都是可行的。具体还要看自己需要。 此处是借助于留存率的模式进行的付费渗透率研究,方法和之前的其实本质上是一样的,稍加改动,至于该方法是否符合您的产品需要和分析需要,这要根据自己实际情况,这里所述的内容仅供参考,作为探索和讨论之用。
最近和同行交流时看到一个复合图,该图是雷达图和饼图的组合图,看过觉得很有新意,自己经过尝试发现制作不是很复杂,实用性也比较好,今天就简单说说这个图的做法。关于雷达图的信息参考(http://wiki.mbalib.com/wiki/%E9%9B%B7%E8%BE%BE%E5%9B%BE%E5%88%86%E6%9E%90%E6%B3%95),今天就要简单的说说怎么做一个这种复合图。 首先我们来看两个图: 这种复合图在某些情况下能够展示出更多的信息,而同时阅读者不会感觉到很混乱。对于我们平时要完成年度或者季度的游戏收入分析,或者人气分析师很有帮助的,目前的主要应用还是在收入方面比较值得推荐。下面就说说怎么制作第二个复合雷达图。 数据展示需求 我们持有一份2011年度游戏的每个月的收入数据,我们希望知道每个季度的情况以及每个季度中那几个月是收入的主要构成(因为每个季度中,总有一个或者两个月的收入是占据多数的)。如果按照传统的作图方式我们需要一个饼图(查看每个季度的收入情况)、一个雷达图或者直方图(每月收入情况)。此处我们可以利用复合雷达图完成这个需求。 制图过程 1.插入圆环图 第一步我们要先插入一个圆环图,此环节的目的在于我们区分四个季度的标志: 此时我们只做了一个圆环图,填充辅助列的数据,完成四个季度的标示。 2.完成饼图(每个季度的收入) 这一部分要注意的是,新出现的饼图会在中心的圆圈部分,注意调整好颜色和尺寸,如下图所示: 外围代表的是每个季度,内部的饼图代表每个季度的收入情况,这样我们就完成大部分工作,当然这里的外部圆环的大小自己可以调节,有人说,简单的办法就是一个圆饼图就行了,外部加上标签,这种做法也可以,只是美观上稍有不足。 3.加上雷达图,表示每个月的收入情况 以上的两步都是简单显示每个季度的情况,现在我们把每个月的收入也加进去,这样,显示出的效果和信息量就加大了,加入雷达图的操作,比较简单,首先也是在原图选择数据,添加每个月的数据,此时的图会变成如下的形式: 可以看到外围是变成了又一圈圆环的形式,不过不要紧,我们此时点击外围的圆环,右键更改图标样式,选择雷达图就OK了 这样我们就完成了一个复合的雷达图制作,这种图其实我们只要制作一次就可以了,以后直接使用模板就可以了。 当然了有时候为了表述问题的清楚,我们所采用的图表不是越这样复杂越好,有时候也是需要简单的图就可以说明问题的,就避免选择这样复杂制作的图。毕竟图是辅助说明问题的。但是无论怎样,我们都要讲究制作的图的精良。这点是很重要的。因为恰当的图示,就会恰到好处的说明问题,此处给大家分享一个关于留存率表示的图标,我觉得这种形式很不错。 这里只是展示了一种展示留存数据的办法,往往我们以前的留存展示只能是展示某一天新登用户的情况,或者只能展示比如次日留存率在一段时间内的情况,上述的展示方式,其实我觉得更加灵活一些,平常我也喜欢用这种方式来展现留存率的情况。 注:以上数据位示例数据,请勿对号入座。 附件下载地址: http://www.dmacn.com/viewthread.php?tid=329&page=1&extra=#pid2694
最近在看几个数据分析平台的数据,基本上都有DAU/MAU这个指标,这个指标很早之前就在社交游戏平台得以广泛使用,对于这个指标的一些解析,以前有写过,今天换个角度,通过比率分析来具体的分析一下这个DAU/MAU。或许从中你会得到一些其他的信息。 DAU/MAU的传统分析与局限性 首先,我们来看一下这个图: 此图总结的是2011年12月25日到2012年9月19日的DAU/MAU的比值曲线图,可以看到初期的的变化比较剧烈,这点是因为刚刚开始测试,初期的DAU导入速度比MAU导入速度更快一些,因此此时比值相对较高,因为初期的DAU贡献主要来自于新登用户,DAU的快速扩张能力很强。 但是我们去除初期的几个上线版本时期的数据,得到新的曲线时,就会发现其实这个比值存在一些差异的情况,比如图中的2月份,每日产生的DAU/MAU彼此之间的差异很显著。也就是全距很大,这样算数平均计算出来的每月DAU/MAU就会出现问题,不够准确反映该月的粘性情况(其实在这里我们计算的平均月DAU/MAU是一个加权均值)。 关于刚才提到的算数平均值有时候不稳定的原因,我这里拿出来一张8个月的箱线图,可以看到1,4,7这三个月的每日比值是存在一些离群点的,DAU/MAU是从宏观上来看用户粘性和登录情况的(一般我们都是平均一个月的DAU/MAU),如果我们看到以上的情况,那么我们DAU/MAU的这种平均计算式有问题的,这样计算平均值(算数),就会屏蔽了真实情况,在此箱线图为解释该问题的说明。有关箱线图的认识请参考我以前的文章。 下面是DAU和MAU的趋势图,能够看到尽管数量级不同,但是整体曲线的走势是一致的,这点直接反馈在DAU/MAU这个比值上,因此这个比值的参考意义就很大了。但是如刚才所言,我们是参考每个月的平均比值水平,这种做法其实如果我们要做几个月之间的活跃和粘性分析时是不够准确的。因此我们还要采用一些其他的办法。 DAU MAU 关于数据分类可以参看一下的内容:http://baike.baidu.com/view/7032740.htm DAU/MAU的分析探讨 针对这个指标我做了两个方面的探讨,第一个就是引入几何平均数来处理这个指标,针对该方法的详细探讨这里不去详说,主要就是对于加权均值的处理发生了变化。该方法的核心就是几何平均数的使用,这部分知识请参见几何平均数的概念和使用。 第二个探讨就是今天的主角,引入比率分析法。 比率分析主要用于对两个变量间变量值的比率变化进行描述分析,适用于定距型变量。关于数据分类可以参看一下的内容:http://baike.baidu.com/view/7032740.htm 比率分析能够提供中位数、均值等基本的统计指标,当然了也提供离差系数(COD),价格相关微分(PRD)等等,进而刻画出比率变量的集中趋势和离散程度。这种比率分析实际上应用范围和形式很广泛。SPSS提供了比率分析的功能,此处我就用SPSS来分析一下DAU/MAU。 首先打开该模块,如下图所示: 打开以后我们看到如下的对话框 在此对话框中,分子我们选择DAU,分母就是MAU,组变量就是比率分析中的分组变量,一般为名义或者序数度量。 接下来,我们打开统计量按钮,弹出如下的对话框 这里面分成了集中趋势部分、离散部分、集中指数部分、中位数百分比之内部分。 集中趋势提供了一些基本统计指标,具体含义如下: 中位数:小于该值的比率数与大于该值的比率数相等; 均值:比率的总和除以比率的总数所得的结果; 权重均值:分子的均值除以分母的均值所得到的结果; 置信区间:显示均值、中位数和加权均值的置信区间,取值范围0-100. 离散提供了测量观察值中的变量差或分散量,具体含义如下: AAD(Average Absolute Deviation):平均绝对偏差,计算公式为 COD(Coefficient of Dispersion):离差系数 PRD(Price-related Differential):价格相关微分,回归系数,即均值除以加权均值所得到的值; 中位数居中COV(Median Centered COV):中位数居中的方差系数 均值居中COV(Mean Centered COV):均值居中的方差系数 标准差:比率与比率均值间的偏差的平方和,再除以比率总数减一,取正的平方根所得到的值; 范围:最大比率减去最小比率; 最大值:最大比率; 最小值:最小比率。 集中指数主要是用于度量落在某个区间的比率百分比主要有三部分: 低比例:最低比率小于1; 高比例:最高比例大于1; 中位数百分比之内:通过指定中位数的百分比而隐式定义区间大小,输入范围在0-100,计算区间下界(1-0.01*值)*中位数,上届(1+0.01*值)*中位数 结果分析 我们选择,均值、中位数、均值居中COV、COD、高低比例在0.05-0.8之间。确定后看输出结果如下: 首先看到的是摘要部分,这里看到我们选择了8个月的数据,进行分析。 随后就是我们要看到的分析部分 首先能看到均值(mean),随后是中位数(median)这两列能够大概比较一下均值与中位数之间的偏离程度。比较明显的能够看到在1月份和2月份的差距比较大,这种差距可以参考离散系数这一列的数值,从离散系数的大小能够分析出该月的DAU/MAU比值的离散程度。可以看出来,从一月份之后离散程度逐渐下降。 方差系数部分我们选择了均值居中cov,1月、2月、4月的方差系数较大,因此这三个月的变化比较大。 集中系数部分我们选择的百分比例在0.05-0.8之间,可以看到除了2月份以外,集中程度较高的是1月份、3月份、但是4月份的集中程度很低。此处,单独看集中程度不能说明数据的稳定,还要参考比如离散系数,均值集中情况综合分析。最后我们来看一下DAU/MAU的曲线,来验证我们刚才所得到的结论。 从我们的比率分析以及曲线趋势来看,从5月份以后我们的DAU/MAU比值趋于稳定,用户的游戏粘性和活跃情况相对开始稳定,但是之前的1月份到4月份的情况变化比较大,需采用其他辅助的形式予以判断。从DAU/MAU的这个分析上我们大致也知道了产品的震荡浮动期是4-5个月,随后进入相对稳定的时期。这点是从产品的生命周期角度来看的。
1.流失[Churn] 每个月离开游戏的用户量,有时候也选择用每周来衡量。举个例子,比如一款游戏在月初有100人在游戏,其中70个人在那个月结束后仍旧留在游戏中,那么我们就说流失率为30%,因为那个月中30个人从最初的100人中离开了游戏。 流失率也被用来分析一个玩家离开游戏的可能性。比如,一个游戏100个用户,其中30%的用户离开[30%流失率]。那么就意味着离开的可能性为30%,同样换个角度,也意味着,留下来的可能性为70%。所以如果我们要计算那个月结束后有多少玩家仍旧留在游戏中,那么我们就可以这样计算:留下来的百分比*月初的用户量,即70%*100=70,也就是说,该月结束时,有70个玩家留下来继续游戏。 如果我们计算两个月后,有多少人还留在游戏中,我们可以这么计算:70%*70%*100=49人,就是乘以两次留下来的百分比,进而计算两个月后仍有多少人在游戏。 把流失率作为一种流失可能性对待,能够帮助我们估计平均一个用户在游戏中生命周期长度。等式如下: 1/% churn =Ave.player LifeTime 举个例子,我们的月流失率为30%,那么我们的用户生命周期长度为: 1/30%=3.3 month 这点对于我们而言很重要,尤其是我们要计算平均每个用户对于我们的价值量时,这里后续会提到一个LTV(用户生命周期价值)。 如果我们忽略一个社交游戏或者其他游戏第一周的流失率,我们会发现周与周的流失率一直在5%到15%之间。每周5%的流失率对应每个月大概20%的月流失,每周15%的流失对应每个月50%的流失率。 2.平均每付费用户的收益[ARPPU] 平均每付费用户的收益,这个一般是按照月来计算的。换句话说,平均每个玩家花费了多少钱(注:大多数玩家是不花钱的,ARPPU仅仅计算那部分花钱的用户情况)。计算如下: 月总收入/月付费用户数 通常这是存在一些标杆的比如 Virtual World: Habbo Hotel: $30 ARPPU (Sulake) Online Game: Puzzle Pirates, Three Rings: $50 ARPPU (Gamasutra) Social Game: Playdom: $20 ARPPU (Lightspeed Venture Partners) 3.平均每活跃用户收益[ARPU] 平均每活跃用户收益,如同ARPPU一样,这个也是每个月计算一次,ARPU的计算如下: 月总收入/月独立用户(月活跃用户) 依据账户方法论,这个指标能够告诉你从来自于衣服类道具购买的收入,该如何在用户生命周期中被均摊,同样的比如消耗性的,能量性(红、蓝药)的道具也能立刻通过此加以认识。但我认为这有一点小复杂。 Zynga的财报中我们看到他们每个月的ARPU大概是$0.40,当然这是他们全部游戏的一个计算值,实际上不同类型游戏的表现比另一些货币化的更好。 Casual Social Game: A casual game is designed for anyone, including those without prior gaming experience. Such as Farmville, Cityville, Bejeweled, Words with Friends. ARPU around $0.10 – $0.20 Virtual Currency Poker and Casino Games: Traditional gambling games that only allow players to play with virtual currency, such as Zynga Poker, Slotomania. ARPU around $0.25 – $1.25 Mid-core Social Game: Typically more investment is required to succeed. Tends to be more competitive in nature, and players can be punished for not playing well, such as Mafia Wars and Backyard Monsters. ARPU: $0.25 – $1.25 Virtual Worlds: Online worlds where players create avatars and interact in realtime, such as Habbo Hotel, Club Penguin, Runescape, and Puzzle Pirates. ARPU around $0.84 – $1.62 4.生命周期价值[LTV] 生命周期价值指的是平均每个玩家的消费金额。LTV包括了付费与非付费玩家。LTV计算如下: ARPU*玩家留存游戏中的平均月的数量[玩家登录游戏平均月数量即 平均生命周期] 比如,如果我们的ARPU=$0.5,玩家总计在有5个月每个月都登录过游戏[平均生命周期=5month],那么LTV就是 $0.5*5=$2.5 刚才我们说到我们使用流失率来计算用户平均生命周期,实际是很有效的,你大概在一个月后就能知道平均用户会呆在游戏中多久,也包括他们会花多少钱(ARPU),而且我们也能够知道每个用户的生命周期价值是多少(LTV)。通过此,你就可以了解,每个用户对于你的价值是多少,进而你也就明白了广告投放你要为新用户话费多少。 5.K因子[K-Factor] 病毒增长衡量标准。计算如下: 感染率*转化率 所谓转化率指的是当感染后转化为新用户的情况。 如果K-Factor是1,那么就意味着每个玩家都能带来另一个玩家到你的游戏中,游戏不增长,不下降[用户量]; 如果K-Factor是小于1,那么游戏现在进行的营销将会耗尽玩家; 如果K-Factor是大于1,那么你的游戏时按照指数级增长的。 其实,极少的游戏能够做到K-Factor大于1的情况,这也是为什么Zynga在2011年的Q1花费了4000w美元在市场营销上面。所有的游戏需要营销支持发展。当然成功游戏与失败游戏之间的区别就在于成功游戏花钱在营销上,但是却能够从获得玩家身上同样赚取利润。这也是接下来的定义为什么这么重要。 6.CPA 获得每个用户的花费,用于衡量把一个用户导入到游戏中的花费。CPA的衡量多种形式,推荐的形式如下: 新访问者--->注册--->完成新手教程--->变成真正意义的玩家 因此,广告联盟计算是: 总花费/带来的新玩家 比如花费1000美元在Google Adwords,获得1000玩家,那么CPA就是:1000/1000=1美元CPA 未完待续 原文: 1. Churn The percentage of users who leave your game each month, or sometimes measured as the percentage who leave each week. For example, if a game that has 100 users at the start of the month, and 70 of those users are still playing the game at the end of the month, then we would say the churn rate is 30% because 30 of the original 100 people left that month.The churn rate can also be thought of as a probability that a player will leave. For example, imagine a game that has 100 players and a 30% of any player leaving (30% churn). That 30% chance of leaving could also be thought of as a 70% chance of staying. So if we want to figure out how many players will be left at the end of the month all we multiply the chance of staying by the number of players at the start of the month. So 70% x 100 = 70 players at the end of the month. To calculate how many will be left after two months we can simply do it twice, 70% x 70% x 100 = 49 players after two months. Treating churn as a probability allows us to estimate how long the average person plays your game. The equation is simple: 1 / % Churn = Ave. Player Lifetime. For example, with our 30% monthly churn rate we find that 1 / 30% = 3.3 months average player lifetime. This comes in important later when we want to calculate how much the average player is worth to us, or the LifeTime Value (LTV). Ignoring the first week (we’ll talk about that in the Onboarding definition) a social game or virtual world will typically see week to week churn around 5% to 15%. A 5% weekly churn is equivalent to roughly 20% monthly churn. While 15% weekly churn is equivalent to 50% monthly churn. Phew, that was a long one, don’t worry, the rest are shorter! 2. ARPPU Average Revenue Per Paying User, usually measured each month. In other words, how much money does the average customer spend (most of your players will never spend any money, ARPPU only includes those who spend money). It can be calculated as total monthly revenue divided by total monthly paying users. Some benchmarks: Virtual World: Habbo Hotel: $30 ARPPU (Sulake) Online Game: Puzzle Pirates, Three Rings: $50 ARPPU (Gamasutra) Social Game: Playdom: $20 ARPPU (Lightspeed Venture Partners) Club Penguin, on the other hand, has subscriptions and no micropayments. Their ARPPU is somewhere around the $6 mark. 3. ARPU Average revenue per active user, and like the ARPPU this is also measured each month. The ARPU is calculated by dividing the total revenue for the month by the total number of unique players for the month. Sort of. Depending on the account methodology used it could be said that revenue from the purchase of a virtual clothing item should be amortized over the players lifetime, where as energy and consumables can be recognized immediately. I think that’s just making it all a little too complicated! From the Zynga IPO filing (link) that the average revenue per user per month is around $0.40. Of course, that’s across their whole portfolio of games. In practice, different types of games monetize better than others. Casual Social Game: A casual game is designed for anyone, including those without prior gaming experience. Such as Farmville, Cityville, Bejeweled, Words with Friends. ARPU around $0.10 – $0.20 Virtual Currency Poker and Casino Games: Traditional gambling games that only allow players to play with virtual currency, such as Zynga Poker, Slotomania. ARPU around $0.25 – $1.25 Mid-core Social Game: Typically more investment is required to succeed. Tends to be more competitive in nature, and players can be punished for not playing well, such as Mafia Wars and Backyard Monsters. ARPU: $0.25 – $1.25 Virtual Worlds: Online worlds where players create avatars and interact in realtime, such as Habbo Hotel, Club Penguin, Runescape, and Puzzle Pirates. ARPU around $0.84 – $1.62 4. LTV The Life Time Value is the average amount of money spent by each player. The LTV includes paying and no-paying players. To calculate the LTV you multiply the ARPU by the average number of months a player stays in your game. For example, if the ARPU is $0.50 and the average player lifetime is 5 months then the LTV is $0.50 x 5 = $2.50. Earlier we used the Churn Rate to calculate the average player life time. This is really useful. After only 1 month you know roughly how long the average player will stay in the game, and you know how much they spend on average (ARPU) and therefore how much each player is worth over their lifetime (LTV). Through knowing how much each player is worth you can figure out how much you can afford to spend on advertising for new players. 5. K-Factor The measure of viral growth. It’s calculated by multiplying the Infection Rate by the Conversion rate. The conversion rate is when the ‘Infection’ turns into a new user. A K-Factor of 1 means every member is bringing one additional member to your game, your game is not growing nor is the game declining. A K-Factor of less than 1 means that without ongoing marketing your game will run out of players. While a K-Factor greater than 1 means that your game is growing exponentially. It is very rare that any game will ever have a K-Factor greater than 1. That’s why Zynga spent $40,000,000 on marketing in Q1 2011. All games need marketing to continue growing. Of course the difference between a successful game and a failure is that a successful game spends money on marketing but still makes a profit on each player they acquire. That’s why the next definition is so important… 6. CPA The Cost Per Acquisition is a measure of the cost of bringing that user to your game. The CPA can be measured in different ways. We recommend measuring the CPA as the cost to convert a new visitor from the homepage into someone who has registered, finished the tutorial, and become a player. So the CPA for an advertising campaign can be calculated by dividing the total spend by the number of new players. If we spend $1000 on Google Adwords and get 2000 new players then our CPA is $1000 / 1000 = $1.00 CPA.
昨天看了香橼对360的质疑的相关报道,并且也看到了多个企业的大佬站出来拿着数据在互联网各种解释,今天新浪上也多了一篇文章《页游自曝ARPU值背后 不重要因计算方式不同》http://biz.265g.com/1209/183961.html,看罢后,感慨万千,鄙人也做了不算长时间的游戏数据分析,对于这个ARPU认识也算有一些,这里我谈谈香橼对360的质疑的事。 关于ARPU的很多分析我之前已经写过了,这里不再细说。 首先一点,这篇文章中提到了ARPU,并且给出了英文的解释:(Average Revenue Per User),注意是每个用户的平均收益。那么如果按照这个定义,我们在计算ARPU的公式应该是: 总充值(消费)除以活跃用户数。-----这种方式在电信,点卡收费(时间收费)是惯用的,因为所有用户都在花钱,花时间的钱。计算方式1 但是我们国内沿用ARPU这个称谓,却在计算上进行了更改变成了: 总充值(消费)除以活跃充值(消费)用户数。----免费游戏(道具收费),不是所有用户花钱,只有充值的那部分花钱。 计算方式2 那么为什么香橼对360产生质疑,因为国外行业规定了ARPU和ARPPU的定义,ARPU代表所有活跃用户的平均贡献,即使用计算方式1的计算标准。而这里又出来一个ARPPU,他的英文解释是 Average Revenue Per Paid User ,平均每付费用户的收益。也就是说ARPPU代表了才是真正付费用户的贡献值,换句话说,我们张冠李戴了,我们认定的国内ARPU=ARPPU了,而香橼拿着他们标准下的ARPU(所有活跃用户的平均贡献---总充值(消费)除以活跃用户数)来衡量国内360的ARPU(平均每付费用户的收益------总充值(消费)除以活跃充值(消费)用户数)。根据这个计算公式,大家想必都知道了,差异是很大的,形象的例子,比如平均付费用户收益为400元,那么平均活跃用户的收益只为40元,上下10倍的差距,香橼肯定会质疑的。 柳传志针对这个问题,说了一句话,好企业经得起质疑,我相信我们这些优秀的民企拿出来数据,敢于说明问题,就验证了我们不怕外部的质疑。但是换一个角度我们发现了别的问题。 鄙人是做数据分析的,就ARPU和ARPPU这个问题,我纠结了好久,原因在于指标与国际上不统一的,因此我们在这些敏感的数据问题上一直就是出现各种问题,为什么以前没有?因为以前的以魔兽世界为代表的游戏是时间收费游戏,用户只要是活跃的就产生消费,而现在是免费游戏时代,用户充值购买了道具才是付费用户,这个和之前的发生了根本的变化,可以说这个指标的问题是伴随网游收费模式变革中遗留的,但是到现在也没有解决问题,才会出来这个问题,本来是个小问题,却被放大了。 就现在来看,虽然国内大小企业做网游的这么多,运营这么多,却没有一个很好的行业规范,你拿你的ARPU,我拿我的ARPU,我算我的流失,你算你的流失,一天天高喊各种游戏的CEO、COO们,你们的计算是统一的吗,是规范的吗?因此我们就没办法去衡量和把握这个市场的真实变化情况,各自为战,当外来的机构开始质疑时,才想起来抱团,难道没想过自己的问题吗?网游这么多年了,我们的发展确实很快,但是我们与国际接轨不是单单占领市场,捞点钱就完事了,我们的数据规范,我们的产品定位都要走向国际,为什么美国人记得最终幻想,却记不住你中国的网游经典之作? 刚才的话扯远了,王峰说ARPU(注:应该是ARPPU)是一剂毒药,我觉得有道理,毒药的原因一是我们很多人不了解ARPPU是怎么回事(定义),ARPPU也不代表了什么重要的信息,还是辩证的理解吧,对于ARPPU的理解有两个文章,一篇是我写的http://www.cnblogs.com/yuyang-DataAnalysis/archive/2012/02/15/2352884.html,另外一篇是另一个网友的说法(不错)连接http://xueqiu.com/6948507755/22206693 。 废话一堆,但真心希望有责任的公司和组织出来制定相应的规范和准则。
放在这个专题下,是因为有时候我们数据分析师的确是懂得一点数据库的操作知识或者会一些SQL,平时我用的比较多的就是MySQL,如果说我们一般就是要学一些SQL操作的话,可能就足以应付平时的工作,至于对象,比如Oracle,DB2等等数据库产品,这种SQL尽管差异有很多,不过总体上可以一条路走下来。不过今天说的几个问题是和MySQL产品本身有关系的,因为我们一些数据处理和分析是需要它来帮忙的。 和MySQL打交道,基本我们都是在解决与数据库连接的问题比较挠头,下面简单说说怎么通过MySQL与Excel、SPSS、Clementine、R连接,并完成一些查询,限于篇幅分期描述一下。 MySQL连接Excel MySQL与Excel连接有时候其实很有作用,原因在于我们有时候在Navicat这样的软件中查询的结果,必须要保存查询,然后选择输出格式(这里是Excel的格式),这种方式其实效率很低,主要是时间上我们受不了。所以我们通过建立Excel与MySQL的连接,直接就可以把数据导入到Excel中,这样处理起来速度就会快一些。 操作: Excel与MySQL连接是使用数据源的,即通过ODBC的方式提供连接,因此事先你要下载MySQL connector/ODBC(http://dev.mysql.com/downloads/connector/odbc/5.1.html)。随后进入管理工具(控制面板|管理工具|数据源ODBC)如下图所示 随后,你可以添加数据源(用户DSN),选择MySQL ODBC 5.1 Driver,如下图 点击完成,此时就会弹出来connector的面板,在这里完成相关信息的填写,如下图 Data Source Name:数据源的名字,最后会显示在用户DSN面板,并且我们在连接时也是依靠这个名字作为连接的标示符; TCP/IP Server:连接的数据库IP地址以及端口,默认是3306; User:数据库账户名; Password:账户密码; Database:在此IP的DBMS中的数据库名称,一般输入用户名和密码后,数据库就会显示出来,我们从中选择一个我们需要的数据库就行了。 随后点击确定,回到数据源窗口,此时多了一个数据源,记住数据源的名字就可以了,下面来说怎么连接,在Excel中选择数据|连接 在打开的对话框中,点击添加,会弹出来现有的连接,之后我们选择左下角的浏览更多,建立一个数据源,此时弹出来一个对话框,如下: 选择连接到新数据源.odc,选择打开按钮,弹出如下的对话框: 在这里我们选择ODBC DSN,单击下一步,找到我们的数据源,名叫testODBC 单击下一步,在新的对话框中,我们能看到我们要连接的数据库,及数据库中的具体数据表,如下图 确定一个表之后,单击完成,就基本上是完成了Excel与MySQL某个数据库的某个表的连接工作,下面我们查看属性能够看到如下的信息: 使用状况,比如刷新频率之类的,这里我们主要关注定义标签下的信息,命令文本的地方就是我们编写SQL的位置,这一点其实比较有用,比如我们数据库存储的时间都是unixtime形式,这里输出时,我们就可以考虑转换unixtime,然后在进行输出,效果就会更好。但是到此我们的数据并没有输出,我们只是完成了配置工作,点击数据|现有连接,对话框如下: 选择我们连接的表的名字,确定后弹出如下的对话框,询问导出数据的导出位置以及形式,如下图: 随后Excel显示,正在获取数据 几秒后,就会把原始的数据库数据通过我们的Sql操作形式直接输出到Excel中,如下 这样数据库数据就很快的导出了,时间上节省了不少,与此同时为了进一步优化操作,Excel插件 SQLDrill也出现了,该工具强化了这个SQL操作的能力,使得我们用Excel操作数据库数据更加容易了。 在一台电脑上创建两个MySQL服务 其实我所说的这种情况比较少见,但是有时候确实也是用的,比如在localhost下安装了两个版本的mysql,这时候往往就会出现问题,比如两个版本mysql服务无法启动,或者其中一个版本的服务无法启动,而我们希望两个版本的mysql服务都能够启动,这里就说一下怎么样在一台电脑上启动两个mysql。 首先安装一个版本的mysql,启动服务,测试是否能够正常使用,此时确定端口为3306。 随后开始安装另一个版本的mysql,安装完毕后,必然启动不了,此时估计都会想到去更改my.ini的配置文件中的port,但是之后仍旧无法启动,这种情况下,我们可以这样来操作: 打开CMD,进入mysql\bin文件中,如下图 随后,我们创建服务 命令如下: mysqld install mysql2 随后显示mysql2服务创建成功,此时我们可以去查询一下这个服务 但是,如果你此时去启动该服务,还是启动不了,因为此时用到的my.ini还是最开始那个mysql.ini。因此我们这里要指定后来这个服务所要用到的my.ini文件,操作如下: 运行窗口,输入regedit,进入注册表 在注册表中,寻找 service中的mysql2的信息 找到后,注意mysql2其中一个赋值信息,在其中加入一段 --default-file="dir of your second my.ini",即把第二个mysql的myini地址导入: 与此同时我们再来看一下我们安装的第一个mysql的注册表服务信息 到此,其实我们的工作还没完成,因为此时这两个服务还公用一个3306的默认端口,此时还要在第二个my.ini文件中把port端口改一下,非3306的就可以。随后我们启动服务: 可以看到服务启动成功,我们查询一下目前的端口使用情况(我使用的是3310) 通过查询能够看到两个服务都启动了: Note:如果以上操作之后还是不能启动,原因就只有两点了: 删除data文件中的log信息; my.ini配置出现错误。 今天就先说这两个和mysql有关的问题,明天说说怎么在R中连接数据,并进行灵活的查询方法。
最近一个时期和很多的人进行了交流,收获了不少,也思考了不少,如今我们都能得到数据,如今我们也都能按照所谓的定义和框架分析问题,只是我觉得有时候不必要一定要一直站在框架内去分析一些问题,进步和前进的力量来自于质疑,并进行革新和再创造。 留存率这个数据指标不记得从何时起变得那么重要,重要到研发上把它作为游戏好坏的一个标准,运营商(平台)作为了一个准入的钥匙,是否值得继续下去。有时候觉得粗暴,甚至无知了有点。因为肤浅的百分比背后隐藏着更多的金子,也可能是垃圾。 以上算是一点吐槽,更多潜在的问题这里不想累述,前几日写过一个关于的留存率是什么的文章,我想肯定很多人看过了,估计也都会用了,今天写的番外篇将从这个数据的统计源头说起,换个角度来看待这个留存率的问题。 留存率VS百分比 百分比是用于表达比例的,类似于一种标准化的表达,因为百分比的分母是100,换个较多想想这种表达消除了数量级上的差异,使不同数量级之间的数据可以进行比较,比如: 这里我们看到尽管上周和本周的收入数据相差了一个数据量级,但是在百分比上的表现只是差了10个百分点,能够更好的进行量化数据,这个意义上,是非常有用的,然而这里如果只是对比本周的强化收入环比上周少了10个百分点就断言本周的强化道具卖的不好,那我们就错了。 那么下面我们再来审视这张图: 这张图我们发现的规律其实和上一张是一致的,如果我们只是在单纯的考察留存率,遇到的分析麻烦就是错误的相信了百分比,但是这里不能忽略百分比的作用。因此考察留存不是单纯的就在看留存率,你还要看到DAU,其后的留存,DNU规模等等信息。之所以要跟这个百分比较劲的原因其实很简单,你不能看到今天的DAU比昨天的DAU多了一倍,就说今天的DAU好于昨日,玩家更加积极(探寻有价值的DAU)。 留存率VS漏斗 大概我们现在在做留存分析都会用漏斗模型,因为一批用户进入游戏后,随着时间上是不断递减的,从玩家的游戏生命进程的确是这样的,然而这里面却存在了一个问题,这个漏斗不一定是个严格意义的漏斗。再来看上面的那张图,你会发现2日的留存率高于次日飞留存率,这里这种情况是存在的,实际的数据中也是存在的,至于原因后面会具体的来讲述。 留存率VS目的 我觉得用到留存率的目的是探寻一批用户的导入质量情况(包括游戏前期的成长等),或者是市场、渠道的质量研究,进而方便我们后期的调整投放策略,游戏改进方案。大概因此我们建立了留存率,作为一种转化率机制,来确定和为我们之前的目的服务。留存率是研究固定群体的转化情况,换句话我们是希望看到这个群体自然的变化情况,由于存在统计上时间滞后性,往往不小心就会带来错误。比如8月1日的次日留存在8月2日统计出来,3日留存在8月4日统计出来,7日留存在8月8日统计出来,但是如果我们够认真就会出现以下飞乌龙,比如8月2日统计的8月1日留存会错误的认为是8月2日的次日留存率。出现这个问题的原因就是统计日展现的数据不是统计日的,这点很多人在使用一些系统都会出现这样的问题。 其实费了不少话,最终要说的就是在下面这张图上: 此图中,我们列出来了每日新登玩家的次日、3日、7日的留存率,我们会发现每个固定的群体(每日新登作为一个独立的群体)次日、3日、7日的留存表现趋势基本上是相同的,也就是说,留存率的指标能够揭示一个群体在一段时间内的变化特征,且这种特征不会因为时间的变化而发生显著性改变。比如第37日的新登用户的次日、3日、7日留存表现都是保持一个趋势,这从某个角度来说,新玩家的期待或者特征我们游戏给予了最好的反馈,而这样的期待或者特征就是我们留存率使用起来的价值。(此处另外一种方式可以计算相邻两日留存率变化百分比,绘制曲线去分析这种趋势变化) 后记: 有关于留存的分析,留存率只是整体留存分析的很少一部分,真正挖掘留存的价值其实还要做很多工作,留存分析也不只是新用户的专利,比如充值用户的留存,这里没办法展开说。而一些留存率分析方法其实很多,这取决于我们分析的维度和角度,也许有时候你可以尝试一下做一个显著性分析,看看两个服务器的一段时间的留存变化是否显著,也许你也可以针对同时间的两个服务器的用户做分析,或者是不同渠道或者市场的用户分析,维度方式很多了,关键在于是否愿意去做。 其次,我一段时间以来一直使用几何平均数去处理这种“率”的概念,因为我们总要计算平均留存率,但是算数平均数不能屏蔽极端值的干扰,所以几何平均数是个很好的办法。 最后刚才提到一个关于漏斗的问题,这里我想把我的理解说一些,漏斗是作为一种分析转化率的形象化描述,但是在狭义的漏斗分析观念上(比如网站分析),我们的漏斗分析是针对一个session(一个会话期间)进行的转化率分析。然而我们这里的漏斗分析其实是一种广义上的转化率漏斗分析模式,即新登用户在次日登录了,那么在2日,3日,4日都可以登录,这里面不存在会话的,而狭义的漏斗是一个不断筛选的过程。因此这里的留存率是存在我们看到的3日大于次日的情况(这点在最后一部分中已经做了解释和说明)
SPSS为我们提供了探索分析,所谓探索分析之所以是探索,是因为有时候我们对于变量的分布特点不是很清楚,探索的目的在于帮助我们完成以下的工作: 识别数据:例如数据的分布形式、异常值、缺失值; 正态性检验:服从正态分布的检验; 方差齐性检验:不同数据组的方差是否相等。 有关于方差齐性检验原理、正态分布这里不累述,这里主要介绍SPSS的探索分析使用。 数据文件 这里使用的文件是不同周期的充值用户的充值数据,这里主要是针对流失用户和活跃用户的充值数据。 具体操作 首先将源文件加载到SPSS中,选择菜单分析|描述统计|探索,如下图所示: 之后弹出对话框如下: 在该对话框中,有几个输入的位置: 因变量:为我们要分析的目标变量,变量多是连续性变量居多。 因子:是目标变量的分组,本例中,就是针对充值用户的充值金额进行分组,比如活跃和流失两组。 标注个案:对于异常值进行标注,识别异常值。 在此处,我们因变量选取充值总额,因子选取用户状态,标注个案我们选取服务器ID,如下图所示: 在该弹窗还有几个按钮,首先我们设置一下统计量按钮,打开统计量的窗口如下所示: 该弹窗的作用主要是设置输出时的统计量,在该弹窗可以看到以下的信息: 描述性:主要是完成输出一些我们之前说过的描述性统计的统计量,这些信息详见(http://www.cnblogs.com/yuyang-DataAnalysis/archive/2011/10/23/2221838.html)。同时这里还有一个置信区间的设置问题,这里默认的是95%,关于置信区间以后会说到,这里不再累述。 M-估计量:输出四种均值的稳健极大似然估计量,这里面有稳健估计量、非稳健估计量、波估计值、复权重估计量,有关于这部分的信息参见附件。 界外值:输出变量数据的前5个最大值和后5个最小值。 百分位数:变量数据的百分位数。 这里我们只选择描述性就可以了。接下来就是绘制对话框的设置了。 在此对话框中,有箱图、描述性、伸展与级别Levene检验三部分构成。首先来看箱图部分。 我们默认选择按因子水平分组,这标志着因变量的箱图将按照因子进行多个显示,此时就会有多个箱图,这取决于你分组的个数决定,当然不分组,就只会显示一个箱图,无,则就是不显示箱图。 描述性,则是选择输出的图形的种类而异。 伸展与级别Levene检验是设置数据转换的散步水平,其实就是对于原始数据变化的设置。有完成两个任务,一个是数据转换后的回归曲线斜率,另一个就是方差齐性检验。该部分主要有四种选项,无、幂估计、已转换、未转换。 无,则是不输出,变量的散步水平; 未转换,不对原始数据进行变换; 已转换,对因变量进行数据转换,方法有自然对数变换、1/平方根变换、倒数变换、平方根变换、立方变换。 幂估计,对每一个变量数据产生一个中位数的自然对数和四分位数的自然对数的散点图,对各变量的方差转化为同方差所需要的幂的估计。 在此处,我们选择无。 当然在这个对话框中,还有一个部分比较重要,那就是带检验的正态图。此选项能够输出正态概率图和离散概率图,且可以输出变量数据经Lilliefors显著水平修正的K-S和S-W的统计量。 下面就是选项对话框的设置了,该部分主要是针对缺失值的处理,方法有三种: 按列表排除个案:只要任何一个变量含有缺失值,就要踢出所有因变量或分组变量中有缺失值的观测记录。 按对排除个案:仅仅踢出所用到的变量的缺失值。 报告值:变量中存在缺失值单独作为一个类别进行统计,输出。 之后确定,结果输出,所有的结果会在查看器重显示,如下图: 报告分为几部分,摘要、描述统计、正态性检验、各种图形。 摘要部分 主要是确认是有缺失值情况信息。 描述统计部分 主要输出各项统计信息,参看描述性统计一文介绍。 正态性检验部分 Df表示自由度 Sig表示检验的显著水平,即P值,一般来说P值越大,越支持正态分布。 此处我们假设服从正态分布,根据K-S统计量和S-W统计量可以看出,两种用户的充值总额显著水平小于5%,即sig<0.05不服从正态分布。 图形部分 上图为茎叶图 Frequency表示数据的频数,stern表示茎,Leaf表示叶,两者表示数据的整数部分和小数部分,Stern width表示宽度。 怎么看这个茎叶图? 茎叶图其实是一种很形象的图示,下面告诉诸位怎么看茎叶图。简单的一句话解释就是:多少频数就代表多少(叶子+茎)。下面举一个例子来看。比如下图的数据: 其含义代表充值额2.5元的有三例,充值额2.8有两例,共计5例。 此外还有标准和趋势QQ图,用于从图形的角度来分析数据是否呈现正态分布。 首先来看标准QQ图,如果服从正态分布,则散点分布是接近于一条直线的,形式如下: 然而在本类中,我们看到流失玩家和活跃玩家的充值金额QQ图如下: 可以看到是不符合正态分布的。同样的我们看到的趋势QQ图则也是要分布在直线周围才是正态分布,而在下面的趋势QQ图中,却不是这样的情况。 最后还有一个图,就是箱线图,有关箱线图的解释和分析,已经在以前的文章中有所阐述,可翻阅(http://www.cnblogs.com/yuyang-DataAnalysis/archive/2012/03/08/2385874.html)。 这里简单的再说一句,矩形框的部分是箱线图的主体,上中下三线代表75%,50%,25%的百分位数。 纵向的直线叫做触须线,上截止到变量本体的最大值,下截止到变量本体的最小值。所谓本体即除奇异值以外 的变量值叫做本体值。 奇异值,用0作为标记,分大小两种,箱体上方用0标记,变量值超过第75分位与25分位数的变量差的1.5倍。箱体下方则表示小于这个1.5倍。 极值,用*表示,箱体上方是超过变量差值的3倍(75分位和25分位之差),箱体下方同理。 按照上述的叙述,可以看看我们所分析的数据的具体情况,这里不再累述了。 以上结合了一些教材把探索性分析的基本操作讲述了一遍,作为探索性分析这只是我们作为更深入分析的一个前奏过程,但是这里却不能忽略其价值,比如怎么看茎叶图,箱线图,正态分布检验等等,在网游行业的应用其实也有很多,比如今天提到的不同生命周期玩家的充值的探索性分析,还有比如付费与非付费玩家的等级成长探索分析,不同服务器,不同渠道,不同充值平台之间的玩家的探索分析,这些虽然看似简单,但是都是值得去做和慢慢研究的。 参考 http://www.docin.com/p-276172171.html 陈胜可著SPSS统计分析从入门到精通
免费游戏中付费用户模型分析 最近看了不少文章,对于付费用户的模型也有了很深刻的理解和认识,早先我做了不少关于大R,中间R,低端R用户的分析,想来还是觉得草草了事,近来有网友提出来,理论探讨的多了些,实践上手的东西少了点,毕竟还是叫做小白学数据分析啊,今天就把以前说过的付费用户的模型具体的实践一下。 感悟和理论 得到的灵感首先要感谢Nicholas Lovell 的这篇文章,是我得到了一些处理和分析这个模型的办法。连接如下: http://www.gamesbrief.com/2011/11/whales-dolphins-and-minnows-the-beating-heart-of-a-free-to-play-game/ Lovell是从理论的解析了这个付费用户的模型,篇幅很短但是内容很好。早先我们有一个观点就是付费渗透率的提升,意味着收入在随后的一段时间内会逐渐打开和扭转,因为一旦用户开始付费(且这个群体不断膨胀),那么我们的收入就会有起色,这些人会从最开始的一元两元开始发展到几十几百的规模。 事实上呢,这种情况存在,但是更多时候这个看似正确的命题却鲜有证明过。那么我们可以认为收入的增长其实不是靠量的积累,也就是说不是靠你拉来多少用户,有多少用户转化了付费,而是依靠那些少量却能创造大收入的用户。这点在免费游戏中是如此。 现在大多数的游戏是免费游戏,免费游戏去掉了体验游戏的障碍,这就最大程度上意味着解放了用户的消费能力,去除了消费的上限。 由免费游戏的用户构建的虚拟社会本身就是不平等的,因为消费的差异化打开了,因此我们也通过道具得形式不断的解放和发展用户的消费潜能,比如消耗品、升级、美化、社交、金钱换时间的方式。在Lovell的文章中提出了一个模式化免费增值能量定律: 将玩家分成三大类: * 每月投入极少资金的小鱼,通常是1美元。 * 花费“中等”数额的海豚。他们平均每月花费5美元。 * 投入大量资金的鲸鱼。他们平均每月花费20美元。 * 免费体验者属于第四类。 三类用户的分布比例如下: * 小鱼:50%的付费用户 * 海豚:40%的付费用户 * 鲸鱼:10%的付费用户 注意这是能量定律模型的近似估值。你可以调整分布比例和ARPPU数值。但调整分布比例和ARPPU数值会改变预期的曲线。 这里Lovell谈到的付费用户的划分标准时5:4:1,对于这一点我觉得这就确立了我们在对待ARPPU的问题上也要阶梯式的看法,相比笼统的确立ARPPU,空喊提升或者降低,这种确立方式是有效的,也是更加精准的。 实践和结果 按照Lovell的分析和结论,我进行了分析,首先我们拿到用户的充值记录,我们将充值记录进行处理,由原本的交易格式变成基本的表格数据。利用数据透视表得到每个账户的充值金额和充值次数。 在充值金额的曲线上,我们看到基本上是符合幂律分布的。 而对应的充值次数进行分析,也是与充值金额的趋势基本一致,符合幂律分布形式,而我们的接下来的付费用户的分类模型采用什么样的数据进行分类将变得非常重要。 如刚才我所提到的,我们把用户的充值数据变化形式,由交易数据变成表格数据,这一步是最关键,即表格数据我们就可以知道每个付费用户目前充值总额和充值次数。下面我们就利用这种数据进行具体的分析处理。 首先,我们确立几个统计指标,平均数,众数,中位数。 平均数:即ARPPU,也就是充值总额/总充值用户数; 众数:一组数据出现频率最高的值,在Excel中的函数是mode(); 中位数:一组数据中从小到大排列,处于中间位置的数,在Excel中的函数是Median()。 我们完成以上三个数据指标的计算,数据如下: ARPPU 289 mode 50 median 60 如果你愿意,也可以计算一下在交易数据格式下的众数。 接下来,就是比较关键的过程了,这里我使用SPSS进行描述统计,做频数分析,这个过程也可以在Excel的数据分析过程中完成。 把刚才处理好的数据导入到SPSS中,一共三个变量,如下图: 账户ID、充值额、充值次数 随后,我们打开频率分析面板 统计量位置,按照自己的需求进行选取就可以了,如下图所示: 点击继续,等待结果输出,输出后,在左侧会有相应的提示,参照提示查看就可以了,此处我们重点看频率表 如下图,则是输出的频率表 此图中,我们看到50%的用户充值在50元,按照之前的结论,我们把这部分群体划分为小额用户,即小鱼用户。 然而,根据平均数计算的ARPPU的289元,达到该级别的用户不到20%,换句话,ARPPU不能一味笼统的判断目前游戏用户的充值能力和付费情况。 接下来,如果我们按照lovell的划分40%为海豚用户,那么海豚用户应该是达到90%了,如下图: 海豚用户的充值最高达到了571元,最低60元。 随后我们把接下来的10%划分为鲸鱼用户,他们的最高充值达到了千元以上。 以上我们是按照lovell的划分方式进行,接下来我们要进行第三步分析了。 首先小鱼用户占据50%的用户总量,经过数据处理我们得到 ARPPU:35 收入占比:6% 其次海豚用户占比40%的用户总量,经过数据处理我们得到 ARPPU:192 收入占比:27% 第三鲸鱼用户占比10%的用户总量,经过数据处理我们得到 ARPPU:1927 收入占比:67% 经过以上的分析和整理,基本上验证了lovell所说的5:4:1
小白学数据分析--à数据指标累计用户数的使用 累计用户数是指注册用户数的累计,即可以认为是新用户的累计。在一般的数据统计中,我们基本上都会涉及到这个指标,且这个指标是逐渐累加的,比如: 时间 注册用户数[新登用户] 累计注册用户数 1日 100 100 2日 120 220 3日 110 330 … 那么这个指标究竟有什么用?以前作为我自己也没有想到什么比较好用的方式去分析这个数据,既然存在了这个指标,就有存在的价值。此处,我所提到的分析思路和方法也是基于电商的一些分析方法,且对于累计用户数的分析,还具有延展性,能够完成一些更深入的分析,今天就简单的来说说这个指标的分析。 可以想象的是,如果根据累计用户数来做一条曲线的话,这个曲线应该是呈现逐渐增长的形式,且不断增长,然而受到版本更新,新市场开拓,季节影响因素,该曲线是会发生变化的。如下图所示: 从上图可以看到,我们可以把改图分成几个时期,比如在第一个拐点我们可以定义为导入期,该阶段是用户量的引入时期,比如我们有时候游戏进行小范围的测试,之后进入到了快速的增长期,历经过了增长期,我们发现其斜率发生了变化,符合线性回归,当然这不是唯一的形式,根据不同的游戏在其增长期之后的累计用户变化还要根据实际情况确立。 然而我们这里只能是总体上衡量我们目前游戏用户的总量,以及预测后期的用户量的走势,包括活跃情况,以及收入情况的预测。 但是我们有一个疑问,单单看这个图能分析出什么呀?只是确定不同的时期而已? 其实这个图的分析我们还要确立一条曲线,这条曲线就是老用户比例曲线,通过结合老用户比例曲线和用户总量的曲线结合分析,就能够得到更好的分析结果。这种组合的方式分析的结论一般有几种结论。 1)负增长型 浅色的曲线代表的是老用户的比例,通过老用户比例的变化并结合累计用户的变化,我们基本上能够看到游戏目前的用户量的变化和走势,如上图所示,经历过了增长期后,在随后稳定的累计用户阶段,我们能够看到老用户的比例实际上是开始走下坡路了,即随着累计用户的不断,其活跃用户的比例其实是向下走。这点,我们可以通过累计用户数和老用户百分比进行相关性分析,是呈负相关的。这种负增长的形式,便于我们及早发现一些游戏的问题,从宏观上把控游戏质量。这种负相关,我们可以再看看日活跃的曲线来分析。此处明显看到,日活跃是在增长以后,又开始了下降,根据这种下降我们可以预测收入和人气数据。 2)保质型增长 所谓保质型增长其实就是用户量不断增长,但是老用户的比例却没有出现下滑的类型,其隐藏的含义,就是我们的活跃用户是处于增长时期的,保质型增长可以帮助我们在一段时间内能够预测游戏收入情况、用户的增长情况。此处我们再列出来日活跃用户的曲线: 3)断层型增长 所谓断层性增长是老用户比例先高后低再增长的形式,这种情况比如我们新渠道的开拓,大型版本的更新[影响范围和跨度较大],但是多数时候是受制于新的渠道和市场的开拓,此时也要结合累计用户比例的变化情况来分析,也许有人此时会问,那么直接使用新登和活跃用户的变化不是更直接吗?此处加上累计用户的目的就在于从另外一个角度说明游戏的目前变化状态情况[总量与现有老用户的关系] 然而这种变化情况下,如果我们要进行一些预测分析,其难度其实很到,因为很难去把控在下一个阶段的数据走势和变化,之所以我们这里做的这种分析,目的就是为了服务于预测分析。 4)稳健性增长 所谓稳健性的增长,就是老用户增长是随着累计用户数的增长同步的关系,说白了是一种正相关,即总量涨,老用户也在涨。 而实际的活跃用户曲线也确实如此: 总结 说了这么多的废话,为什么还绕个弯子做这些分析呢? 原因其实很简单,老板需要下一个阶段的游戏收入、人气情况,然而对于游戏去做预测这个事本身来说就存在很大的误差,因为受到的影响因素实在很多,因此下一个阶段的预测分析出了要考虑这些因素的同时还要考虑其他的因素,而这些因素就是你的游戏目前处于哪个时期,是稳健的增长,还是保质型增长,还是负增长,或者断层性增长。作为对于未来一段时间的分析,我们必须要参考现阶段的用户变化情况,这是一个参考依据。 如果我们只是列出来一条目前的活跃用户和新登用户的变化曲线,我们不能很好的判断游戏处于的时期和其他信息,比如用户总量的情况与老用户的留存比例等等。 以上写的仅是个人见解和分析思路,请指正。
篇外话 前段时间比较忙碌,小白系列也因此停了一段时间,这期间做了不少分析,发现和总结了不少经验,自己觉得还是很有用,不过倒都是一些基础的东西。最近很多人都在问一些基础术语和计算方式,我懂得不多,在此也想分享一下。 在网站分析、电商分析、网游分析中,对于留存率的关注度极高,这一浪潮随着APP应用、社交游戏的火爆逐渐成为一个很重要的衡量准则,也甚至有了40-20-10准则。对于这个准则不予评价,今天就是简单说说留存率就是是个什么玩意。 留存率顾名思义,就是留下来存在的比率。从时间上我们分为次日、三日、七日、14日、30日、90日、180日。从用户上来分,有新登用户和活跃用户两大类。但是我们大多数是关注时间次日、三日、七日,用户是新登用户。下面具体说说这些个概念以及为什么是这样定义形式。 次日留存率:新登用户在首登后的次日再次登录游戏的比例; 3日留存率:新登用户在首登后的第三天再次登录游戏的比例; 7日留存率:新登用户在首登后的第七天再次登录游戏的比例。 以此类推计算下去就得到了N日留存率。 在此图中,我们看到7日新登用户在8日登录的为次日留存用户,9日登录为2日登录留存用户……这就是留存基本定义,所谓留存率就是留存用户/新登的总量。留存率反映的实际上是一种转化率,即由初期的不稳定的用户转化为活跃用户、稳定用户、忠诚用户的过程,随着这个留存率统计过程的不断延展,就能看到不同时期的用户的变化情况。 之所以是这样,是因为留存是以研究新登用户为目标对象的,即我们研究某一个点的一批用户在随后的十几天,几周,几个月的时间内的生命周期情况,这样的意义是从宏观上把握用户的生命周期长度以及我们可以改善的余地。 因此这里就引申出一个问题,我们为什么要研究的是新登用户?如刚才所说的,我们要宏观观察用户的生命进程情况,那么我们最佳的办法就是从用户导入期就开始,所谓导入期就是用户进入游戏,这个地方我们的分析其实大有作为的,因为用户进入游戏时来源于不同的渠道,通过不同的营销手段拉入游戏,这样我们交叉分析,通过用户的后期留存情况就能从一个层面把握渠道质量,比如,付费,粘性,价值量,CAC成本。 那么说到留存就不得不提到另一个词就是流失,有句话我一直觉得有点道理,就是新用户看留存,老用户看流失,但是从目前我们看到的一些分析系统上似乎这部分都没开发或者省略,因为这部分的难度相对而言比较大,再者,其改善带来的效益不是立竿见影的,因此我们似乎很多时候是忽视了对老用户的质量把控和分析。因为老用户在整个用户的生命进程中是属于衰退期和流失期要关注和解决的问题[实际上从进入游戏就伴随流失,此处只是点了一部分],关于流失这里不再多讲。 刚才说到留存和生命周期扯上关系了,为什么这么说,我们来看看下面的曲线。 这里截取了4天首登用户在随后接近40天的留存变化情况。 上图是跟踪了39天的数据,我们发现留存率的变化初期是震荡的比较厉害,但是随后开始逐步的趋于平稳,下一个时期就开始逐渐稳定,保持在一个水平上,如果持续观察下去,随后开始逐渐的衰退,并最终无限趋于0。 事实上,以上的过程是符合用户生命周期的基本形式,用户在导入期用户量会增加很多,一段时间内如果我们渠道和手段得当,用户初期的几天留存质量会很好,之后随着用户的游戏内等级成长,那么就会逐渐淘汰一些人[实际上就是留存下降,流失加剧的过程],在用户的成长过程中,这样的留存牺牲是必然,而此时的淘汰就意味着接下来的用户成长将会趋于稳定,并保持一个时期。 以上我们所说的三个时期,也就是震荡期[留存高]、淘汰期[留存波动]、稳定期[留存趋于稳定水平],随后的衰退期和流失期那就是流失率分析的部分,因为这个阶段用户留存下的基本就是老用户了,当然此处不是说前三个时期的用户就不需要流失分析,相反用户导入初期的阶段[如果拥有足够的信息],正需要去做流失分析,因为初期流失是最多的。但是由于初期用户参与游戏的参与度有限,提供的信息也是有限的,偶然因素见多,所以就选择做留存分析。 一般来说留存率这类指标是需要长期持续跟踪的,且要根据版本更新,推广等诸多因素结合起来分析,试图去找到玩家的最佳周期进行制定相应的策略提升质量。 此外留存率的分析可以结合聚类,决策树等做进一步的深入分析,用于挖掘渠道具体的用户质量,盈利分析等。这类的深入的分析首先是要建立长期的留存率跟踪分析的基础上进行的,抓住留存率长期的作用特点,才能更好的把握这类深层次的分析。 最后说一句,至于是不是出于稳定期,这个得自己很好的把握和衡量,必要的时候对于变化趋势做一下显著性检验也可以检验一下。
做数据分析这行也有些时间了,前段时间的博客更新的狠勤,这段时间其实更新的不多,不是没有东西,而是一直在考虑是否这些值得发出去帮助更多的新人去学习。回头看看自己写的一些东西,确实理论多了些,废话也多了些,其中道理可能也只有我自己懂得,方法也好,结论也好可能只能是我自己最懂和明白。本来是想分享给更多人更多的想法和观点,到头来其实帮助的人还是有限的。 忽然觉得自己说的方法论多了些,理论多了些。其实很多东西大家估计都明白,回头自己思考了一下,这样的内容贴上来有点不负责,因为说来这是数据分析师都愿意有的毛病---眼高手低。 有时候凭空设计一个模型,做好一个算法,自我在幻想威力肯定很大,实际应用应该很棒。但是往往实际要去做的时候去发现取出来数据是如此的麻烦和繁琐,甚至数据取不出来,再者往往按照模型做出来了,却发现简单的就可以用几个指标就能导出来。所以即使有棒的想法,棒的模型,不经过检验和实践,其实都是虚无的。 我一直在考虑一个问题,做了很长时间的数据,为什么没搞出来几个很引以为自豪的模型和方案,现在我自己了解了,其实很多的方案模型做完就ok了,很少去评估,在实践,不断检验,因此做完的就做完了,连一句话有时候可能总结不出来。还有更多的分析和模型只是停留在纸上,仅仅纸上谈兵,这个时代上嘴唇下嘴唇一动,都能写出来百八十字,但是我们不需要。 有一种感觉一直都有,其实更多的时候大家需要的是干货,告诉我,我可以直接去使用,去实践,就像RFM模型一样,传达一种思想,而且这种思想是马上能够应用的实践的,这个时代模型,方法论够多了,关键是缺乏实践和应用,所谓眼高手低。 因此还是落实实际的分析和应用中,前段时间也是发现自己有点惰性了,什么都是在想,在思考,真正去做的时候太少了。这一两个礼拜都在玩家的生存成长的分析,原来思路也是很闭塞和狭窄的,然而随着不断坐下来,发现了很多新的分析维度和思路,方法也多了,慢慢发现自己构建了一个可以马上去操作的体系。也让我很兴奋,也因此有了这样的感慨。少一些惰性,多一点勤奋,其实外面世界很美好。加油!
这个七月着实忙碌了好久,也是工作的小事情不断,回头想想自己忙什么了,感觉好像真的没什么忙的,不过却又忙碌了这些天。这也是导致这么多天啥也没写的原因。确实现在有点感受到了一个好朋友说的,东西很散,有时候太忙了,没办法写出来。体味了一下这样的感觉,确实很忙,不过每天还是可以拿出那么一点时间来谢谢东西。 这几天和一个圈里的好友聊天,问我怎么来看待现在的工作状态。她也是一个做网游数据分析的分析师,她说一天的工作除了固定的发完每天要做的那部分,似乎剩下的时间就没了什么事可做,最感觉有点后怕的是,作为一个leader,下面一群人还需要指点和安排。这种空洞让她有些不能心安。 事实上,我有很长的一段时间也是这种状态,最后练就的本事时每天的必须工作只需要半小时就搞定了,剩下7个多小时就闲着了,闲的心里面有点害怕,因为怕这种闲。而造成这种感觉其实有时候感觉自己是在浪费自己的青春和时间,想努力抓住一些东西,但是又无法抓住。网游数据分析师说来这个词曝光率都不是很高,上有数据挖掘工程师的大帽子,之后又是业务分析师,运营团队的人,又是研发策划的人压着,其实有时候感觉挺苦逼的,挺悲催的地位,外加上环境和目前的分为并没有看重这个行业进步和发展,也就这样了。 现在几乎每天看到big data,数据分析这些热词,说实话我对于hadoop,mapreduce 这些不是很关心,因为我不是一个要去做技术的人,我对于经济学,心理学,营销学也不是很关心,因为我也不是一个要去做管理的,纯粹的运营的人,我有自己一个独立的称号网游数据分析师。 也许这个职位的价值不被数据挖掘工程师认可,因为你的技术没他们好,连个算法都搞不懂; 也许这个职位的价值不被运营人员所认可,因为你的分析和知识他们就能做到,连业务都没吃透; 也许这个职位的价值不被研发的人所认可,因为你根本就不懂研发,狗屁不是。 但是为什么还要坚持呢?因为存在价值。 因此就不必怀疑自己自己的价值,如果你热爱这份职业。 一个网游数据分析师不该停留在那些指标上,侃侃而谈就ok了,我们要去吃透那些指标,我们要去理解业务,驾驭上层的数据。同时,我们却又要不断的去探究为什么,因为数据挖掘工程师不会告诉你为什么,他们只能告诉你what,而你作为一个数据分析师,在业务者与挖掘者之间,就要解决,最终服务于运营业务的how。 所以我们可以不懂得高深的算法,但我们要懂得如何将算法应用,如何驾驭那些软件。我们不懂得市场,但是我们要懂得一点长尾,懂得一点怪诞心理,懂得一点社会性。我们不懂得设计,但是我们懂得一点用户体验,购买决策。 其实思考了很久,我觉得作为一个数据分析师,最终就是在构建个非常完整和健康的CRM。基本上层和底层的数据构建和服务对象都是CRM,只是这个东西从未完整和很好的应用过。在这点上,前几天我听过有人说我们做出来的游戏是要我们自己完全能够掌握和把控的产品,不然就会很危险,这点我不怀疑,但是最终的问题是你的产品是要给玩家来玩的,你懂得你的玩家吗?作为业务者只给你一堆指标就能够看出玩家的变化和行为的了吗?作为挖掘者,得出特征,就能直接指导设计改进了吗?我想都不太现实,这都是需要协作和融合的。 无论是细分数据和还是宏观的数据指标控制,都是相互依赖和分析并存的,因此作为数据分析师不只是懂得业务,也会去尽量懂得挖掘数据,这只是一个基本的要求,此外还要有如下的要求: 数据挖掘工程师不见得关心长尾理论,但是你要去关心; 运营人员和团队不见得关心神经网络,但是你要去关心; 最后我想举一个例子,前段时间看过一篇介绍分析永恒之塔流失的文章,作者在最后说尽管他们成功预测了流失概率,但是仍旧找不到流失的原因何在,也不知道该去如何控制改进。这个问题上挖掘者已经做到了,但是业务层包括研发层还是不能找到问题,你觉得这个问题该谁去解决?
这是一篇很早的杂文了,当时我记得是看到在线平高比比较好奇,索性就研究了一番,后来很多人对我这种行为很不理解,就是一个简单的在线平高比,有什么可以研究和追问的。但是,其中仔细研究下发现还不是那么简单的。接下来我们解决几个问题。 什么是在线平高比 在线平高比,也有叫做CCU比率的,即平均在线占最高在线比例,公式就是R=ACU/PCU。这个公式看似很简单,大家估计很多人都会使用,那么究竟这个公式要说明什么问题?在解释问题之前简单的把ACU和PCU说明一下,因为很多人还不清楚。 ACU平均同时在线人数 定义 统计当日所有统计时刻中总在线人数的平均值,即总的在线人数的和除以统计时刻数。比如: 在00:00:00————6000人在线 在00:10:00————6600人在线 在00:20:00————6900人在线 总在线人数之和19500人次,3个统计时刻,那么ACU=19500/3=6500人。至于PCU就是这样的统计数据中最大的值。比如上述的数据中PCU=6900。 ACU/PCU的预警值 ACU/PCU的预警值是0.5,也就说在一款游戏中我们能够接受的最低标准是0.5,低于0.5的标准就说明游戏存在比较大的问题。那么为什么必须是0.5? 首先我们来看CCU曲线图 我们都清楚在游戏中一天24小时,晚间是一般游戏的高峰时期,PCU也一般会在晚上出现,当然也有在下午的出现的时候,都不尽相同。这也就意味着一条CCU曲线必然是有很大的起伏和落差的。 CCU曲线绘制的前提是通过对每个统计时刻的数据进行汇总才能得到这条曲线,那么这样现在我们这样来做这条曲线,如下图: 我们看到了橘黄色的部分其实就是这一天所有统计时刻的人数总和,其实也就是橘黄色部分的面积,这是一个不规整的图形,显然如果我们要去计算这个图形的面积只能通过微积分解决(这也是微积分的定义和来源)。 那么说的这些和ACU有什么关系? 如我们所定义的,ACU是平均同时在线人数,是总人数/总的统计时刻,ACU的出现等于说把这个不规整的图形变成了一个长方形,长是统计的时刻,宽是ACU的值。 可以看到我们把原来不规整的图形变成了一个完整的长方形,ACU作为了基准线,那些在基准线以上的面积补充到了基准线以下的部分,从而构成了这个长方形。 至此,我们就可以开始解释为什么是0.5了。原因其实很简单,如果出现在了ACU基准线以上的部分越多,那么整体上的PCU表现就越好,进而我们也就发现了在24小时内玩家的上线活跃度是提升的,增高的。 但是实际当中情况不是这样的,更多的时候其实是一段时间走高的,比如晚上7点-12点这段时间的数据时走高的,这是PCU缓慢形成的时间区间。而同时我们在计算ACU时,取的是平均值,PCU拉的越高,就意味着这形成这一峰值所需要的时间是很长的(一般不会出现瞬间形成PCU),换句话形成PCU,得有一个缓慢上升的过程,但是我们希望这个上升想斜坡长,陡,这样也以为着活跃的用户很多。 然而如果我们发现这个比值已经低于0.5了,那么也就意味着: PCU形成的不明显,波峰被稀释掉了; 关键时期的人气没有得到提升; 游戏产品的生命周期进入衰退阶段(长期0.5以下); 突发情况造成。 ACU/PCU能干什么? 刚才已经说了这个指标低于0.5时的分析情况,那也是这个指标的用途所在,补充还有几点: 我们看到了ACU是经过计算的平均值,相比PCU而言,其变化幅度是相对比PCU缓慢的,进而ACU变化的缓慢,PCU变化是很迅速的,因为PCU容易受到很多因素的影响: 比如某个新活动; 新版本的更新; 小号泛滥; 事件营销。 进而我们可以推断出,一般情况下这条曲线是不会剧烈的变化(因为不受影响的情况下PCU波动也是相对稳定的),但是如果有了以上的因素刺激,那么这条曲线变化很剧烈。这样很容易就能知道一些我们想要的结果,利于我们分析,比如 游戏游戏粘性是否下降; 游戏活动分析; 版本更新分析; 活动更新分析; 工作室小号情况参考。 总的来说,虽然只是一个比值,但是其背后的只是和内容还是很多的,这需要我们去分析和把握。
Clementine是一个很有用的工具,在网游日常数据的处理中,其应用程度不低于Excel和SPSS,尽管Clementine是一个数据挖掘工具,但是在数据处理等方面的功能很强大,在几十万到几百万甚至几千万数据处理上,都能够应付,而Excel仅仅处理在一百万左右的数据。使用Clementine有一段时间了,就从基本的开始说起吧,先说说源节点是什么? 每一个数据处理工具,都需要支持很多种数据格式,由于我们数据存储形式,或者存储软件的因素造成了我们有时候数据的格式会有很多种,为此作为一个好的数据分析软件,首要的就是要支持很多的数据格式,这样避免的大数据转换格式耗费的时间和成本。 在Clementine中就有源节点来完成这个工作,源节点顾名思义,就是数据来源的节点。对应在Clementine中有一个源选项版来完成这个工作,如下所示: 企业视图有关信息这里不解释,目前暂无应用。 数据库源节点 Cle中使用ODBC将数据导入,支持Oracle、SQLServer、DB2、MySQL等。但是这种方式导入数据,就必须首先配置ODBC数据源,有关如何配置该数据源,这里不再累述。可以自行参考网上的很多教程。Cle对于数据库的支持有三层: 1) 所有可能的 SQL 回送都可用,并具有数据库特定的 SQL 优化 2) 多数 SQL 回送可用,具有非数据库特定的 SQL 优化 3) 没有 SQL 回送或优化,只能向数据库读取和写入数据 使用下列一般步骤访问数据库中的数据: 为要使用的数据库安装 ODBC 驱动程序并配置数据源; 在数据库节点对话框中,使用表模式或 SQL 查询模式连接到数据库; 从数据库中选择表; 使用数据库节点对话框中的选项卡,可以更改使用类型和过滤数据字段; 现在我们已经完成了ODBC安装和配置数据源的工作。下面我们要在Cle中连接数据库,进行查询访问,双击数据库图标,进入数据流工作区域,右键单击编辑,弹出如下的对话框: 上图为数据选项卡的选项,用于获取数据库访问和选定我们要进行操作的表。 模式 可以通过对话框连接到指定的表上,也可以通过SQL查询查询使用的数据库。 数据源 此处指定我们需要的数据源,可以手动填写,也可以通过下拉菜单进行添加,此处我们铜鼓下拉菜单添加,如下图: 在弹出的对话框中,我们选择test数据源。 数据源 列出目前我们可用的数据源,如果是刚刚添加的,单击刷新,选择数据源,输入用户名和密码就OK了。 表名 通过选择按钮选择我们进行操作的表,如下图所示: 给表名和列名加上引号 在数据库中进行查询时,指定是否要将表名和列名括入引号内(例如,这些名称是否可包含空格或标点) 去除开头和结尾的空格 选中选项以丢弃字符串中开头和结尾的空格。 可变文件节点 相当于Excel分列操作使用分隔符的模式 可以使用可变文件节点从自由字段文本文件(其记录包含的字段数不变,但包含的字符数可改变)中读取数据,该文件又称为分隔文本文件。此类型的节点也可用于具有固定长度的页眉文本和特定类型的注解的文件。每次读取一条记录,并将这些记录传递到流中,直到读完整个文件。 读取定界文本数据时的注意事项 必须在每行末尾处用换行符分隔记录; 必须使用逗号或其他字符(最好是仅用作分隔符,即该字符不能出现在字段名称或字段值中)分隔字段; 每一行(包括标题行)都应包含相同的字段数; 第一行应包含字段名称; 第二行必须包含数据的第一条记录; 数字值不能包括千位分隔符或分组符号,—例如,3,000.00 中不能使用逗号; 日期值和时间值应该采用“流选项”对话框中可识别的的格式之一,例如DD/MM/YYYY 或HH:MM:SS。 我们导入一个文件,单击可变文件,右键编辑,弹出如下的对话框: 读取文件中的字段名 默认是选中的,此时把文件的第一行看作是列表前,即变量名。每个字段也能被分配一个名字,当然了,如果我们第一行没有列标签时,就可以取消选中。 指定字段数 指定每个记录中的字段数。只要记录以新行结束,就可以自动检测字段数。也可以手动设置字段数。 跳过标题字符 指定要忽略第一个记录的开头处的多少个字符。 EOL 注解字符 指定字符(例如 # 或 !)以表示数据中的注解。无论这些字符之一出现在数据文件的何处,从该字符起直到下一个新行字符(不包括)之前的所有字符都将被忽略。 去除开头和结尾 丢弃导入字符串中开头和结尾的空格。 无效字符 空字符或者指定编码中不存在的的字符,通过丢弃进而删除了,或者替换成其他字符。 小数符号 选择在数据源中使用的小数分隔符类型。 定界符 选择将将数据进行分列的符号,也可以自己指定符号,此处是复选,也就是说可以使一个以上的分列手段,这点和Excel的分列大同小异。 类型的扫描行数 对于指定的数据类型要扫描的行数 引号 如何处理导入数据的单引号和双引号问题 在此对话框中操作任何时刻,都可单击刷新以从数据源重新载入字段。在更改到源节点的数据连接时,或在对话框的选项卡之间进行操作时,此操作都非常有用。 固定文件 相当于Excel分列操作的固定长度模式 所谓固定文件是相对可变文件而言,使用固定文件节点从固定字段文本文件(其字段没有被分隔,但开始位置相同且长度固定)中导入数据。机器生成的数据或遗存数据通常以固定字段格式存储。使用固定文件节点的“文件”选项卡,可以轻松地指定数据中列的位置和长度。 选择固定文件,右键单击编辑,选择一个文件,如下所示: 数据预览窗格可用来指定列的位置和长度。预览窗口顶部的标尺有助于测量变量的长度并指定变量间的断点。通过单击字段上方的标尺区域可以指定断点线。通过拖动可移动断点,而将其拖动到数据预览区域之外则可丢弃断点。 面向行 如果要跳过每个记录末尾的新行字符,可选中此选项。 跳过标题行 指定要忽略第一个记录的开头处的行数。这对忽略列标题非常有用。 记录长度 指定每个记录中的字符数。 字段 已为此数据文件定义的所有字段都在此处列出。有以下两种定义字段的方式: 移动标尺,进行控制指定字段; 通过向下面的表添加空字段行手动指定字段。单击字段窗格右侧的按钮添加新字段。然后在空字段中输入字段名、开始位置和长度。这些选项会自动在数据预览窗格中添加箭头,并且可以轻松地调整这些箭头。 SAS源节点&SPSS源节点 SPSS文件导入对话框 SAS文件导入对话框 SAS导入支持四种文件格式,如上图所示。导入数据时,所有变量都将保留且不更改任何变量类型。 SPSS和SAS中需要说明的内容: 读取名称和标签 选中此选项将变量名称和标签同时读入。默认情况下将选中此选项,并且变量名称将显示在类型节点中。根据流属性对话框中指定的选项,标签将显示在表达式构建器、图表、模型浏览器和其他类型的输出中。 读取用作名称的标签 选择从文件中读取说明性的变量标签而不是短字段名,并将这些标签作为变量名称在 Cle中使用。 Excel源节点 Excel的数据导入相对来说不是很麻烦,作为我们经常使用的工具,有必要介绍一下,下图为导入数据的对话框: 工作表 索引或者名称指定要导入的工作表。 索引 指定要导入的工作表的索引值,开头的 0 表示第一个工作表,1 表示第二个工作表,依此类推。 名称 指定要导入的工作表的名称。单击省略按钮 (... ) 从可用工作表列表中进行选择。 工作表上的范围 可以第一个非空行作为开始导入数据,也可通过指定单元格的显式范围导入数据。 总结 以上为Cle数据导入的大部分内容,作为数据处理的关键一步和第一步,意义还是很大的,也是作为数据处理的最基本知识。以上的内容参考SPSS Modeler 14.2帮助手册。
上次简单的说了一下SPSS下使用两步聚类分析的大致过程,今天简单说说在Clementine下怎么进行聚类分析,方法同样是两步聚类。 之前说过聚类分析是无指导的,揭示的输入字段集的模式,不是一种预测。在我们输入的字段上进行聚类分析找出组合最佳,能够反映共同属性的模式。两步聚类有两步,第一步是扩展,处理成若干子聚类,第二步利用分层聚类方法进行合并,形成大的聚类,实际上是剪枝合并的过程,此步不再进行数据处理。分层聚类不需要确定聚类数,这点在两步聚类分析中得以避免,因为分层聚类经常因为处理大数据量而失败,但是第一步的数据预处理得以避免了这个问题的出现。 两步聚类分析的数据要求 1) 角色设置必须为输入,其他的目标、两者或者无都会在分析中被忽略; 2) 不处理缺失值; 3) 模型构建时,忽略输入字段包含空白的记录。 下面就说一下在Clementine中操作过程和注意事项。 首先我们打开Clementine[有关Clementine的基础操作以后会慢慢整理],第一件事就是要引入我们要分析的文件,目前clementine支持的数据文件格式非常丰富,如下图: 今天我们使用的文件是SPSS文件的格式,因此,在源选项卡,双击SPSS文件图标,就会出现以下的画面[或者左键点击直接拖入数据流编辑区域]: 之后右键编辑,弹出窗口,在弹出窗口找到要分析的SPSS文件,引入: 点击类型的标签,可以看到目前字段的类型、是否缺失、设置方向等等信息,如下图: 点击确定,完成了数据文件的引入操作,但是往往我们文件中的一些字段在进行分析时是不需要的,有一些字段的属性还需要调整,数据质量还要检验,因此简单说说这个过程。 数据质量检验 输出选项卡,双击数据审核图标,此时就会自动连接数据文件,数据审核帮助简单分析和整理原数据文件的情况。 右键单击数据审核图标,选择执行,弹出窗口,可以看到字段类型、是否有空值、完成度等信息,弹出如下的窗口: 分析字段选择 有一些字段在我们分析的时候是不需要的,比如我们这个文件中的playerid字段就没什么实际利用意义,为此这一类的字段我们可以实现进行排除,这样后续的操作和分析会比较便利,此处我们做的是次日留存玩家的特征提取和分析,由于此处我们使用的文件已经是经过处理的,即已经把非新登用户那一部分数据踢出了,否则此处我们就必须使用这个功能[次日留存玩家设置为NO,非新登玩家次日登陆的设置为YES],此处我们通过选择排除playerid这个字段。 单击字段选项,双击选择过滤图标,并使之与源文件连接: 右键编辑,在打开的窗口中,把playerid过滤掉,点击箭头即可,变成红叉表明被过滤,在后续的分析中不会出现该字段。 此时我们可以连接显示一下过滤以后的数据内容形式,在输出选项,双击表图标,连接一个个表,此时右键执行,看到如下的效果,发现playerid木有了。 下面到了比较重要的地方,我们选择建模,之后选择细分标签里的两步,双击,连接到文件上,效果如下: 右键两步图标,选择编辑,弹出了两步节点模型的选项 模型名称 可以选择自己设定,也可以系统生成。 使用分区数据 若定义了分区字段,那么这个选项保证了仅仅训练分区的数据用于构建模型。此处我们没有进行数据的分区操作,不必勾选这个选项。 标准化数值字段 默认情况下,两步聚类会对所有数值输入字段进行标准化,使它们具有相同的尺度,即均值为 0 且方差为 1。要保留数值字段的原始尺度,可取消选中此选项。符号字段不受影响。 排除离群值 如果选中此选项,则那些与主要聚类似乎格格不入的记录将自动排除在分析之外。这样可以防止此类情况歪曲结果。 IBM官方手册的解释如下: “离群值检测在预聚类步骤进行。选中此选项时,会将相对于其他子聚类具有较少记录的 子聚类视为潜在离群值,且重新构建不包括这些记录的子聚类树。子聚类被视为包含潜在离群值的下限大小由百分比选项控制。如果其中某些潜在离群值记录与任何新子聚类配置足够相似,则可将其添加到重新构建的子聚类中。将其余无法合并的潜在离群值视为离群值添到“噪声”聚类中并排除在分层聚类步骤之外。 使用经过离群值处理的“两步”模型对数据进行评分时,会将与最近主要聚类的距离大于特定阈值距离(基于对数似然)的新观测值视为离群值分配到“噪声”聚类中,名称为 -1。” 聚类标签 为生成的聚类成员关系字段指定格式 自动计算聚类数 “两步聚类可以非常迅速地对大量聚类解决方案进行分析并为训练数据选择最佳聚类数。通过设置最大聚类数和最小聚类数指定要尝试的聚类解决方案的范围。“两步聚类”通过一个两阶段过程确定最佳聚类数。在第一个阶段,随着所添加聚类的增多,可基于贝叶斯信息准则 (BIC) 中的差异选择模型中聚类数的上限。在第二个阶段,为聚类数比最小 BIC 解决方案还少的所有模型找出聚类间最小距离的差异。距离的最大差异用于识别最终聚类模型。” 指定聚类数 如果确定聚类数,也可以自己自行指定。 距离测量 同样这里有两种,欧式和对数似然,但是由于有分类变量只能选择对数似然。 聚类准则 准则有BIC和AIC,确定自动聚类算法如何确定聚类数。 之后点击执行,但是此时我们发现了如下的错误: 原来我们对于过滤后的数据,没有进行数据类型的重新指定,为此此处我们要重新指定数据的类型,字段选项卡,双击类型,之后再次连接两步的图标,此时就OK了。如下所示: 此后,执行模型,返回聚类模型结果信息,如下所示: 双击打开该模型,显示信息如下: 模型显示主要有模型,查看器,汇总三个重要的标签,此处先看汇总: “两步”聚类模型块的“汇总”选项卡显示找出的聚类数以及有关训练数据、估计过程和所使用的构建设置的信息。 查看器主要是通过图形化手段显示聚类的信息,便于用户更加直观的分析(但是我觉得很蛋疼,没发现直观那里去)。 相比较而言我觉得比较有用的模型界面,这里能够很直观看到我们使用该算法构建的模型的具体情况,这里我们分析的次日留存的玩家的特征。在确定的变量我们构建了两个类。 可以看到一类比较庞大,但是注意:得到的模型一定程度上取决于训练数据的顺序。重排数据顺序并重新构建模型有可能得到不同的聚类模型。并且通过聚类分析得到的以此结果并不能足够说明我们整个玩家的特征,其显著性是需要检验的,这受到诸如游戏活动,聚类分析样本提取时间,等很多的因素影响,换句话要想具有普适性,还是需要迭代,不断的综合和分析整理才能拿出来玩家的特点,切勿选取一批样本数据,得到的玩家特点就放之四海,利用起来,而这也是CRISP-DM所提出的早期的工作重中之重和加入评估阶段的要义。所以还是多多进行如此类的时间,有的放矢才能做好。
昨天分享了以前学习的聚类分析算法K-Means的部分知识,其实这个主要是了解一下这个算法的原理和适用条件就行了,作为应用而不是作为深入研究,能够很好的将业务和算法模型紧密结合的又有几人呢?所以一些基本知识还是很必要的,这里就是简单把看过的一些知识点列举一下,梳理一下,快速了解和使用。 今天把TwoSteps的知识也梳理一下,顺便做个小的演示,使用SPSS 19,后续在使用SPSS Modeler或者叫做Clementine再演示一次使用方法。首先上图。 TwoSteps支持数值型和分类型数据,这对于我们而言在使用时就方便很多,此外游戏数据一般来说都很大,TwoStep在这方面来说还是很具有优势的,数据迭代过程中的内存消耗和聚类数目确定,TwoStep表现的都很好,两步聚类避免了距离矩阵过大,导致算法执行效率下降,而这也是优势所在。好了以上的信息看多也没什么意义,还是看看怎么实践吧。 最近换了工作,开始做手机网游的数据分析,也是想尝试一下,面临一个问题就是游戏的留存比较差劲,想来想去就拿这个做一个聚类分析的例子吧。 首先,这里选取的是次日留存用户数据进行分析,之所以选择次日,是由游戏的特点决定的,再者手机游戏的周期相对短一些,所以如果考虑周,双周就不是很好了(当然也不是绝对的),其实3日留存也可以选择,只是需要了解你自己的游戏具体情况再做判断。 其次,选择什么时间的次日留存数据分析呢?这个问题困扰了我很长时间,因为本身分析新登玩家次日登陆的那部分群体的特征(其实这样分类的方式已经有些破坏了聚类分析的本质和诉求),我选取的时间是周五(为什么是周五,这里不说了,大家自己想),且从时间上,全部渠道(手机游戏渠道很多)均以开放,且离最近的开放的渠道有一段周期(数据平稳后)。同时游戏没有重大的更新,BUG,调整时期。 第三,既然要做聚类分析,那我们选什么数据作分析,提取特征呢?我们要做的是提取次日留存用户的特征,因此,根据需要我们提取了一些用户的数据点,如下图所示: 其实,还有很多的数据,然而这里很多都是取不出来的(2进制,你懂得),由于分析的是次日留存,因此用户的游戏进程大多数不会很长,这里也只会取一些和新登用户关联比较大的,比如来源,职业,好友,是否付费,等级(最高和最低等级)。其实按照我们分析的围堵不同还可以取其他的数据,这里就是一个演示,请见谅。下面就用SPSS 19演示一下怎么进行该计算过程。 打开“菜单|分类|两步聚类”,如下图所示: 弹出的菜单如下: 此时,要进行变量选择,如果是分类变量,就选择进入分类变量,如果是连续变量,就选择进入连续变量,选择如下: 距离变量:确定计算两个变量之间的相似性,对数相似值系统使用对数似然距离计算,而欧式距离是以全体变量为连续性变量为前提的,由于我们的数据中存在分类型变量,因此这里选择对数相似值。 聚类数量:允许指定如何确定聚类数。如果自动确定将会使用聚类准则中指定的准则[BIC 或者 AIC],自动确定最佳的聚类数,或者设置最大值。也可以指定一个固定值,不过一般来说就自动确定OK了。 连续变量计数:对一个变量是否进行标准化的设置。 点击选项,弹出如下的面板 离群值处理:这里主要是针对CF填满后,如何对离群值的处理。IBM SPSS手册如下所诉: “如果选择噪声处理且 CF 树填满,则在将稀疏叶子中的个案放到“噪声”叶子中后,树将重新生长。如果某个叶子包含的个案数占最大叶大小的百分比小于指定的百分比,则将该叶子视为稀疏的。树重新生长之后,如有可能,离群值将放置在 CF 树中。否则,将放弃离群值。如果不选择噪声处理且 CF 树填满,则它将使用较大的距离更改阈值来重新生长。最终聚类之后,不能分配到聚类的变量标记为离群值。离群值聚类被赋予标识号–1,并且不包含在聚类数的计数中。” 关于噪声处理,此处默认即可。 内存分配:指定聚类算法应使用的最大的内存量。如果该过程超过了此最大值,则将使用磁盘存储内存中放不下的信息。此项默认就行了。 连续变量的标准化:聚类算法处理标准化连续变量。 点击输出:弹出界面如下 图和表: “显示模型相关的输出,包括表和图表。模型视图中的表包括模型摘要和聚类-特征网格。模型视图中的图形输出包括聚类质量图表、聚类大小、变量重要性、聚类比较网格和单元格信息。”有点用。 评估字段:“这可为未在聚类创建中使用的变量计算聚类数据。通过在“显示”子对话框中选择评估字段,可以在模型查看器中将其与输入特征一起显示。带有缺失值的字段将被忽略”可以不用理。 OK,此时,点击继续,然后确定,等待计算结果出来,这时首先弹出的是查看器: 之后双击这个模型,就会弹出来聚类浏览器: 以下介绍该浏览器的信息来自于IBM SPSS的官方手册,详见:http://www.dmacn.com/viewthread.php?tid=78&extra=page%3D1 “聚类浏览器”包含两个面板,主视图位于左侧,链接或辅助视图位于右侧。有两个主视图:模型摘要(默认视图)分群。有四个链接/辅助视图:预测变量的重要性.聚类大小(默认视图)单元格分布。聚类比较。 “模型摘要”视图显示聚类模型的快照或摘要,包括加阴影以表示结果较差、尚可或良好的聚类结合和分离的 Silhouette 测量。该快照可让您快速检查质量是否较差,如果较差,可返回建模节点修改聚类模型设置以生成较好的结果。结果较差、尚可和良好是基于 Kaufman 和 Rousseeuw (1990) 关于聚类结构解释的研究成果来判定的。在“模型摘要”视图中,良好的结果表示数据将 Kaufman 和 Rousseeuw 的评级反映为聚类结构的合理迹象或强迹象,尚可的结果将其评级反映为弱迹象,而较差的结果将其评级反映为无明显迹象。Silhouette 测量所有记录的平均值,(B A) / max(A,B),其中 A 是记录与其聚类中心的距离,B 是记录与其非所属最近聚类中心的距离。Silhouette 系数为 1 表示所有个案直接位于其聚类中心上。 值为 1 表示所有个案位于某些其他聚类的聚类中心上。值为 0表示在正常情况下个案到其自身聚类中心与到最近其他聚类中心是等距的。摘要所包含的表格具有以下信息:算法。所使用的聚类算法,例如“二阶”。输入功能。字段数量,也称为输入或预测变量。分群。解中聚类的数量。 关于模型的使用的详细信息这里不再累述,请参考 官方手册 IBM SPSS Statistic 19 Base.pdf [152-159]
聚类分析是一类广泛被应用的分析方法,其算法众多,目前像SAS、Splus、SPSS、SPSS Modeler等分析工具均以支持聚类分析,但是如何使用,尤其在网游数据分析方面,作用还是很大的,尤其是我们对于某些客群的分析时,排除人为的分组的干扰,客观和全面的展现客群的特征是一件很重要的事。 网游玩家的消费特征、游戏行为特征(副本、任务、交互)、不同生命周期的玩家特征(新登玩家、留存玩家、流失玩家、回流玩家)等等,应用很广泛,然而我们发现有时候我们的划分是带有主观色彩的。比如明确分组变量、确定分组标准等等。这些特征的提取和指定往往需要很多的行业经验和大量尝试,而我们只希望分组时兼顾更多的因素和客观事实,减少人工标准的干预。 因此,聚类分析的出现就是解决这个问题的,今天把以前的学习笔记内容拿出来晒晒,说说K-Means吧,后续再说说其他的算法,最后集中的说说做的案例。 源文件下载:http://www.dmacn.com/viewthread.php?tid=76&extra=
昨天发现充值异常增高,于是准备做一次详尽的分析,但是当我开始提取数据时,发现了一件比较异常的事情,这是在查询玩家的购买记录时发现的(这是因为往往我们要分析充值时,也要辅助的去看一下当日的购买情况),截图如下: 可以看得到玩家对于该道具的购买需求很高,在一段时间内不断的购买,但是商城不支持批量购买,玩家每次交易只能买一件,然后再次点击再次购买。看到这里,我点蛋疼了。 针对这个问题,昨晚和BOSS聊了一些,就是在讨论商城购买支付环节的问题。总的理解起来是目前的商城购买UI已经是确定符合玩家的习惯的UI,之所以之前没有做批量购买的原因在于手机网游在商城的购买如果玩家输入数量是需要切换输入法并且需要时间的。此外部分道具已经做了打包处理购买。 这个批量购买的功能是不是可以在手机网游产品中出现,昨天我一直在思考这个问题,纠结起来的原因有以下几点: 手机网游道具的批量自主购买存在输入法的局限; 批量购买优势相比目前购买究竟体现在哪里; 好的UI设计是否可以弥补这个“缺陷”; 玩家的需求真的需要这样来做吗? 第一个疑问 手机网游道具的批量自主购买存在输入法的局限 首先,关于输入法的问题,我觉得这不是个问题了,大概我们都清楚,目前的手机应用很多已经解决了这个问题,这里举个例子,我用手机登录人人网时,当输入账户时,其输入法界面自动调整成以下的形式,这里有“@”,“.”,这是为了方便用户输入的方便,因为大部分人还是用邮箱注册的账户。 然而当我跳到了密码区时,输入法形式在此发生了变化,这个切换已经完成了。 相比这个而言,我们发现我们只是希望玩家去完成批量购买,那么我们只需要锁定此区域的输入只能是数字,诸如以上的自动识别调整就OK了。那么也就不存在输入障碍的问题。 这里描述的是一种办法,然而还有另一种办法可以解决,首先如下的截图: 这是另一款手机网游的商城购买界面,当我们选择一样道具进行购买时,会弹出下面的界面: 看到这里大家应该都明白了,当玩家的输入不顺畅时,UI上我们是可以进行弥补的,通过四个方向箭头和不同的数量级,完全可以满足玩家的购买需求。同时玩家的购买某些时候倾向于整数购买,即便出现零头购买,这里的整体购买成本会很小,比如购买时间消耗,在数据中我发现一个玩家在线2小时,总计有半个小时在购买道具,而某一单一道具购买消耗了10分钟。 此外,这里其实还可以增加一个辅助设计,比如我们通过大量的玩家充值购买发现,单日玩家对于A道具购买在10个左右(比如喇叭),那么我们就把购买的默认值设置成10个,在这个基础上玩家自由选择,可以说也是减小了购买的成本。示意图如下: 第二个疑问 批量购买优势相比目前购买究竟体现在哪里 其实,回答这个问题很简答,缩短了玩家的购买决策时间,购买成功率提升。 在《营销管理》一书中提到了关于消费者的购买决策过程理论(在付费渗透率_II中会继续讲这个购买决策过程),这里通过拆解购买决策详细的说说(受益于培训)。下面的就是玩家要购买道具的一个基本过程(简化了消费者购买决策理论)。 产生道具认知 既然我们是讨论玩家批量购买道具,那么这里我们可以认定玩家已经建立了对道具的认知,换句话玩家知道这个道具是对我有用的,是我最需要的。 寻找购买渠道 这里也不存在障碍,因为玩家既然存在了认知,必然是购买过和使用过道具,不存在寻找购买渠道的障碍,这一步的障碍多的时候是发生在新道具上架,以及初次购买道具的玩家。 期待价值评估 如之前所述,玩家存在了认知,对于期待和价值反馈是不存在障碍的,除非我们自己调整了道具的数值和属性,一般不会存在障碍。 做出购买决策 然而在做出购买决策的环节上,我们就出现了问题,当玩家决定要买了,如果是买20个,却要一次一次的重复购买过程,可能买到第10个,玩家就决定了不再买了,在购买这个环节因为购买的不通畅而最后放弃购买余下的部分,这是我们的损失。购买决策过程的风险是最高的,因为我们可能因为支付的不通畅,购买的便利度,购买疲劳,购买怀疑等问题放弃购买,所以宗旨希望让玩家尽可能的缩短做出购买决策的时间,这样的成功几率就会增大。批量购买就是缩短了原来一次又一次重复购买的麻烦(因为每次重复购买都是在做出一次购买决策)。 购买后的行为 如果前面的过程很顺利,那么到这一步其实玩家的体验是很好的,批量购买体验好于重复购买,而且在某些情况下,批量购买带来一些冲动型付费收入。 针对上述决策过程一些其他的信息在后续的付费渗透率_II中具体再说。 第三个疑问 好的UI设计是否可以弥补这个“缺陷” 我对UI或者UX不太懂,不过我觉得这些东西的目的是增加便利度,也就是玩家在购买这方面,我们追求的是方便玩家找到想要的,满足购买的需求。如果UI设计满足不了玩家的购买需求,那就还是得修正一下。这里只是我理解的好的UI的概念,这个好的核心就是人性化。此处不多谈,慢慢理解。 第四个疑问 玩家的需求真的需要这样来做吗? 为什么做批量的购买设置,这就好比你登录淘宝本来要买两件衣服,但是告诉你,你非得两次分开付费,两次结算是一样的。 当玩家存在一种需求是,我们就要想办法去满足,从数据库营销来看,我们在玩家的信息中已经找到了这种需求,那么我们就有理由去满足这种需求。虽然玩家可能感觉不强烈,但是实在的行为却发生和被记录在数据库中。 玩家存在需求证明我们这一个点是存在价值的,是可以做好从玩家身上攫取利益的,那么我们通过数据分析或者挖掘也好,找到这种潜在的需求,进而做出最好的能满足这种需求的设计和改进。当然这个过程中是绝对离不开数据分析的,数据库营销值得好好思考和做下去。