过快、过量、过度:三类数据驱动型决策中的常见问题(附大量资源)

简介:


0?wx_fmt=png

在大数据的时代,很多公司通过采用数据驱动方式进行决策。在本文中我想谈一下我们在数据分析过程中三种常见失误:过快--急于求成、过量--图囵吞枣、过度--信息过载。

(注:本文附大量外链资料,建议先收藏再查看)


◆ ◆ 

过快:急于求成

还没找到实际问题就提出解决方案


不要担心在定位问题上花费太多时间。关于越早开始行动,越能提前完成项目的理论不一定正确,如果未能充分理解关键问题可能会浪费更多时间。无论你是在思考一个新的产品特性,对公司未来发展方向的战略决策,建立机器学习模型,还是给你的同事写邮件,都要确保你有花时间去了解项目的真正需求,而不是浪费了大量时间和精力后才发现方向错了。


别忘了,你所要解决问题的类型决定了对应的解决办法。比如在数据科学领域,建立模型前必须要了解该模型是为了加强调用(你的模型在多大程度上可以反馈特定数据),还是加强准确性(在所有正向预测中,有多少是准确的)。从最初开始定位项目目标有助于增强模型的准确性,降低漏报(针对调用)及报错(针对准确性)发生的可能性。


《哈佛商业评论》一篇相关文章推荐了以下方法帮助你解决真正问题

(相关链接:https://hbr.org/2012/09/are-you-solving-the-right-problem)


第一步:设定解决方案的需求

第二步:调整该需求

第三步:将问题情境化处理

第四步:写下问题陈述


另一个著名方法是MBA项目教授的“五问法”,一种由丰田集团开发的问题解决技巧,有助于通过重复拷问“为什么”来触及问题的根源。

(相关链接:https://en.wikipedia.org/wiki/5_Whys)


◆ ◆ 

过量:图囵吞枣

对于重要的和无关紧要的指标不做区分


生活在大数据时代,我们能通过大量工具追踪各类用户活动,拥有各种指标来定义每一个用户的行动。然而有多少指标是真正有用的?你能够通过观测这些指标来得出可行的方案么?


重要的是质量而非数量。比起追踪全部的数据,不如试着找出那些真正能够衡量产品健康程度并加以改善的关键绩效指标(KPI)。根据商业模式,公司目标和产品生命周期,决定哪些KPI是你需要关注的重点。


我推荐大家了解下Dave McClure的演讲,他将项目开发的指标分成了五类:


用户获取

用户激活

用户留存

用户推荐

收益增加

(相关链接:http://www.slideshare.net/dmc500hats/startup-metrics-for-pirates-long-version/2-Customer_Lifecycle_5_Steps_to)


大数据文摘后台回复“常见问题”下载Dave McClure的相关演讲ppt


另一个知名的极简方法是《精益数据分析》(Lean Analytics)中提到找到“第一关键指标”(详见下方链接)。

 https://growthhackers.com/videos/video-lean-analytics-one-metric-that-matters-omtm/


◆ ◆ 

过度:信息过载

试图发现根本不存在的模式


因为我们的直觉并不总是对的,而数据有时令人惊讶,尽管我们一直在寻求通过数据驱动进行决策,应用常识也很重要。要记住,模型世界并不是世界本身。你的模型存在假设和局限性,有时这些会将你引入歧途。不管模型告诉你什么,无论是肯定了你的预测还是告诉你特殊结果,你都要用自己的判断力,思考预测正确的概率以及信号的强烈程度。


有时候被发现的并不是“真相”。我们可能没有意识到,自己自己有时在无意识的寻找不存在的信号。通过了解行业的更多方面,竞争格局,宏观经济因素,周期性影响和其他因素有助于更准确的设定增长目标并依据数据得出科学的结论。例如,某些参与指标的下降不一定是消极型号,可能只是周期性影响,客户投诉的增加可以是一个健康增长的迹象,因为它体现了用户基数的上升。


“相关性不一定是因果关系”在统计学中,这用来强调两个变量之间的相关性并不意味着一个因素会影响另一个。有时人们阅读博客是为了优化他们的数据驱动决策,有时事情就这么发生了。:-)

原文发布时间为:2016-11-28

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 编解码 缓存
视频平台技术成本控制的量化方法
在线视频平台为用户提供服务时,面临的一个严重的挑战是,如何保证在为用户提供流畅 且稳定播放服务的前提下,尽量降低整体运营成本。本篇文章将围绕上述问题,重点讨论技术实践中的成本控制手段。
视频平台技术成本控制的量化方法
|
3月前
|
存储 机器学习/深度学习 数据采集
大规模数据处理:释放数据潜能的关键路径
在信息时代,大规模数据处理已经成为企业和组织中不可或缺的一环。如何高效地处理海量数据,释放出宝贵的数据潜能,已成为技术界和业界共同面临的挑战。本文将深入探讨大规模数据处理的重要性、挑战以及相关技术的突破,以期为读者揭示大规模数据处理的关键路径。
|
8月前
|
程序员 开发工具
衡量程序员能力最好的方式
衡量程序员能力最好的方式
60 1
|
9月前
|
数据采集 机器学习/深度学习 存储
量化高频交易系统策略模型开发搭建
量化高频交易系统策略模型开发搭建
|
9月前
|
供应链 调度 决策智能
基于条件风险价值CVaR的微网动态定价与调度策略(Matlab代码实现)
基于条件风险价值CVaR的微网动态定价与调度策略(Matlab代码实现)
|
9月前
更好的进行决策与判断
更好的进行决策与判断
45 0
|
11月前
|
存储 文件存储 数据安全/隐私保护
为部署的系统做出正确的数据存储决策
为部署的系统做出正确的数据存储决策
EMQ
|
机器学习/深度学习 人工智能 运维
激活海量数据价值,实现生产过程优化
EMQ云边协同工业互联网解决方案,将人工智能与云计算技术接入到传统的工业生产中,帮助企业实现数据流、生产流与控制流的协同,降本增效。
EMQ
154 0
激活海量数据价值,实现生产过程优化
|
存储 监控 计算机视觉
谈谈企业数据价值计量的一个可行方法【航空公司案例】
当有人指出“数据是宝贵的企业资产”时,通常每个人都会点头表示赞同。但没有多少人有实际方法来证明和展示数据的实际价值。
谈谈企业数据价值计量的一个可行方法【航空公司案例】
|
存储 安全 数据管理
这个“2-3”的数据分类分级方法也许对你很有价值
当前,数据成为企业的生产要素参与分配,数据价值越发显得重要。
这个“2-3”的数据分类分级方法也许对你很有价值