摘要:数据可视化有很高的弹性,很多产品公司了解到客户的需求以后,首先评估,然后设计开发流程。然而有时客户对自己的需求并不明确,因此如何用非常短的时间去表达客户的业务理念和把客户提供的信息用格式化方式展现出来,以及去探明客户的需求,是非常重要的。讲师以自身经历讲解了一系列运用大数据所遇到的问题以及解决方案。
新的一次认知革命
大数据加上今年非常火热的AI带来了新的一次认知革命,在历史地位上可能和人类发明文字一样重要,改变了人们的认知方式。传统的认知方式,一个组织会有很多的部门,包括业务、销售,运营等部门,并且所有的部门可能会有多套不同的系统。在传统的认知领域当中,所有的数据聚在一起,由于使用不同的系统、数据和业务,里面会有大量的领域知识,这些领域知识要耗费人类的大量智慧去处理。随着技术的发展,如今发生了以下三大变化:
1.分布式架构、网络、云计算的发展,意味着技术能力无限;
2.深度学习的发展,意味着模型的解知能力无限;
3.移动互联网和完善的基础设施的发展,意味着可用来分析的数据也是无限的。
这一切都推动着大数据和人工智能的发展,因此,理想状态下,所有的数据会经由一套系统,然后会以统一的口径和统一的模型交给决策者。这个过程是没有人参与的,因此大大缩短了学习和决策周期。
当我们做一个决策的时候,做决策的循环在现阶段是非常普遍存在的,做出决策的快慢与好坏从一定程度上是影响到你的竞争对手,理想状态下,循环通常会有以下几个步骤:
1.观察:多数据来源、快递的处理链路、更为可信;
2.理解:模式识别、相关性分析、交叉分析;
3.决策:决策支持、模拟(what if);
4.行动:直观的计划和明确的指令。
大数据应用和解决方案
现实是骨感的,真正在做数据应用的时候你会发现有很多坑,例如:
1.数到用时方恨少:数据有很多,业务系统的东西也很多,然而要用的时候,能用的好像并不多。
2.要什么?不知道;什么时候要?现在要!客户或者领导的需求其实并不明确,他就是希望你能现在就给他一些建议,像魔术师一样变出一些他想要的东西。
3.现实世界VS报表世界:虽然很多业务都在信息系统上了,但并不是所有的现实世界发生的事情都被采集到信息系统内。
4.关键数据缺失;数据虽多但不存在完整的资料和文档。
5.链路跑通只是噩梦的开始;当链路终于跑通时,又会遇到以下三个问题:数据准确吗?模型可信吗?能做的比业务专家更好吗?
6.像十九世纪的伦敦烟卤工;为什么说是十九世纪的伦敦烟卤?很多传统的业务会有很多独立的系统,每一个业务部门和业务需求都是独立招标的。
以上是我们在实际运用中会碰到的坑,甚至是无法避免的,我有以下几点建议:
1.尊重现实,尊重业务,至少在项目初期,保持学习者的心态。
2.快速跑通,尽可能把你跑通的数据用可视化的形式展现出来,告诉组织内部的决策者,这样做是为BOSS建立可信的信息来源。
3.避免使用传统架构:云服务已经提供了太多很好的选择,例如数据集成、DATA IDE、流式计算、日志服务、弹性搜索和数据开发管理等。因为数据化下的工程大部分都是CEO工程,信息系统的整合往往意味着流程的再造,所以你要争取非常好的内部的合作心态。更多的为业务部门提供一个展示成绩的渠道,帮助业务部门解决实际问题或给他们以推动问题解决的帮助。
4.搭建一个合理的数据链路和逻辑:将大部分数据源在数据接口层原样复制,经过一定清洗之后得到基础数据层和描述事实的数据层,再根据客户的多维需求形成想要的维度,从而形成应用层。只有链路+逻辑都是正确,数据才会正确,因此链路方面我们可以通过自动的校验机制基于规则和统计来保证链路是正确的,逻辑数据则要花很多时间去理解业务,形成一个知识,这个知识就在处理逻辑的可溯源的《血缘文档》或《血缘管理》里面,这在多个数据源和复杂数据是必须要做的。
5.数据可视化:首先要尽可能快的给出第一版内容,然后给客户指引,了解到他要什么,中间再经过不停的修改,最后将可视化项目整合到数据集成。最好的可视化,是不用解释而客户就能很自然地可以看懂态势。有两种常见的可视化解决方案,最简单的方案是直接在系统和数据已经结构化了之后形成数据可视化,较为复杂的方案则需要数据链路+权限控制,再形成数据可视化。
商业智能分析
最后谈一下关于大数据在商业智能上面的话题,当给客户做应用或者是提供服务和解决方案的时候,很重要的一点是要知道客户的效率和生产率,对于销售人员而言,如果在网上通过销售渠道去做,那么需要提高的效率是点击率了。而对于线下的销售而言,用同样的方案就没用了。关于商业智能算法的应用主要有两方面,在竞争性业务场景主要是营销互联网方面,会加速OODA的循环——甩开对手或者不被对手甩开,更快的投放广告采取精准的营销方式。而另一方面,对于效率性的业务场景,主要是生产类的。因为在做工业优化或者说产线优化的时候,停产线去实验新的技术,成本是非常高的,所以更多的是从历史数据中寻找优化方式,看能不能从过去的生产供应参数和环境的波动去寻找出一些特定的模式出来,把这些作为接下来的实验指导,去降低探索新的工艺的门槛。