
奇点云作为AI驱动的数据中台创导者,专注为企业提供“两云一端”的产品和服务。基于全球领先的视觉计算和IOT技术多端触达消费者,构建企业自己的数据银行,并通过先进的数据技术和AI算法,不断推动企业数字化转型升级。让数据创造价值,让商业更智能。
9月28日,数据中台服务商奇点云宣布已于近日完成1.2亿元B1轮融资,火山石资本、德同资本联合领投,晨兴资本、元一资本跟投。其中晨兴资本作为老股东,已连续三轮加持。本轮融资将聚焦研发投入与人才引进,并持续发力产品服务建设、加速市场布局。 数据中台推进期,奇点云进入快车道 2019年被业界称为数据中台元年。复合大数据与人工智能能力的数据中台正式进入大众视野,并逐步在企业、政府、组织落地实践——不仅在阿里、网易、滴滴等互联网大厂,在零售、金融、地产等行业亦已初显成效。 2020年,国家将“新基建”写入政府报告,并作出重要部署。为对抗黑天鹅的影响,越来越多企业积极拥抱数据智能。数据中台作为应对未知和不确定性的基础设施,正全速推动企业实现数智化转型,撬动新机会,促动新增长。与此同时,数据中台行业正式进入推进期。 艾瑞咨询2019年中国数字中台行业研究报告表明,2018年,中国数字中台(数据中台+业务中台+算法中台等)规模为22.2亿元,并在2019-2022年间保持72.1%的复合年均增长率,2022年将达到179.4亿元,未来将成长为千亿级别市场。 奇点云在这个时刻获数亿元融资,意味着其过去三年多研发和落地的成果广受认可,并以成熟的形态全速驶入快车道,领跑数据中台行业。 三年行业沉淀,迎来逆势增长 奇点云的创始团队来自阿里巴巴,其创始人兼CEO张金银(花名:行在)是原阿里云大数据平台“数加”创始人,阿里巴巴首个数据仓库建立者,曾主持创建TCIF(淘宝消费者信息工厂),拥有数据交换等20多项大数据方面专利。 在张金银眼中,奇点云是一家“站在技术与商业的交叉点”的公司: 一方面,承袭张金银的阿里大数据基因与数十年的数据实战经历,奇点云始终致力于推广先进的数据技术、理念和AI算法,帮助更多的企业建立面向未来的数据基础能力;另一方面,上数据中台不是为了“上数据中台”,而是为了真正把数据用起来、赋能业务。 阿里云“数加”时期遇到的两个问题——“大炮打蚊子”、“鸡同鸭讲”在张金银脑海中始终挥之不去,反复提醒他:不可陷入“技术自嗨”,要从客户的角度提出适合客户的方案,以免给客户造成负担;要深耕行业,理解客户,洞悉痛点,能解决业务问题的数据中台才是好中台。 连投三轮的晨兴资本合伙人袁野表示:“一家数据中台服务商成绩单的打分权在客户,在我们的观察中,行在(奇点云CEO张金银)很好地贯彻了‘客户第一’的理念,并不断刷新自己的成绩。企业数字化智能化的浪潮才刚刚开始,长跑需要耐心和耐力,这也是我们一直选择和奇点云共同前进的原因。” 据悉,2019年奇点云的合同额近70%来自老客户复购,2019年客户首年留存金额高达近200%,复购和好口碑是其注重客户效益的强力佐证。截至2020年9月,奇点云已服务500+客户,其中包括LVMH、lululemon、凯德中国、居然之家、得益乳业等企业,累计为近50%泛零售业头部客户提供数智化转型服务,并在政府、金融、运营商、制造业都获得了很大的突破及认可。创立以来,始终保持“0交付失败”的战绩,真正帮助客户在云上迈过“奇点”。 2020年初疫情突袭,多个行业遭受重创,亟待革新突破。奇点云逆势而上,实现了连续三季度盈利,这在整个数据中台行业都属首次。 究其原因,本轮联合领投方火山石资本董事总经理刘昊分析,奇点云做对了三件事:“其一,不摊大饼,做深一个行业后再去拓其他的行业;其二,做产品化,把行业经验提炼为核心模块,确保交付效率和稳定性——目前产品组件化程度已提升至70%;其三,‘端到端’,从咨询到落地应用的全链路服务,一直负责到出效果。”目前中国仍有80%的企业处在较为初级的数字化转型阶段,奇点云认为,既懂行业、又懂技术的“端到端”服务模式才是匹配客户数字化程度的最佳解决方案。 联合领投方德同资本合伙人陆宏宇表示:“德同资本坚信数据化运营能力将成为各行各业企业的核心竞争力之一。奇点云‘端到端’的服务融合了技术能力和行业认知,已让部分企业客户享受到了数据带来的价值,并积累了众多标杆案例。” 奇点云的数据星图:云原生,端智能 长势正劲,奇点云的能力体系亦不断拓展。 本轮融资发布的同时,奇点云也首次向外公布了其未来能力布局“数据星图”: “云原生,端智能”是奇点云能力布局的内核,也是数据星图中每一组星系的运行逻辑。 未来所有的数字世界都将构建在云计算的基础之上,“云原生、端智能”是构建和运行应用程序的架构思想和基本方法,核心是不断释放云计算和大数据的红利,产生更多的业务应用,让更多的公司能够实践和发展生意。 狭义来讲,“云原生”指企业的大数据底座,搭载数据、算力和算法能力,“端智能”则指在平台(“云”)之上,结合行业场景、企业业务“长出来”的智能应用。 基于“云原生,端智能”的理念,中台必须承担集合整个组织的运营数据能力、产品技术能力的任务,对各前台业务形成强力支撑——支撑一线业务敏捷、快速适应瞬息万变的市场环境。 接下来3-5年内,奇点云将依旧专注数据中台,对此,张金银解释到:“数据中台连接最广泛的数据,在不改变原有系统架构的前提下,可以最大限度释放数据的价值,帮助企业实现低成本在线、高水平重复和小前端创新,是一切数据业务的起点。” 同时,奇点云将继续从行业场景、业务需求出发,探索并研发一系列智能算法,助力企业在走向数字化的同时,抢占智慧化的高地,建立数智壁垒。 “数和智的全面结合才是未来。”张金银总结到,“这是奇点云的能力体系布局,其实也将是未来每一家‘数据公司’需要具备的能力体系布局,我们会用这些能力来支持企业、政府、组织实现数智化转型。” 首次公开数据星图的同时,奇点云也发布了其全新的会员运营产品“DataNuza”。 DataNuza,奇点云自研的一站式会员运营平台,凝练大数据和AI算法能力,为企业提供全链路的会员运营服务,实现客群运营、精准营销,为顾客生命周期提频增值,为企业降低营销成本、提升转化率。其核心模块包括CDP、MAP及CAP,分别实现人群洞察与圈选能力、营销创建与复盘、营销渠道与内容赋能。 据悉,DataNuza是奇点云针对泛零售领域“人、货、场”三大要素的关键能力布局。 张金银介绍,DataNuza有三项最受客户关注也最能为客户带来价值的核心能力:其一,强大的企业一方消费者数据整合变现能力;其二,一站式精准营销与多渠道消费者运营能力;其三,有工具、有方法,快速赋能一线业务人员。 S100计划:为了数据智能的未来 “一个人走得快,一群人走得远。” 融资发布同时,奇点云也公开了“S100”战略,旨在与更多标杆企业建立伙伴关系,用数据智能普惠社会: 未来3年内,奇点云聚焦泛零售、金融、政府、运营商行业,与100家愿意抢先推开DT时代大门的企业(标杆客户)深度合作,提炼行业理解,孵化行业真正需要的产品和服务,赋能更多企业拥抱数智化转型。奇点云特别设立了三千万元共创基金,专项用于S100计划。 “三年100家”对一家势头正劲的创业公司来说,似乎并非难事。谈到“三年之期”,张金银解释到,奇点云一直坚持长期主义,一家企业建立它的数据能力需要3年,并在未来不断完善、创新和升级。 “所有行业都值得用数据中台重做一遍。”早在奇点云创立之前,“普惠大数据”就成为了张金银的愿景。进入B轮的奇点云将肩负“AI驱动的数据中台创导者”的责任,与客户、伙伴携手共创共赢,拥抱数据智能的未来。
数据模型能够促进业务与技术进行有效沟通。只要基于数据进行决策及拓展业务边界,好的数据模型必不可少。 那么,企业究竟该如何构建数据模型呢? 9月16日,「数智·泛零售」04课,奇点云高级数据模型架构专家天启结合实践经验分享的《泛零售数据中台实施之模型设计》解答了疑惑。 01 数据中台能解决什么问题? 我们用四个字总结「全、统、通、用」。 全:数据中台和数据仓库的区别,数据仓库是满足业务需求或业务主题的;而数据中台是一个大而全的概念,为企业提供战略性的数据中台服务。数据应收尽收,所有能沉淀到数据中台的数据都收集到数据中台,包括增量、全量、实时、离线的数据。 统:统一数据标准规范。从数据质量标准、安全标准、模型规范、开发规范统一起来形成数据资产。 通:打通人的身份ID、商品ID、媒介ID,消除数据孤岛。 用:体现在数据服务,用起来会有流共享、批共享及其他共享。总结起来:「全」是基础;「统和通」是途径;「用」是最终目的,最高境界是数据驱动业务创新和变革。数据中台=方法论+实施+工具 数据中台能落地的关键点:强大的数据中台理论体系支撑+大数据实施流程体系、业务团队能力+大数据建设产品工具集。 One Data方法论 One Data = One Model + One ID + One Service One Model:统一数据模型,规范指标、标签,消除二义性,将数据从成本中心变成利润中心。One ID:实体ID的唯一性,数据打通后进行数据升维,将数据从孤立变为融通。One Service:统一数据服务,数据从过去的复制到一次开发,多次复用。 02 数据模型选择思考 熟悉数据仓库的同学都了解两位大师,一位是数据仓库之父——Bill Inmon,他提倡的顶层设计是自顶向下的,采用三范式的设计,非常严谨可减少数据的冗余。 另一位是维度建模大师——Ralph Kimball,维度建模更简单,执行起来更容易上手。顶层设计思路是自底向上的,从业务出发,从概念模型到逻辑模型再到物理模型,提倡先有数据集市,各个小的数据集市可以组成数据仓库。 这里仅列举两种模型:星型模型与雪花模型。星型模型是维度建模中比较经典的模型,也是目前用的较普遍的模型,星型模型是所有维度表都直接连接到事实表上,整个图解就像星星一样。 雪花模型是对星型模型的扩展。通过三范式建模,数据冗余比较少,更加规范、严谨,更有利于保持数据的一致性。 通常情况下,为了让下游能更好理解业务,快速提供数据服务,我们会选择星型模型;而在维度信息变化非常频繁,或者数据存储成本非常高的情况下,我们可以采用雪花模型。归根到底,数据模型没有好坏之分,只有能否解决业务问题。 那泛零售企业该如何选择数据中台模型? 从顶层设计、建模理论、业务场景三个大方向考虑。顶层设计:数据中台是大而全的概念,Inmon大师自顶向下的设计思路兼顾业务全局,比较符合数据中台理论。 建模理论:主要以维度建模为核心,结合多种建模百花齐放。 业务场景:如泛零售行业最主要的是「人货场」,从「人」:组织、客户;「货」:商品、服务;「场」:渠道、门店、商场等;「行为」:订单、营销、工单等考虑。 One Model 普遍情况下,一个大的集团可能有好多个大的业务板块,比如地产、金融、电商等。而一般的小公司业务比较单一的话就只分一个业务板块。 数据域是面向业务分析,将业务过程或者维度进行抽象的集合。 业务过程是指企业的业务活动事件,如下单、支付、退款都是业务过程。 维度设计是维度建模的灵魂,也是数据中台模型设计的基础,维度设计的核⼼是构建⼀致性维度。而粒度可以认为是维度的组合,如卖家和买家结合起来可以理解为两个维度,一个粒度。 03 数据模型最佳实践 好的数据模型最终都为业务而生。 具体来说,就是把业务抽象化,提炼成数据模型,再通过数据解决业务问题。 数据建模过程中有哪些常见问题? 数据域划分:可理解,全局考虑,数量适中。 业务过程:是一个逻辑的概念,需与度量关联。 一致性维度:做维度表的时候,有的公司有自己的主数据系统,但有些公司没有自己的主数据系统,需要将数据合并,因此诞生了桥接表,用逻辑的维度表,底层是多张表拼凑而成,且维度表每天都在变化。 明细事实表:分为多事实、单事实、无事实的事实表,很多人会误解为事实表一定要有度量值,但不一定,有的是行为的操作数据,甚至维度表和事实表之间可以相互转换,只有在粒度一致的情形下,才能将多个的事实进行合并。 数仓分层:从ODS-CDM-ADS。 了解维度和粒度之间的关系, 粒度是维度的组合。 数据模型过程中,有何设计心得? 数据不丢失,是最重要的一点。在ODS层的设计就需体现,要长期保留数据。 数据不重复,为保证数据治理的准确性,重复的数据需要提前剔除。 模型能共享,数据集市中的模型共享容易做到,数据集市是满足业务需求的,但是数据中台的模型共享,明细事实表和维度表都需要用到,但是业务会不断进行迭代和创新,所以也可能避免不了要从原始数据中取的可能。 空间换时间,为了能更大程度进行共享,可以做冗余的设计。 任务能重跑,保证后期的运维能力。 业务是爸爸,所有不考虑业务的数据模型都是耍流氓。即使数据模型设计得再好,若业务模型不认可,不满足业务的数据模型都是无效的。数据模型最终都是为业务服务的。不管是黑猫白猫,在一定的设计思想里满足之后都是可以进行创新的。 04 数据模型的前沿畅想 新方向=产品化+行业化+智能化 模型产品化盘点即上云:若对数据进行认真盘点,收集足够多的元数据,把表结构、字段类型、数据库类型,只要把元数据盘点完后一键导入,并可以一键生成头部任务,因此,数据开发人员只需要解决异常情况即可。 设计即开发:有了模型的设计,维度表、事实表、指标定义后,底层的代码是自动实现的,不必再担心SQL的优化、性能调优。 资产即服务:所有的数据进行模型设计后,所有的表都可以进行数据资产化,有了资产即有服务。 模型行业化每个行业有明显的特点,如泛零售行业对人货场的分析比较固定,因此建的模型固定的部分是可以通用的。 模型智能化模型设计越来越简单,容易上手,模型物理层的优化越来越智能,模型和智能应用结合,赋能业务。
「如何真正理解数据中台?只有大厂才需要考虑数据中台吗?数据中台的出现会给企业现有的战略、业务、技术带来哪些挑战?」 与其讨论什么是数据中台,泛零售企业对「如何利用数据中台解决业务问题并带来盈利」更感兴趣。因此,如何利用好数据中台成为新的增长引擎,正成为一门新课题。 在实践过程中,我们发现很多泛零售企业不清楚如何真正用数据中台有效解决业务问题,想要盈利也变得愈加困难。 9月9日「数智·泛零售」03课,地雷老师的分享中提出了建议,在实施数据中台前,泛零售企业必须梳理3个问题: 1、数据中台在泛零售行业中是成本中心,那老板为什么要斥巨资投资做数据中台呢? 2、数据中台落地的每一步,能带来哪些业务收益?上数据中台不同于上ERP、CRM及内部管理系统,数据中台是非常底层,刚开始业务部门可能都感受不到它的存在,需要老板有战略决心。3、设想中的数据应用,涉及到哪些现有系统和数据? 从以上3个问题总结,其实需要从战略、业务、技术实现三个层面去考虑。 如果你是一位有着多年数据中台建设的老手,看到某些指标,可能你就可以感受到项目实施的成功率。比如说业务部门比IT部门着急,催着IT部门上线,那就对了。意味着有了清晰的战略和业务出口,最忌讳的是先做数据中台,将数据汇集并存起来,未来再进行数据挖掘及变现。 数据中台VS传统数仓 40年前就出现的数据仓库概念和今天盛行的数据中台有何差别?尤其在技术上又有什么差异性呢? 我们听到最多的可能是以下这两种回答: 1、是IOE为代表的传统技术栈,转向Hadoop等开源大数据技术。2、增加了类似离线计算/实时计算/数据资产/数据API这样的功能模块。 再仔细想想,仅仅是技术因素吗? 技术当然会更新迭代,数据中台在技术上比传统的数仓在处理的数据量上大大提高,如果仅仅考虑至此,当被问到老的技术撑不住新的业务了吗?在传统的线下零售情形下Oracle就搞不定吗?这些问题是可能是矛盾的。 我们认为数据中台是业务概念,而非技术概念。 相比传统数仓,数据中台离业务更近,能更快的响应业务和应用开发的需求。数据中台的首要出发点并不是数据,而是业务,帮企业解决业务问题,让企业的业务效率更高。 大数据时代,数据是一种「石油」,直白地讲,数据经过汇聚、生产、服务,是可以给企业赚钱的,也是所有业务的出发点。 数据中台的终局是什么? 是将数据变现,让数据本身「生钱」。 同时,这也是数据中台兴起的初心,和传统的数仓不同在于,传统的逻辑上,这些都是成本中心,但数据中台是一门新的生意,将数据攒下来进行生产并变现。 意味着数据中台项目在一开始就要奔着生产数据中台产品并且能卖钱进行建设,这也是上一代和这一代在业务上最本质的区别。 如果实施几期之后,开始规划计量计费功能,那么就对了!因为正在朝着对外服务并进行收费的方向进行。 在划分数据中台的功能模块时,一种典型的思路,采用典型数据开发的技术导向,一级信息架构类似这样:离线计算/实时计算/数据资产/数据API…… 不以技术划分,而是以数据生产的场景划分。 如果开始按照数据开发、数据运维、数据服务、数据资产等岗位场景组织产品功能,事情就对了。 泛零售业务的技术挑战 一般泛零售企业没有阿里双11那样的场景,应将重点应放在哪里?产品形态又如何? 泛零售企业都是线上线下协同的,既有线下场景,又有线上场景,数据来源也极其庞杂。泛零售企业数据用的时候实际场景也是混杂的,需要跨域协同。 对数据治理来说,一方数据、二方数据、三方数据的依次处理,与业务都有强关系。光有数据而不能赋能业务的,都只能算是半吊子。 未来所有的企业核心都会变成加工数据的企业,虽然泛零售行业数智化转型不一定保证成功,但不做数智化未来注定失败。 当泛零售企业发现:数据问题导致变现出现困难时,就是该上数据中台的时候了。数据主动向业务前端靠近,这也是DT时代数据变现的发展大趋势。
口述者行在(张金银),奇点云CEO,阿里巴巴第一个数据仓库的创建者,阿里巴巴第一个消费者数据平台TCIF的创建者,阿里云数据智能平台数加的创始人,2004年以数据技术专家身份加入阿里巴巴以来,12年来一直投身于大数据事业。2016年离开阿里巴巴,创立奇点云,旨在用「AI驱动的数据中台」赋能线下,让商业更智能。 2009年,阿里云开启了中国的云时代。 十年市场教育,中国的公有云市场也已经从无到有,迈过了300亿元大关,预计到2021年更是能达到900亿元的规模。 「数据中台」已经从一个技术词汇,慢慢转变成为企业界的共识:如果想要在信息商业中拥有一席之地,就必须要借助云计算和数据的力量,完成企业的数字化转型。 只是,数据到底在转型中扮演什么样的角色,要如何利用好数据,数据上云后如何支持业务,企业需要哪些核心能力?这些问题,对于大多数的非技术业者而言,仍然是知其然不知其所以然。 一般而言,「数据上云」更多强调的是数据的存储和计算,而要让数据能够赋能业务,则更需要「数据中台」来进行数据处理,进而支持业务决策和优化运营。 这是「数据中台」和「数据上云」最大的不同。 数据中台最终要帮助企业降本增效 作为数据业务领域的先行者,阿里云总裁张建锋,在最新的演讲中,把数据智能作为数据处理的核心能力: 今天处理数据绝大部分都不是单纯靠算力,算力是基础,而主要是靠上面的智能化的算法,算法跟各行各业的业务有密切相关,所以阿里巴巴通过与各行各业合作,沉淀了一个完整的智能化平台。我们认为在基础设施的云化、核心技术的互联网化以及在之上叠加大数据+智能化的平台和能力,完整地组成了阿里云智能的整体能力框架。这是我们核心的能力。 这里面传达出了几个核心信息: 1.云计算为数据智能提供了基础算力; 2.行业(经验转化而来的)算法是智能处理数据的主要工具; 3.数据+智能的平台和能力,前提是基础设施的云化和核心技术的互联网化; 这是阿里云所认为的数据处理的能力框架,而在目前的市场上,我们通常把这种能力框架称为「数据中台」。 舆论往往会更强调技术的作用,强调技术对业务的推动作用,但事实上,在商业领域,更多的时候,技术发展都是跟着业务走,技术的发展常常来自于业务需求和业务场景的倒逼。 例如,随着越来越多的企业把业务流程上云,日益增长的数据存储和仍然稀缺的数据应用就成为了企业的主要矛盾之一,而且,这种矛盾不是一天就能够解决,需要从业务、技术、组织几个不同的领域一起来探寻数据的解决方案。 简单来说,「数据中台」就是这一系列解决方案的基础设施。 数据中台不是一套软件系统,也不是一个标准化产品,站在企业的角度上,数据中台更多地指向企业的业务目标,也即帮助企业沉淀业务能力,提升业务效率,最终完成数字化转型。直白点说,中台只讲技术,不讲业务,都是大忽悠。 这么多年来,互联网的发展都建立在更低成本、更高效率的连接之上,线下也一定会复制线上的发展逻辑,用更多连接带来更多的数据。 比如,通过摄像头,我们就可以低成本建立顾客的Face ID档案,从而丰富人和店铺的关系数据,店铺进而可以根据数据分析结果,给顾客提供更有针对性的服务项目。 更多连接,更低成本,更高效率——所有跟流通相关的线下生意,数据中台的意义就在于降本增效,别无其他。 数据中台发展经历了四个阶段 在数据史上,2015年是一个重要的关口:2015年全年产生的数据量等于历史上所有人类产生数据的总和,这是数据从乘数型增长全面转向了指数型增长的方向标,海量数据处理成为全人类的挑战; 同一时间,阿里巴巴向外发布了DT时代的提法,用Data Technology(DT,数据技术)替代了Information Technology(IT,信息科技),强调数据技术将成为未来商业的驱动力。 一个标志性的事件是:阿里巴巴用几百人的运营团队支撑了几万亿的GMV,其中60%-70%来源于数据支持的机器决策,机器智能赋能业务,用更低的成本,更高的效率去服务顾客,提供千人干面的个性化体验。 未来学家认为,机器智能最终会超越人的智慧,而这两者的临界点就被称为「奇点」。从这点来说,我们可以认为,阿里巴巴已经跨越了奇点,真正成为一家数据公司。 下面我们从数据的角度来梳理下这个过程。 阿里巴巴的数据处理经历了四个阶段,分别是: 一、数据库阶段,主要是OLTP(联机事务处理)的需求; 二、数据仓库阶段,OLAP(联机分析处理)成为主要需求; 三、数据平台阶段,主要解决BI和报表需求的技术问题; 四、数据中台阶段,通过系统来对接OLTP(事务处理)和OLAP(报表分析)的需求,强调数据业务化的能力。(数据中台演进的四个阶段) 第一个阶段是数据库阶段。 淘宝还只是一个简单的网站,淘宝的整个结构就是前端的一些页面,加上后端的DB(DataBase,数据库),只是个简单的OLTP系统,主要就是交易的事务处理。 这个阶段,互联网黄页才刚刚出现,数据来源大部分还是传统商业的ERP/CRM的结构化数据,数据量并不大,也就是GB的级别。简单的DB就能满足需求。 这里要说明的是,OLTP的交易场景和OLAP的分析场景区别在于,前者强调高并发、单条数据简单提取和展示(增删改查),后者对并发的要求不高,但是需要打通不同的数据库,比如ERP、CRM、行为数据等等,并且能够进行批量的数据处理,也就是通常说的低并发,大批量(批处理)、面向分析(query+计算,用于制作报表)。 随着淘宝用户超过100万,分析需求的比重就越来越大。淘宝需要知道它的交易来自于哪些地区,来自于哪些人,谁在买淘宝的东西等等,于是,就进入了数据处理的第二个阶段。 第二个阶段是数据仓库阶段。 正如前文所述,OLTP和OLAP对数据存储和计算的需求非常不一样,前者处理的是结构化的交易数据,而OLAP对应的是互联网数据,而互联网里面数据量最大的是网页日志,90%以上的数据都是点击(log)什么的非结构化的数据,而且数据量已经达到了TB的级别。 针对分析需求,就诞生了数据仓库(DW,DataWarehouse),我2004年加入阿里,用Oracle RAC搭建了阿里巴巴第一个DW,解决大量数据的存储和计算需求,也就是去把非结构化的数据转化成结构化数据,存储下来。 这个阶段,DW支持的主要就是BI和报表需求。 顺带提一下,数据库(DB)这时也在从传统DB转向分布式DB。主要原因是以前交易稳定,并发可控,传统DB能满足需求,但是后来随着交易量的增长,并发越来越不可控,对分布式DB的需求也就出来了。 随着数据量越来越大,从TB进入了PB级别,原来的技术架构越来越不能支持海量数据处理,这时候就进入了第三个阶段。 第三个阶段是数据平台阶段,这个阶段解决的还是BI和报表需求,但是主要是在解决底层的技术问题,也就是数据库架构设计的问题。 这在数据库技术领域被概括为「Shared Everything、Shared Nothing、或Shared Disk」,说的就是数据库架构设计本身的不同技术思路之争。 Shared Everything一般是针对单个主机,完全透明共享CPU/MEMORY/IO,并行处理能力是最差的,典型的代表SQLServer。 Shared Disk的代表是Oracle RAC,用户访问RAC就像访问一个数据库,但是这背后是一个集群,RAC来保证这个集群的数据一致性。 问题在于,Oracle RAC是基于IOE架构的,所有数据用同一个EMC存储。在海量数据处理上,IOE架构有天然的限制,不适合未来的发展。阿里巴巴的第一个数据仓库就是建立在Oracle RAC上,由于数据量增长太快,所以很快就到达20个节点,当时是全亚洲最大的Oracle RAC集群,但阿里巴巴早年算过一笔账,如果仍然沿用IOE架构,那么几年后,阿里的预计营收还远远赶不上服务器的支出费用,就是说,如果不去IOE,阿里会破产。 Shared Nothing的代表就是Hadoop。Hadoop的各个处理单元都有自己私有的存储单元和处理单元, 各处理单元之间通过协议通信,并行处理和扩展能力更好。中间有一个分布式调度系统,会把表从物理存储上水平分割,分配给多台服务器。 Hadoop的好处是要增加数据处理的能力和容量,只需要增加服务器就好,成本不高,在海量数据处理和大规模并行处理上有很大优势。 综上,用一个关键词来概括第三阶段就是「去IOE」,建立Shared Nothing的海量数据处理平台来解决数据存储成本增长过快的问题。在阿里巴巴,前期是Hadoop,后期转向自研的ODPS。 第四阶段是数据中台阶段。 这个阶段的特征是数据量的指数级增长,从PB迈向了EB级别,未来会到什么量级,我也说不清楚。 主要是因为,2015年之后,IOT(物联网)发展起来,带动了视图声(视频、图像、声音)数据的增长,未来90%的数据可能都来自于视图声的非结构化数据,这些数据需要视觉计算技术、图像解析的引擎+视频解析的引擎+音频解析的引擎来转换成结构化数据。5G技术的发展,可能会进一步放大视图声数据的重要性。 线下要想和线上一样,通过数据来改善业务,就要和线上一样能做到行为可监测,数据可收集,这是前提。线下最大量的就是视图声数据,而这些数据靠人来手工收集,肯定是不靠谱的,依靠IOT技术和算法的进步,最终会通过智能端来自动化获取数据。 要使用这些数据,光有视觉算法和智能端也不行,要有云来存储和处理这些数据,以及打通其他领域的数据。 另一方面,从业务来看,数据也好,数据分析也好,最终都是要为业务服务的。也就是说,要在系统层面能把OLAP和OLTP去做对接,这个对接不能靠人来完成,要靠智能算法。 目前的数据中台,最底下的数据平台还是偏技术的,是中台技术方案的其中一个组件,主要解决数据存储和计算的问题;在上面就是一层数据服务层,数据服务层通过服务化API能够把数据平台和前台的业务层对接;数据中台里面就没有人的事情,直接系统去做对接,通过智能算法,能把前台的分析需求和交易需求去做对接,最终赋能业务。 综合上述两个方面,我认为未来要做好数据中台,只做云或者只做端都不靠谱,需要把两者合起来做。智能端负责数据的收集,云负责数据的存储、计算、赋能。端能够丰富云,云能够赋能端。 未来的数据中台,一定是「AI驱动的数据中台」,这个中台包括「计算平台+算法模型+智能硬件」,不仅要在端上具备视觉数据的收集和分析能力,而且还要能通过Face ID,帮助企业去打通业务数据,最终建立线上线下触达和服务消费者的能力。 真正做到「一切业务数据化,一切数据业务化」。 数据中台需要具备三大能力 那么,数据中台是怎么来赋能业务使用数据的呢?这里举一个TCIF的例子。 现在大家可能都认识到了统一消费者数据的必要性,但是在几年前,哪怕是在阿里巴巴,消费者的信息也分散在各个业务中,碎片化、散点化,而业务当时需要把这些分散的人的数据集中起来,进行人群画像。道理很明白,人群画像越清晰,服务就会越精准。 怎么统一消费者数据? 首先,定义埋点规范,同一个人就用同一个标识,ID打通,也就是所谓的One ID; 其次,还会碰上一家人使用一个登录帐号的问题,那么就需要建立同人的数据模型,通过一些方式,比如,IP网段是不是一样,来分辨出具体的那个人,建立AID(Alibaba ID); 再次,每个人还有各种网络行为,要如何把这些行为结构化,装到各种框架里面?这个特别难,我们当时主要是跟人类学家合作,一起把行为的分类树做出来。这个分类树非常细,甚至能够把一个人的发质都结构化了。 最后,就需要通过算法模型,把所有的标签都贴回到人上面,当时TCIF用上述方式生产出了3000多个消费者标签。 这些标签被阿里巴巴的其他产品所使用,比如阿里妈妈的达摩盘就把这些标签提供给广告主,让广告主能够通过标签去建立人群画像,进行人群细分,以及建立投放用的人群包。 从TCIF的例子来看,数据中台未来一定需要具备三种能力。 第一是数据模型能力。 在业务层面,业务抽象能够解决80%的共性问题,开放的系统架构来解决20%的个性问题,但同时又要把平台上的业务逻辑分开,因为不同的业务逻辑之间可能有冲突。 这在数据中台就表现为数据的中心化,也就是数据的高内聚、低耦合,需要对共性问题抽象出业务的规则,建立数据模型,一个好的内聚模块能够解决一个事情,同时又要降低模块和模块之间的耦合度,让模块具有良好的可读性和可维护性。 这里的前提是要有真正懂业务能沉淀经验的人,以及要在企业层面开展数据治理,让数据能够准确、适度共享、安全地被使用。 第二是AI算法模型能力。 要实现数据业务化,前提是做到数据的资产化。要能够从数据原油里面,去提炼出可以使用的汽油。 比如说数据的标签化,背后就有投入产出比的考量:通过标签,广告主可以非常方便快捷地去建立自己的人群包,实现精准营销,同时投放的ROI也是可见的、透明的,广告主可以自己去评估数据资产的使用情况。 第三是行业的应用能力,也就是我们通常说的数据业务化能力。 和数据中心化类似,数据业务化也需要很强的行业经验来指导,建立合适的业务场景,在场景里面去使用数据,从而体现数据的价值,来大大扩展数据在行业中的应用能力。 在奇点云和某酒类客户的合作过程中,我们最大的收获不是帮助客户完成了数据中台的搭建,而是通过理解客户的业务,把其经验沉淀到数据中台,从而赋能客户更多的端上的创新业务,带来了生意的增量。 最后总结一下,未来的数据中台最重要的不单是数据的存储和计算能力,而是要能从「存、通、用」的角度和业务结合,帮助企业从数据中获取价值,沉淀数据资产,最终用数据赚钱。
大数据零售(BDDR)的核心是建立清晰有效的数据战略。 ——奇点云副总裁 何夕 8月26日,「数智·泛零售」01课,奇点云副总裁何夕带来线上直播分享《泛零售企业如何构建核心数智化能力》。 何夕,奇点云副总裁,数字化转型战略咨询专家,浙江大学社会硕士生导师,原天下网商主编,原阿里妈妈大数据中心产品专家,原阿里巴巴集团市场部市场专家。发布新作《大数据零售白皮书》。 大数据零售的时代背景 大数据驱动的零售,简称大数据零售。 大数据零售是泛零售行业所面临问题的理论基础,泛零售行业的数字化转型背后有很多信息技术和驱动力。社会化网络(SNS)、电子商务(Ecommerce)、移动化(Mobile)、推荐引擎(Recommendation Engine)所有的技术都在做一件事情,就是把所有跟消费以外的跟人相关的因素,通过数据和算法的方式还原到「人」,让「人」成为衡量一切交易的尺度。 当我们讲到「人货场」时,其实我们讲得更多的是「货」和「场」,「以客户为中心」, 此处的「客户」更多是种理念,而不是真正能被识别的个体。 如何在合适的时间、合适的地点向合适的人推荐合适的产品?这是所有泛零售企业将会面临的主要挑战。这是思考大数据零售的起点。 什么是大数据零售(BDDR)? 随着电子商务的兴起,最初整个零售所产生的变化是突破线上的数字世界,把人定时定点的单点连接变成多点沟通;有限货架、单向流动转向无限货架、个性化配送体验;定时定点的场所重复体验转向无穷多的线上场景的个性化体验。线上的传播大大突破了原有人货场的局限,技术手段进化线下的物理世界,进入大数据驱动的时代。时代给企业提出了高要求:在不断变化的市场中提升企业自身的能力,从单纯的突破线上数字世界,再用线上数据的能力,支撑和进化线下的物理世界,最终实现传播生产、服务管理的全价值链融合。 (中国零售正在面临五大数智化转型挑战 ) 零售行业数字化转型的未来,将以互联网为依托,构筑企业的数据中台战略,用大数据和互联网技术重塑「人货场」关系,助力零售企业数字化转型,实现企业的降本增效。大数据的核心特征在于使用人群的广泛性,不管是一线员工还是用户,都应该而且可以享受到大数据带来的能力和服务体验的提升。我们把这样的未来称为大数据零售(Big-data-driven Retail)。 BDDR的核心是建立清晰有效的数据战略 ·如何面向未来建立合适的企业数据战略? ·如何建立企业数据中台基础设施? ·如何建设企业数据资产管理体系? ·如何让数据资产增值和变成业务价值? ·企业是否做好了相关的准备?会员资产如何持续增长?如何转变为业务价值? 面对以上这些问题,从数据视角来看,企业普遍缺乏数据视角和数据资产管理经验。很多情况下大部分企业(哪怕已开展电子商务的企业)在数据资产管理这一块都是空的。我们谈到数据的时候,更多的是讲数据中台的基础设施,这里需要考虑2个问题:1、企业是否真的有上数据中台的需求?2、如果要上数据中台,需要用什么技术、什么方式来建设? 从狭义上来说,数据中台只是一套大规模数据生产的基础设施,它解决了数据「管」起来的需求,但是更重要的是数据如何用起来?数据用起来就需要数据资产管理体系。背后折射的最大认知上的问题是,过去对于技术的理解其实是IT工具解决业务问题,很多时候很多公司会出现面对数据中台、CDP等工具时,会出现为了上数据中台而上数据中台的情况,这只在技术上解决了数据「存通用」的问题,但有无支撑到业务、有无驱动业务人员更好地使用数据做决策是不一定的。数据是从企业内部长出来的。在数据的管起来和用起来之间形成一定的闭环,不断迭代自身的能力,才能在公司内部真正长出数据使用的能力。从数据战略的角度,大部分的数据强并不是技术强,而是组织强、部门强。 我们建议如果建立数据战略一定是「以用带通,以通促用」,首先看前端的业务需求,再看需采集哪些数据、治理哪些数据、分析和应用哪些数据,在此基础上拉动数据打通,解决组织设计问题,完善技术架构,进而带动业务更好地应用数据,对数据产生信心。在过去的两年内,我们做了许多大数据咨询实践。核心是帮助企业定义问题、明确策略。 大数据咨询和其他咨询的最大差异点在于:我们并不认为数据咨询需要一上来就调业务目标与组织,去重构整个流程。而是帮助我们正确理解现状,厘清业务目标、战略目标、组织设计、技术能力、数据能力之前的差距。从业务出发,带动整个数据能力的建设。 基于数据中台建立一方数据驱动力 面临着五大数智化转型挑战的大数据零售同时也需要具备五大能力。 泛会员域:在会员域建立会员的策略,传播运营的能力,能对客户进行分群,从公域将消费者转化成会员,通过会员的持续运营,实现会员的持续增长; 商品域、供应链域:通过数据的方式实现大规模精细化人货场的匹配,满足消费者海量个性化的需求,向后拉通供应链,提升供应链端的效能。 零售场域:通过相关的店货匹配精准地进行人和场景之间的匹配和连接,帮助线下的零售场所做更好的分析与洞察,指导运营汰换、招商引资等。 组织效能域:通过算法实现门店的智能排班, 实现智能人效,一年帮助某鞋服企业减少人力1300人,减少近亿费用。 如何转变呢? (从流程驱动走向数据驱动)过去的核心驱动力来自「人+系统+流程」,能力建设在流程上,角色使用系统产生相应行动,得出相应结果。而现在则可以通过数据中台整合一方、二方、三方的数据,向上形成相应的标签体系,做商品的预测、退补货的模型,反哺一方的业务, 真正实现数据驱动,推动企业前行。 建设企业数据中台和数据资产管理体系 以阿里巴巴为标杆,通过企业内部数据信息的整合与外部数据信息的拓展和引入,强化数据支撑能力,依托专业团队挖掘数据价值,用大数据来驱动业务运营,最终实现面向市场的应用开拓。 基于明星需求探索数据产品化路径 在具体实施上,我们将协助企业挖掘出一些明星需求,基于这些明星需求,我们确定了数据赋能的突破口,有效降低企业数智化转型的风险,实现了数据战略从策略端到行动端「端到端的落地」,并有利于持续探索数据产品化的路径。 基于One ID构建用户数据资产 从CDP的核心功能(打通所有一二方的数据、形成标签、圈人)来看,都是构建在One ID的基础上,可综合管理客户的旅程。需打通所有的业务系统,进行数据治理,把原始数据通过建平台、立规范的方式转化成实际可用的数据资产,并通过场景使用的方式提升一方的数据分析和策略指导的能力。 像经营人力资产一样经营数据资产 在组织变革上,我们推荐像像经营人力资产一样经营数据资产,人力资源里有HRBP,HR三支柱模型强调的是问题的迁移,过去我们做的是建设系统、建设工具,用IT工具解决业务问题,今天的思维更多的是怎么处理数据在组织内外部流通的问题,会涉及到共享服务中心(关注通用能力建设)、专家中心(关注业务抽象和解决方案)、ITBP(关注业务的技术架构和应用)。 比如:过去所有的目标由业务提出,由IT执行,但所有的执行只是系统建设。从能力建设的角度,IT和业务需进行分工,IT要做通用能力的建设,由ITBP拉通业务建设;在业务上需提升自身的数据进行决策的能力。这些都是在组织环节上需要考量的问题,更多内容都会在《大数据零售白皮书》中有详细描述。
2020年,数据被列为重要的生产要素,并成为数字经济时代最重要的战略资源。 拥有与时俱进数据思维的创业者才是DT时代的香饽饽。 那么,如何让企业通过数据智能将蕴藏于其数据内的潜能释放出来?如何站在大数据的视角制定企业战略?如何借助大数据进行数智化转型升级? 8月5日,何夕受邀作为第八届「东升杯」国际创业大赛的导师,带来了主题为「数据生态的过去、现在和未来」的精彩分享,为创业者提供创新数据战略思维。 导师简介 何夕,奇点云副总裁,战略咨询专家,原天下网商主编,原阿里妈妈大数据中心产品专家、阿里巴巴集团市场部市场专家,浙江大学社会硕士生导师。集多年数字化转型咨询经验,2019年推出口碑之作《大数据咨询方法论白皮书》。 01 数据为何成为最重要的生产要素? 《富足》这本书谈到,当人类社会的生产资料从供不应求进入供过于求的状态,很多商业模式和商业逻辑都会发生巨大的变化。 2015年,人类的数据量迎来了关键转折点——这一年产生的数据量是人类过去历史上所产生数据量的总和,从此进入了指数级增长阶段。 伴随着「数据富足」状态,企业的主要矛盾将成长为日益增长的数据存储费用和仍然稀缺的数据应用之间的矛盾。 简而言之,就是数据越存越多,成本越来越高,却用不了,不能发挥数据的价值。企业必须直面数据的问题。数据列入最重要的生产要素,也为企业数字化转型提供了及时且史无前例的最佳机遇。 综合来看,这个时代最大的变局就是算力成为了新的生产力,算法成为了新的生产关系,而数据则是驱动两者的基础,也就是生产资料。 02 新时代的基础设施有何特色? 2008年金融海啸之后,从生产、制造到用户的整个流程发生了极大变化。大规模匹配问题都需要数据来解决,传统的ERP等系统已无法支撑,数字化转型成为所有的企业都需要去考量的问题。 前几年开始,很多领域已出现所谓的「四化」,云化、服务化、数据化和数据智能化的需求,并在此基础上推动了整个组织从原来的刚性官僚机构向柔性的网状网络协同的组织方式进行变革。机器代替人,成为新的生产力 以往内部系统建设中,IT工具解决业务问题严重依赖于系统和流程,基于专家的经验知识沉淀相应规则,通过软硬件建设提供系统解决能力,充分发挥人的体力、脑力。而当我们把系统看成数据收集及使用的工具,核心处理的问题就变成各个业务系统,在企业内部发生数据交换工作,仰赖云计算、大数据及人工智能的技术底座,所有的生产力和生产关系都发生巨大变化。假设把数据视为新的生产要素,算法代替经验公式,消解海量不确定性。「算力+数据+算法」对于传统「人+系统+流程」的替代正在重构商业生态。 数据中台成为新时代的基础设施 2019年被业内公认为「数据中台元年」,当我们谈到「数据」时,底下一定有基础设施做支撑。 数据资产可以理解为可直接使用的数据。打个比方,我们原本系统内有的数据相当于原油,原油不能直接被汽车使用,必须经过大规模工业化的生产,经过初炼、精炼等加工才能被使用,产生更大价值。 而数据中台在某种程度上也可以视为大规模工业化进行数据生产的基础设施,本质上进行了「三通一平」(数据通、算法通、服务通、平台建设)基础设施的建设。专业的数据团队构建相应平台,搜集、整合、分析、运用相关数据,最终帮助企业开拓市场、降本增效。 03 数据如何驱动未来商业世界? 奇点云作为深耕泛零售领域的数据中台服务商,主要以零售的角度出发看数据发展史。从上图看来,真正给零售带来了巨大的变化是2012年TCIF(奇点云CEO行在主持创建)的出现。因为在TCIF出现之前,所有的消费者仅有「消费」这一个身份。而TCIF整合打通了阿里各平台应用的消费者数据,使得阿里各个业务平台实现消费者数据的融会贯通,把消费者还原成了真实的个体的「人」。 在此之前「以客户为中心」还停留在一种理念,TCIF真正把理念变成了客户驱动力。2012年后,大量公司建立的都是客户管理能力,进入客户驱动。2015年第一个商业化数据中台「数加」平台(奇点云CEO行在创立)出现,打破数据孤岛,数据能力的建设取代了系统能力的建设,进入数据驱动。 数据驱动中国零售变革 数字世界和物理世界的连接越深入到企业内部,越需要企业自身主导创新和应用。「人货场」变成一套新的生态系统,反过来影响传统企业自身,数字世界正在进化线下物理世界,不仅在传播和服务进行融合,渐渐影响到内部的运营管理,包括员工、组织及生产。以为人中心的精细化运营是通过数据+算法来实现的,解放人做创新性的工作,如车企不单单卖车,还能提供更多创新的数字化出行服务。 Case1: 智能管理驾驶舱 例如奇点云为某服饰集团于2018年Q4成功上线管理驾驶舱,实现了: •3级管理人员账户权限,2000+⻔店,10+区域大仓,20+个子类目,>600 个动态经营数据指标实时监测,数据准确率100%。 • 各类业务单据输出速度由原来的10-30分钟进阶为秒级。• 各类业务报表输出速度由原来30-60分钟提升为3-5分钟。• 各类经营管理类报表T+1自动每天8点半前呈现。• 新报表需求开发速度从原来一周以上缩短到1-2天。• 实现了给品牌、⻔店、导购的AI智能分析带来经济价值5000万/年以上。 Case2: 智能人效管理 奇点云帮助某服饰零售集团进行智能人效分析管理,实现了: • 截至2019年3月下旬,通过排班优化和人员优化已为公司削减超过1300人,人员开支节约超过1300人5K(月薪)12个月=7800万元,2019预计全年节约人员开支超过9000万元人⺠币。• 优化后整体人效得到提升,销售业绩未受影响。• 该项目的内部推广速度远超出项目组预期,受到业务部⻔和公司管理层的欢迎。 04 数据中台赛道上的机会到底在哪里? 我们所有的企业数字化转型走到今天,都会发现业务问题背后往往可能隐藏的为数众多的数据问题,如数据不通,数据不可用,数据变现,黑箱决策等问题。比如我们在实际调研过程中发现很多企业已经做了很好的算法、数据应用的尝试,但是因为没有解决数据采集、数据质量的问题,就会出现例如采集到的数据一半是空值,统计口径不一致所带来的数据总和之差,也有比如说我们的发票数据和销售数据的总和相差很大,这里可能包含了数据治理、管理、咨询等机会。 当下企业普遍缺乏数据视角和数据资产管理经验,有很多企业会说:我把数据资产作为企业的重要战略资产。对于人力资产我们有专门的工具与系统。 对于数据资产,我们有什么? 「什么都没有!」越来越多的企业用数据中台做跨越式的发展,但仅仅有了数据中台把数据管了起来,数据要用起来,在此之上需要数据资产管理体系做支撑,数据资产管理体系包括战略决心、数据组织团队、存通用的数据利用能力。 从0到1的数据中台如何建立?如何开展数据治理?如何把脏乱差的数据变成数据资产?如何把这些数据真正变成可用的产品、可用的模型、可用的行业解决方案?业务模式如何设计?商业策略如何更新?产品如何迭代?这都是当下企业普遍缺乏的能力。比如,针对企业能力和认知的缺乏,奇点云推出了大数据咨询的解决方案:针对企业的需求和问题,提供相应的决策和方法论。更多强调是否有相应的业务场景、有无业务问题需要解决,帮助企业建立业务驱动的能力,真正建立面向一方的数字化转型能力,该需求不仅仅存在数据中台领域,在传统的咨询领域也渐渐出现了相关的数据需求,包括人才、品牌、财务、咨询、客户运营、IT技术选型等,都需要大量的数据帮助决策。 大数据咨询的特殊之处在于,除了商业因素和组织因素,还需要把IT和数据考量在内,并且从能力建设的角度提供解决方案的建议,也就是不仅要面向需求端解决问题,更需要面向解决端提供能力,这也意味着大数据咨询需要有端(需求)到端(解决)的解决能力。这也是大数据咨询和其他咨询方式的不同。
口述者行在(张金银),奇点云CEO,阿里巴巴第一个数据仓库的创建者,阿里巴巴第一个消费者数据平台TCIF的创建者,阿里云数据智能平台数加的创始人,2004年以数据技术专家身份加入阿里巴巴以来,12年来一直投身于大数据事业。2016年离开阿里巴巴,创立奇点云,旨在用「AI驱动的数据中台」赋能线下,让商业更智能。2009年,阿里云开启了中国的云时代。 十年市场教育,中国的公有云市场也已经从无到有,迈过了300亿元大关,预计到2021年更是能达到900亿元的规模。 「数据中台」已经从一个技术词汇,慢慢转变成为企业界的共识:如果想要在信息商业中拥有一席之地,就必须要借助云计算和数据的力量,完成企业的数字化转型。 只是,数据到底在转型中扮演什么样的角色,要如何利用好数据,数据上云后如何支持业务,企业需要哪些核心能力?这些问题,对于大多数的非技术业者而言,仍然是知其然不知其所以然。 一般而言,「数据上云」更多强调的是数据的存储和计算,而要让数据能够赋能业务,则更需要「数据中台」来进行数据处理,进而支持业务决策和优化运营。 这是「数据中台」和「数据上云」最大的不同。 数据中台最终要帮助企业降本增效 作为数据业务领域的先行者,阿里云总裁张建锋,在最新的演讲中,把数据智能作为数据处理的核心能力: 今天处理数据绝大部分都不是单纯靠算力,算力是基础,而主要是靠上面的智能化的算法,算法跟各行各业的业务有密切相关,所以阿里巴巴通过与各行各业合作,沉淀了一个完整的智能化平台。我们认为在基础设施的云化、核心技术的互联网化以及在之上叠加大数据+智能化的平台和能力,完整地组成了阿里云智能的整体能力框架。这是我们核心的能力。 这里面传达出了几个核心信息: 1.云计算为数据智能提供了基础算力; 2.行业(经验转化而来的)算法是智能处理数据的主要工具; 3.数据+智能的平台和能力,前提是基础设施的云化和核心技术的互联网化; 这是阿里云所认为的数据处理的能力框架,而在目前的市场上,我们通常把这种能力框架称为「数据中台」。 舆论往往会更强调技术的作用,强调技术对业务的推动作用,但事实上,在商业领域,更多的时候,技术发展都是跟着业务走,技术的发展常常来自于业务需求和业务场景的倒逼。 例如,随着越来越多的企业把业务流程上云,日益增长的数据存储和仍然稀缺的数据应用就成为了企业的主要矛盾之一,而且,这种矛盾不是一天就能够解决,需要从业务、技术、组织几个不同的领域一起来探寻数据的解决方案。 简单来说,「数据中台」就是这一系列解决方案的基础设施。 数据中台不是一套软件系统,也不是一个标准化产品,站在企业的角度上,数据中台更多地指向企业的业务目标,也即帮助企业沉淀业务能力,提升业务效率,最终完成数字化转型。直白点说,中台只讲技术,不讲业务,都是大忽悠。 这么多年来,互联网的发展都建立在更低成本、更高效率的连接之上,线下也一定会复制线上的发展逻辑,用更多连接带来更多的数据。 比如,通过摄像头,我们就可以低成本建立顾客的Face ID档案,从而丰富人和店铺的关系数据,店铺进而可以根据数据分析结果,给顾客提供更有针对性的服务项目。 更多连接,更低成本,更高效率——所有跟流通相关的线下生意,数据中台的意义就在于降本增效,别无其他。 数据中台发展经历了四个阶段 在数据史上,2015年是一个重要的关口:2015年全年产生的数据量等于历史上所有人类产生数据的总和,这是数据从乘数型增长全面转向了指数型增长的方向标,海量数据处理成为全人类的挑战; 同一时间,阿里巴巴向外发布了DT时代的提法,用Data Technology(DT,数据技术)替代了Information Technology(IT,信息科技),强调数据技术将成为未来商业的驱动力。 一个标志性的事件是:阿里巴巴用几百人的运营团队支撑了几万亿的GMV,其中60%-70%来源于数据支持的机器决策,机器智能赋能业务,用更低的成本,更高的效率去服务顾客,提供千人干面的个性化体验。 未来学家认为,机器智能最终会超越人的智慧,而这两者的临界点就被称为「奇点」。从这点来说,我们可以认为,阿里巴巴已经跨越了奇点,真正成为一家数据公司。 下面我们从数据的角度来梳理下这个过程。 阿里巴巴的数据处理经历了四个阶段,分别是: 一、数据库阶段,主要是OLTP(联机事务处理)的需求; 二、数据仓库阶段,OLAP(联机分析处理)成为主要需求; 三、数据平台阶段,主要解决BI和报表需求的技术问题; 四、数据中台阶段,通过系统来对接OLTP(事务处理)和OLAP(报表分析)的需求,强调数据业务化的能力。 第一个阶段是数据库阶段。 淘宝还只是一个简单的网站,淘宝的整个结构就是前端的一些页面,加上后端的DB(DataBase,数据库),只是个简单的OLTP系统,主要就是交易的事务处理。 这个阶段,互联网黄页才刚刚出现,数据来源大部分还是传统商业的ERP/CRM的结构化数据,数据量并不大,也就是GB的级别。简单的DB就能满足需求。 这里要说明的是,OLTP的交易场景和OLAP的分析场景区别在于,前者强调高并发、单条数据简单提取和展示(增删改查),后者对并发的要求不高,但是需要打通不同的数据库,比如ERP、CRM、行为数据等等,并且能够进行批量的数据处理,也就是通常说的低并发,大批量(批处理)、面向分析(query+计算,用于制作报表)。 随着淘宝用户超过100万,分析需求的比重就越来越大。淘宝需要知道它的交易来自于哪些地区,来自于哪些人,谁在买淘宝的东西等等,于是,就进入了数据处理的第二个阶段。 第二个阶段是数据仓库阶段。 正如前文所述,OLTP和OLAP对数据存储和计算的需求非常不一样,前者处理的是结构化的交易数据,而OLAP对应的是互联网数据,而互联网里面数据量最大的是网页日志,90%以上的数据都是点击(log)什么的非结构化的数据,而且数据量已经达到了TB的级别。 针对分析需求,就诞生了数据仓库(DW,DataWarehouse),我2004年加入阿里,用Oracle RAC搭建了阿里巴巴第一个DW,解决大量数据的存储和计算需求,也就是去把非结构化的数据转化成结构化数据,存储下来。 这个阶段,DW支持的主要就是BI和报表需求。 顺带提一下,数据库(DB)这时也在从传统DB转向分布式DB。主要原因是以前交易稳定,并发可控,传统DB能满足需求,但是后来随着交易量的增长,并发越来越不可控,对分布式DB的需求也就出来了。 随着数据量越来越大,从TB进入了PB级别,原来的技术架构越来越不能支持海量数据处理,这时候就进入了第三个阶段。 第三个阶段是数据平台阶段,这个阶段解决的还是BI和报表需求,但是主要是在解决底层的技术问题,也就是数据库架构设计的问题。 这在数据库技术领域被概括为「Shared Everything、Shared Nothing、或Shared Disk」,说的就是数据库架构设计本身的不同技术思路之争。 Shared Everything一般是针对单个主机,完全透明共享CPU/MEMORY/IO,并行处理能力是最差的,典型的代表SQLServer。 Shared Disk的代表是Oracle RAC,用户访问RAC就像访问一个数据库,但是这背后是一个集群,RAC来保证这个集群的数据一致性。 问题在于,Oracle RAC是基于IOE架构的,所有数据用同一个EMC存储。在海量数据处理上,IOE架构有天然的限制,不适合未来的发展。阿里巴巴的第一个数据仓库就是建立在Oracle RAC上,由于数据量增长太快,所以很快就到达20个节点,当时是全亚洲最大的Oracle RAC集群,但阿里巴巴早年算过一笔账,如果仍然沿用IOE架构,那么几年后,阿里的预计营收还远远赶不上服务器的支出费用,就是说,如果不去IOE,阿里会破产。 Shared Nothing的代表就是Hadoop。Hadoop的各个处理单元都有自己私有的存储单元和处理单元, 各处理单元之间通过协议通信,并行处理和扩展能力更好。中间有一个分布式调度系统,会把表从物理存储上水平分割,分配给多台服务器。 Hadoop的好处是要增加数据处理的能力和容量,只需要增加服务器就好,成本不高,在海量数据处理和大规模并行处理上有很大优势。 综上,用一个关键词来概括第三阶段就是「去IOE」,建立Shared Nothing的海量数据处理平台来解决数据存储成本增长过快的问题。在阿里巴巴,前期是Hadoop,后期转向自研的ODPS。 第四阶段是数据中台阶段。 这个阶段的特征是数据量的指数级增长,从PB迈向了EB级别,未来会到什么量级,我也说不清楚。 主要是因为,2015年之后,IOT(物联网)发展起来,带动了视图声(视频、图像、声音)数据的增长,未来90%的数据可能都来自于视图声的非结构化数据,这些数据需要视觉计算技术、图像解析的引擎+视频解析的引擎+音频解析的引擎来转换成结构化数据。5G技术的发展,可能会进一步放大视图声数据的重要性。 线下要想和线上一样,通过数据来改善业务,就要和线上一样能做到行为可监测,数据可收集,这是前提。线下最大量的就是视图声数据,而这些数据靠人来手工收集,肯定是不靠谱的,依靠IOT技术和算法的进步,最终会通过智能端来自动化获取数据。 要使用这些数据,光有视觉算法和智能端也不行,要有云来存储和处理这些数据,以及打通其他领域的数据。 另一方面,从业务来看,数据也好,数据分析也好,最终都是要为业务服务的。也就是说,要在系统层面能把OLAP和OLTP去做对接,这个对接不能靠人来完成,要靠智能算法。 目前的数据中台,最底下的数据平台还是偏技术的,是中台技术方案的其中一个组件,主要解决数据存储和计算的问题;在上面就是一层数据服务层,数据服务层通过服务化API能够把数据平台和前台的业务层对接;数据中台里面就没有人的事情,直接系统去做对接,通过智能算法,能把前台的分析需求和交易需求去做对接,最终赋能业务。 综合上述两个方面,我认为未来要做好数据中台,只做云或者只做端都不靠谱,需要把两者合起来做。智能端负责数据的收集,云负责数据的存储、计算、赋能。端能够丰富云,云能够赋能端。 未来的数据中台,一定是「AI驱动的数据中台」,这个中台包括「计算平台+算法模型+智能硬件」,不仅要在端上具备视觉数据的收集和分析能力,而且还要能通过Face ID,帮助企业去打通业务数据,最终建立线上线下触达和服务消费者的能力。 真正做到「一切业务数据化,一切数据业务化」。 数据中台需要具备三大能力 那么,数据中台是怎么来赋能业务使用数据的呢?这里举一个TCIF的例子。 现在大家可能都认识到了统一消费者数据的必要性,但是在几年前,哪怕是在阿里巴巴,消费者的信息也分散在各个业务中,碎片化、散点化,而业务当时需要把这些分散的人的数据集中起来,进行人群画像。道理很明白,人群画像越清晰,服务就会越精准。 怎么统一消费者数据? 首先,定义埋点规范,同一个人就用同一个标识,ID打通,也就是所谓的One ID; 其次,还会碰上一家人使用一个登录帐号的问题,那么就需要建立同人的数据模型,通过一些方式,比如,IP网段是不是一样,来分辨出具体的那个人,建立AID(Alibaba ID); 再次,每个人还有各种网络行为,要如何把这些行为结构化,装到各种框架里面?这个特别难,我们当时主要是跟人类学家合作,一起把行为的分类树做出来。这个分类树非常细,甚至能够把一个人的发质都结构化了。 最后,就需要通过算法模型,把所有的标签都贴回到人上面,当时TCIF用上述方式生产出了3000多个消费者标签。 这些标签被阿里巴巴的其他产品所使用,比如阿里妈妈的达摩盘就把这些标签提供给广告主,让广告主能够通过标签去建立人群画像,进行人群细分,以及建立投放用的人群包。 从TCIF的例子来看,数据中台未来一定需要具备三种能力。 第一是数据模型能力。 在业务层面,业务抽象能够解决80%的共性问题,开放的系统架构来解决20%的个性问题,但同时又要把平台上的业务逻辑分开,因为不同的业务逻辑之间可能有冲突。 这在数据中台就表现为数据的中心化,也就是数据的高内聚、低耦合,需要对共性问题抽象出业务的规则,建立数据模型,一个好的内聚模块能够解决一个事情,同时又要降低模块和模块之间的耦合度,让模块具有良好的可读性和可维护性。 这里的前提是要有真正懂业务能沉淀经验的人,以及要在企业层面开展数据治理,让数据能够准确、适度共享、安全地被使用。 第二是AI算法模型能力。 要实现数据业务化,前提是做到数据的资产化。要能够从数据原油里面,去提炼出可以使用的汽油。 比如说数据的标签化,背后就有投入产出比的考量:通过标签,广告主可以非常方便快捷地去建立自己的人群包,实现精准营销,同时投放的ROI也是可见的、透明的,广告主可以自己去评估数据资产的使用情况。 第三是行业的应用能力,也就是我们通常说的数据业务化能力。 和数据中心化类似,数据业务化也需要很强的行业经验来指导,建立合适的业务场景,在场景里面去使用数据,从而体现数据的价值,来大大扩展数据在行业中的应用能力。 在奇点云和某酒类客户的合作过程中,我们最大的收获不是帮助客户完成了数据中台的搭建,而是通过理解客户的业务,把其经验沉淀到数据中台,从而赋能客户更多的端上的创新业务,带来了生意的增量。 最后总结一下,未来的数据中台最重要的不单是数据的存储和计算能力,而是要能从「存、通、用」的角度和业务结合,帮助企业从数据中获取价值,沉淀数据资产,最终用数据赚钱。
2016年,「全域营销」概念兴起,揭示了「数据」赋能商业的能量与潜力。「全域营销」慢慢演变为「全域数据中台」。 全域数据中台为何走红? 泛零售业正在经历两次重大的数字化变革过去零售业从人、货、场的角度看,「人」是定时定点的单点连接;「货」是有限货架,单向流动;「场」是定时定点的场所重复体验。但进入电子商务时代以来,突破了线上数字世界,每一个消费者都是独一无二的,且都有自己的属性,个性化服务随之出现。 数字世界和物理世界的连接越深入到企业内部,越需要企业自身主导创新和应用。「人货场」变成一套新的生态系统,反过来影响传统企业自身,数字世界正在进化线下物理世界,不仅在传播和服务进行融合,渐渐影响到内部的运营管理,包括员工、组织及生产。 新的生产关系正在重构商业生态以往内部系统建设中,IT工具解决业务问题严重依赖于系统和流程,基于专家的经验知识沉淀相应规则,通过软硬件建设提供系统解决能力,充分发挥人的体力、脑力。 而当我们把系统看成数据收集及使用的工具,核心处理的问题就变成各个业务系统,在企业内部发生数据交换工作,仰赖云计算、大数据及人工智能的技术底座,所有的生产力和生产关系都发生巨大变化。假设把数据视为新的生产要素,算法代替经验公式,「算力+数据+算法」对于传统「人+系统+流程」的替代正在重构商业生态。 如何拥抱全域数据中台? 碎片需求碎片连接,全域数据中台应运而生今天品牌面临着碎片需求碎片连接的窘境:1、品牌接触消费者的触点碎片化。2、消费者的行为路径碎片化。3、消费者的需求表达碎片化。品牌需要通过数据把这三者有机地连接在一起,才能实现「在合适的时间合适的渠道向合适的人传达合适的信息」的营销目标。 信息爆炸时代,品牌和消费者需要建立全域的连接能力。可分成三个连接过程:第一个是品牌形成内部信息,对消费者进行理解后,进行内容制作、形式设计、渠道规划,通过营销的方式说给消费者听;第二个是在营销过后,通过渠道让消费者随时随地可买到想要的货品;第三个是对于品牌来说,还需要把消费者接收到的外部信息和内部信息比对和确认。 这是整个消费者沟通过程中非常重要的三个步骤,但目前这三个步骤是分裂的,效率非常低,且没有办法解决海量个性化需求及渠道的连接,在此背景下,要了解到消费者真正的声音,全域数据中台「被迫」出现。 有了全域数据中台把碎片化的需求及渠道进行有效连接,真正能够实现在正确的时间找到正确的人,通过正确的沟通做正确的连接,从机制上重构了整个品牌和消费者沟通路径。 大规模精细化匹配需求驱动技术革新碎片化需求和碎片化连接最需要匹配引擎,智能推荐算法提供大规模精细化的匹配能力,在渠道商品的连接上需要向海量的消费者提供个性化服务体验,这不是传统企业的ERP、OA的这类基础信息管理系统能处理的。 前几年开始,很多领域已出现所谓的「四化」,云化、服务化、数据化和数据智能化的需求,并在此基础上推动了整个组织从原来的刚性官僚机构向柔性的网状网络协同的组织方式进行变革。 如何建设全域数据中台? 全域数据中台并不是一天就出现的。整体发展过程和营销变化有着紧密关系。 回溯到20年前,中国的广告投放仍然以媒体直投为主要方式,通过媒体帮助去购买一些媒体上的广告位,通过广告位的一些有效内容吸引用户关注。但随着搜索引擎的出现,出现了大量的站点,站点上都可以加广告位,广告位成千上万倍地增长。如谷歌推出了「关键词搜索」等广告投放的方式,渐渐从关键词进化到针对某一类人群进行投放。 全域数据中台发展的过程未来,全域数据中台一定会形成智能策略、智能触达、智能运营三大板块的能力,这整套方法论在阿里叫Uni Marketing,它的AIPL主要解答的是智能触达和智能运营。AI是在智能触达,PL是在智能运营,通过人群策略针对性地形成有效的传播策略,以及针对私域会员的运营策略。 这在未来全域数据中台上一定会发生,而且整个流转过程并不需要人的参与,所有数据都是以人群包的形式在所有的系统内流动,保证营销策略能够有效地转化成实际行为,所有的数据能够在此过程中得到监控。因此不仅需要建设企业数据中台,还需建设数据资产管理体系,沉淀及用好数据。 如何管好你的客户? 到底需不需要上数据中台?需要上一个什么样的数据中台?在此过程中要解的问题到底是什么?我们推荐有此疑惑的企业,能想清楚这些问题后反过来再去寻求策略及路径。 未来,每家企业都需要运用数据和算法构建面向消费者智能服务,帮助决策层精准决策,通过算法建立预测的能力。 而最重要的是算法标签:建立客户One ID能力,打通所有数据,形成一系列消费者标签,如TCIF所做的事情一样,形成3000个底层的消费者标签,并把标签贴回到每个ID。从而进行有效的聚类分析,构建属于企业自身的用户画像,并根据前台营销分析、效果分析、投放需求、沟通效果分析的不同需求构建自己的人群策略。 全域数据中台的核心是围绕消费者相关的核心业务进行数字化和算法化。采集什么数据,如何建设标签体系及如何应用,数据以用促通、以通带用的建设逻辑在全域数据中台仍然适用。 从奇点云最近半年的实践看,目前企业的主要诉求集中在客户标签和人群圈选上,我们通常会建议此类客户可以从CDP开始,CDP是客群圈选的核心,通过CDP可以确定营销的主题及策略。 通过导入全量的数据,数据分析师洞察,提炼特征标签,将其开发成可用标签交付客户进行使用。最难的部分还是数据,对大多企业来说,数据不是好用或可用的问题,而是有和无的问题,必须盘点数据资产形成数据地图,便于更好理解前端的业务需求。 大数据技术的创新应用将成为企业核心竞争力,建设全域数据中台,将激活数据资产,全面赋能各业务领域,为企业品牌的持续发展和创新提供源源不断的动力,助力企业全域数智化转型。
大数据行业经历了十余年的快速发展,正式进入数据智能化阶段,数据驱动决策,驱动业务发展的企业新需求,实现数据价值最大化。 「大数据」概念在国内从2010年兴起,至2012年真正火爆起来,早些年也有许多大数据相关的故事,后来虽被证实「啤酒纸尿裤」的故事是杜撰的,但它的数据分析成果早已成为数据智能应用的经典案例。 数据的核心价值在于从经验决策迈向数据决策,快人半步地认知世界。 数据智能对企业的价值 企业拥有数据不等同于能够解决问题,如何激活和释放数据价值则更为重要。 我们在深耕数据智能应用之上,也为零售领域各行业客户数智化转型赋能,助推企业降本增效。 奇点云为某家居建设统一的客户标签体系,实现了: • 数据中台总数据量达到100T,客户数量达到3000万;• 新增有效客户标签200个以上;• 基于统一的算法标签实现客户精准投放,渠道投放成本每年节省500万元;• 基于精准营销,复购率比原来提升4%,营收比原来增加2亿元左右。 如何解决数据问题? 我们所有的企业在数字化转型走到今天,发现业务问题背后往往可能隐藏的为数众多的数据问题,如数据不通、数据不可用、数据变现等问题。 那么,如何解决这些数据问题? 数据问题不仅仅是数据本身的问题,奇点云基于中台建设思路,总结出了「盘、理、管、用」的数据方法论。盘清原始数据、理出数据资产、管妥数据资产、用出资产好价值。 从数据用起来的角度,根据业务场景,看数据是否已被收集、治理,是否已变成数据资产价值,所以叫「盘理管用」。但从我们思考的维度则相反,我们要关注怎么去盘、怎么去理、怎么去管,以及最终怎么去用。核心目的是让数据发挥价值。 数据资产盘点奇点云认为,企业的资源,包括组织(人)、业务(系统)、数据(资产),三种资源相互影响,形成良性的闭环,螺旋迭代优化,才能成为优质资产,驱动数据发挥价值。 数据资产治理数据中台领域的数据治理六要素:标准定义、数据模型设计、数据同步、数据清洗、数据建模、数据规范设计。 数据资产管理数据资产:基于租户级别提供统一的数据管控体系,包括基本信息管理、数据血缘、数据操作、权限管理、生命周期、脏数据管理、类目管理。 数据资产应用全域数据:数据资产不仅仅是企业内部的数据资产,规划智能模型需要另外可使用的外部数据,包括交通、POI、商圈客流、天气、楼盘等,按需提供。 业务开放:开放数据API,赋能业务使用方。 经营决策:通过经营决策报表实时反映企业运行状态,助力企业管理者高效决策。 数据智能:是数据应用的最前沿,最终探索数据价值就是构建数据智能应用模型,采用深度学习等算法技术来实现数据智能应用模型,根据业务运行情况自动自我迭代。 如何最大化释放企业数据价值? 以上只是解决了数据平台层的各类问题,在数据应用层面,我们还需清楚如何释放数据背后的价值。 大数据不等于数据分析,也不等于数据价值。早年业界流传着两种说法,第一种是数据流派,不看业务而是通过海量的数据发现数据背后潜在的规则;另一种是业务流派,通过业务痛点看所需的数据,再通过代码得以实现。两大流派各有特点,但从发现数据价值的角度看,数据和分析的价值还需进一步结合业务场景最终实现数据价值。 数据价值的三个关键点 1、数据资产通过「盘理管用」的方法论,把数据梳理成数据资产,是数据价值的基础,各类数据资产的模型、层次关系、关联关系。 2、数据分析通过各种数据分析的方法和算法技术,从数据中发现价值。 3、行业知识引入行业知识,构建行业特有的经验模型,实现数据价值的最大化。 上图从数据价值的角度,最底层数据采集和奇点云自研的AI驱动的数据中台,从采集到计算再到算法服务形成数据资产,恰到好处地解决了数据到资产的问题;数据智能应用层则解决了数据分析和算法逻辑的问题;在应用行业层我们有产研团队和行业专家,结合行业经验实现数据赋能。最终实现数据价值的三个关键点,让数据创造价值,让商业更智能。 要让数据发挥价值,先通过「盘理管用」的方法论解决数据的问题,再通过算法和数据分析解决技术问题,结合行业专家丰富的行业经验,最大化释放数据价值,驱动业务增长与创新。
智能时代,人人都需了解一点算法。 那么,什么是算法?算法又如何影响生活? 当音乐APP越来越懂你,短视频APP纷纷给你推送感兴趣的内容;购物平台摸索出了你的喜好,它能让你觉得懂你者是算法。 愿意or不愿意,你我都已被潮流裹挟,走进算法时代。 技术的进步致使算法突破过去的使用边界,从辅助人类做决策进入到更深层次的真正替人类做大量的重复决策,通过深度学习等划时代的算法才能让机器更智能,让商业更智能。 作为一家从成立起就自带算法基因的公司,奇点云如何与算法打交道?智能算法在企业数智化转型中扮演什么角色?又如何让算法实践落地? 5月13日,数据中台系列课程第6课,高级算法专家百然带来分享《企业数智化转型背后的智能算法》。 百然,奇点云合伙人、算法负责人、大数据商业分析及精准营销领域算法专家,原阿里巴巴机器学习算法专家,原阿里云数据化运营算法负责人,原阿里巴巴天猫商业智能应用算法专家。 下文为分享节选: 01 企业如何解决转型中的痛点? 企业数智化转型中的三大问题 大数据运用打破壁垒是关键。奇点云在服务大量的需求客户(政府、金融、时尚、商超等)过程中,总结了企业日常经营过程中遇到的核心问题:存、通、用。 存:例如鞋服门店,拥有很多数据,但是到底有多少数据,数据到底存在哪里并不清晰,且数据散落在各个应用系统里,未完成集中存储的现象比比皆是。 通:生产、销售、物流各个系统若没有打通,数据就是割裂的,用户画像并没法完成。 用:企业数智化本质上就是要将数据「用起来」,「用」是数据变现的通道。 智能算法价值实现三阶段 数字化:门店如何知晓谁来过?多少人来过?他们都去了哪里?是否还会再来及顾客的购物癖好。需把门店无形的数据通过计算机视觉技术进行数字化。 BI:分析+决策,若只是单纯地做报表,了解当月的销量、效率等,那只是最基本的判断。而价值的实现需要知道问题存在哪里,找到最好的实现方式,大量的数据分析结合算法,帮助企业找出最优的活动方式。 算法应用:算法是一个工具,不带表情、色彩,价值在于懂算法的同学通过算法这个工具,结合商业需求应用起来。 02 智能算法如何帮企业做决策? 在数据「用」的阶段,智能算法主要有两个用途:预测和决策。 精准的需求预测,能帮助企业变以往粗放被动的经营方式为精准主动的经营方式,辅助企业的决策层做出更加合理的经营决策,从而更好地服务客户及挖掘顾客价值,最终增加盈利。 更准确的需求预测只是决策的一个步骤,还有随着销量等业务变动过程和流程管理过程中的库存订货决策、价格波动决策、短缺博弈决策等决策问题。数据要产生实际价值,必须真正提升决策质量,实现决策的自动化、流程化、规范化。 奇点云预测引擎以需求预测作为切入点,决策引擎则关注执行过程中的计划决策效率和决策质量。已为不同领域企业进行企业决策,战绩还不少: ✨为某服装企业,每年省下了数千万的人力成本,且全面提高效率与组织协作效率。 ✨为某商业综合体,为其改变拍脑袋的决策方式,在招商策略、品牌汰换、经营决策上发挥更重要的作用,能够达到甚至超过预期的效果。 ✨为某大时尚企业,帮助客户业务人员对应的重复工作量减少80%,计划决策时间缩短三天。 ✨为某生鲜企业,其门店正毛利率从上线前的87%提升到了上线后92%,且上线后基本稳定在90%以上。 而上述四个案例只是奇点云智能决策案例的冰山一角。 03 智能算法落地实践案例 用户画像 用户画像完美地抽象出用户的信息全貌,简单来说就是用户显式(隐式)的基本特征,包括性别、学历、年龄、地区及用户的购物偏好、消费轨迹等。我们用户通常被机器标注成一个数据组合,如:科技50%、时尚10%、健身10%等等。 用户画像基于业务场景出发,不同企业对用户画像理解不同,如时尚行业与金融行业对用户的画像需求不同,了解信息的纬度不同,但核心都为客户及业务场景服务。 运筹规划 在人工智能和大数据时代,越来越多的云上数据和越来越智能的模型开始辅助人们做出各种最优决策,从运营效率、成本节约、最优配置等方方面面,实现降本增效,进一步提升商业效率。京东、美团、滴滴、顺丰等众多知名厂商,都通过运筹优化平台,改造其供应链、智能派单、司乘匹配、智能分拣等等。 奇点云根据成熟的软件工具包(cplex, gurobi, glpk,lpsolve, scip ...)给出经典运筹优化问题的baseline解,快速上线试运行。在运行的过程中根据结果评估的核心指标,结合运筹优化算法和强化学习,对算法和求解过程进一步优化,使得计划决策模型、求解过程、评估体系能够为客户实现业务发展最优路径、最终实现收益最大化。 商场数字化 商场数字化,简单来说就是商场的特点,包括区域画像和店铺画像。其中区域画像,指的是对某个具体区域在时空多个维度上进行区域热力、区域人流、区域价值等多方面进行分析。而店铺画像,通过结合人的画像,从而对一个店铺的热度、店铺消费群体、进店转化率、店铺复购率、店铺行业属性等多方面进行描述。 最终AI算法并不是万能且高深莫测的,算法仅是工具,只不过我们了解世界多了更多纬度,还可用算法加速认知世界的步伐。
4月9日,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》公布。「数据」首次作为一种新型生产要素写入中央文件中,与土地、劳动力、资本、技术等传统要素并列为要素之一。 于企业经营成长,于政府服务治理,于社会建设发展,「数据是核心资产」都已成为共识。 而在实践场景中,海量的数据则如同不断涌出的原油,必须经过提炼、加工才能转化成汽油、机油为引擎所用。 5月6日,数据中台建设实战系列课程「数智加速度」第5课,奇点云数据产品专家星魁带来分享《企业数据资产管理方法论》,解答关于数据资产的那些事儿,例如:如何把数据变为数据资产,如何管理、评估数据资产,数据资产化给企业带来的变化等。 星魁,奇点云合伙人、数据产品专家,原阿里巴巴数据产品专家、原阿里巴巴双11媒体大屏负责人、原阿里巴巴数据小站产品创始人。 下文为分享节选: 01 什么是「业务数据化」? 业务数据化是企业数字化转型的第一步,也是数据资产化的前提。 一般来说,业务数据化有三个环节: 1、业务系统化 梳理业务,用系统去承载业务环节,例如会员系统、订单系统、商品系统等,如果没有那就需要构建新系统,实现把数据存下来。 2、信息结构化 在业务系统化的过程中会发现,有很多数据是非结构化的,例如摄像头录下的视频数据、店内陈列的照片数据等。我们需要通过视觉算法等方式,将非结构化的视图声数据转为可分析的结构化数据。 3、数据集中化 很多企业的数据是分散在各个部门的,尤其是大企业、传统企业,各个部门掌握一部分数据,互不流通,或有着很高的交换门槛,譬如2012年前的阿里巴巴,消费者数据分散在淘宝、天猫、聚划算等。而数据作为新型生产要素,只有流动、分享、加工处理才能创造价值(国务院发展研究中心创新发展研究部研究员吕薇,2020)。企业需要统筹分散割裂在各个单元,才能看到数据的全貌,更好地发挥「大数据」的价值。 有听众朋友提出:「为什么要集中?那为什么大企业都采用分布式呢?」这里的数据集中化不是指把所有数据存储在一个地方,而是指打通各单元之间的数据壁垒,由企业去统筹数据资产。而分布式其实是一种存储方式,并不与理念上的数据集中化矛盾。 02 什么是「数据资产」? 数据资产化是企业数字化转型的基石,是把数据原矿提纯为数据金子的必经之路。 那么为了完成从原矿到金子的转变,企业数据应该向什么方向发展以实现数据资产化?以消费者数据资产为例,我们有四个评价指标: 1、标签化 即能通过数据提炼出形象的标签,例如消费者的性别、品牌偏好等。这种标签是概括性的、易懂的,而非绝对值指标。 如果数据只能告诉我「这个消费者,昨天花了100多元钱,买了一只某品牌、草莓红的口红」,那不是标签化。需要将统计数据标签化,比如此消费者对口红的偏好是「中端、某品牌、草莓红」,才是标签化。 2、价值化 指已对原始数据进行了清洗、治理、提炼,转化为可衡量的数据,基于这个数据可推导转化为GMV。比如掌握了100万消费者资产,其中有1万是铁杆粉丝,每年复购3次,每次客单100元,那么单铁杆粉丝的价值就是1万3100元=300万元,其他的忠诚度不高的用户以此方法类推。 3、可应用 做数据看板算不算完成了数据资产化?不算。 数据不止是用来「看」的,而需要面向效果运营,最终可转化为服务并支持变现,为企业带来看得见的效益。例如,把消费者数据运用到广告投放中,提升广告的触达和转化;基于对消费者的偏好数据,对产品研发做下一步的升级等等。 4、可持续 这里指的是数据需要保持新鲜度,并源源不断地注入新的数据,是「活水」。 打个比方,短短一个月内,消费者的消费偏好就可能发生改变,譬如受到怀孕的影响,从偏好美妆类产品转为天然护肤类产品,开始关注孕妇养护和婴幼儿的产品。有的用户本来可能买东西前要看小红书,直播风起后,很快转为直播购物,购物习惯都发生了改变,流量渠道也会发生变化。 拿旧的消费者数据,一定不能指导现在的市场活动。 数据需要标签化、价值化、可持续、可应用,才是「数据资产」,才可以说企业真正拥有数据主权。 03 数据资产管理「五步骤」 从方法论上讲,企业管理数据资产要经历这5个步骤: 1、业务数据化 上文已经谈到,业务数据化是企业数字化转型的第一步,也是数据资产化的前提。 例如,零售企业需要围绕人、货、场,构建能落数据的业务系统,把物理世界的业务放到数字世界上,把数据攒起来,这是开采原始的金矿。 2、实体归一化 同实体,融通多源数据,从而发挥最大价值。 例如,在不同平台,同一用户可能有不同的id,积累了不同标签的数据,至少要打通一个手机号关联的数据,才能让用户形象更加丰满,从而去做有针对性的服务。在阿里的数据中台体系里,这方面叫OneID,对应的技术是ID-Mapping。 3、数据资产化 数据资产化在上文也谈到了,简单来说就是「把数据原矿提纯为数据金子」,把数据标签化、价值化,让数据可持续、可应用。 在这里,我们也需要注意一个问题,数据量越来越大,有些领域已经步入了指数级增长,不得不面对一笔不小的数据存储开支。降低成本,让数据成为资产并尽快发挥价值,成为企业必要的课题。 4、数据服务化 技术底层透明化,把数据提供给各个业务单元去调用,业务单元只需要从业务的角度出发使用数据服务,无需考虑底层数据技术。 5、数据业务化 数据一定要用起来,去服务业务,为企业带来降本增效。在这个过程中,数据中台(或企业的信息数据部门)也就实现了从成本中心到利润中心的转变。 04 数据资产管理「六要素」 在管理数据资产的过程中,有六大要素需要企业去重视: 1、标准体系 有一个平台某数据口径为A,另一个平台某数据口径为B,这个A和B指向同一个内容吗?那到底是以谁为准呢?正如秦始皇统一文字度量衡,统筹企业数据,标准化很重要。 具体来说,有数据同步标准、数据建模标准、数据规范定义、元数据标准、数据服务标准等五大类标准。 数据建模标准、数据规范定义的两大核心要点 2、健康体系 库里那么多数据,可能针对一个用户一个指标都有好几个不同数据,哪个数据是真实的呢?是否存在很多错漏数据呢?例如我们曾经遇到过,一个女鞋品牌里的消费者数据,曾经有一大串都是「男性」,后来发现是之前的运营人员「图方便」随便选择了一个值,这就影响到了数据的健康分。 我们从准确性、完整性、一致性、及时性等四大标准定义来理解数据资产的健康度。像给数据资产体检一样,通过对每一项检查,都有一个标准,建立健康体系,达标了100分,不达标扣分,最终可以得出一个数据资产总的健康分,去提醒数据运营管理人员不断地完善资产质量。 3、价值评估 100万的用户数据,到底是「值」一个亿还是两个亿?如何评估数据能为企业带来的价值? 我们从覆盖率、健康度、调用度、业务效果、业务依赖等五个角度,去评估数据资产的价值。 最直接可衡量价值的指标就是GMV,比如前面说到的消费者数据资产,掌握了多少消费者,就掌握了多少GMV资产。 4、资产ROI 上文我们也谈到了,存储数据成本不菲。在发挥数据价值的同时,也需要降低存储数据原矿石的成本。同样是这么多数据,有人投入100台机器,有人只需要投入10台机器,这就有了巨大的ROI差别。 数据资产不仅要衡量价值,也要衡量成本。在企业数智化转型的进程中,需要不断去权衡,做到价值与成本的平衡(资产价值>计算成本+存储成本+其他成本…),才可以称为合格的「数据资产」。 5、资产安全 数据既然成为资产,安全自然非常重要,包括数据安全(高危告警、数据脱敏、数据分级等)及系统安全(传输加密、防篡改、防入侵等)。 6、组织保障 还是这个老例子,对于人力资产,我们有HR体系去保障;对于物质资产,我们有财务、采购等部门去保障;那么对于DT时代极为核心的数据资产,组织保障自然不可缺失。 一方面,需要有数据平台团队(或请外部服务商支持配合)来完成一系列的数据工作,另一方面,也需要有一系列的规范机制去保障数据管理的正常运行。 罗马不是一天建成的。 我们可以为企业数据资产化描绘一张理想而完备的蓝图,但企业不可能一下子完成所有的进程;前面我谈到的五步骤、六要素,企业也很难快速做到「万事俱备,只欠东风」。不妨按照需求紧急程度、业务匹配度等划分为数期,逐步实施,「让车子先跑起来,边跑边换轮子」,把数据用起来,让企业更快看到数据的价值。 用起来,是企业管理数据资产的最佳启动方式。
4月29日,数据中台建设实战系列课程「数智加速度」第4课,奇点云数据模型架构专家天启带来分享《AI驱动的数据中台架构设计》,步步踏实落地,带大家从0开始建设数据中台。 天启,奇点云数据模型架构专家、原海尔集团数据架构师、原阿里巴巴政务团队数据架构师,精通数据仓库建模理论及数据开发技术,具备零售、政务、医药、制造等多个领域数仓和数据中台建设经验,及PB级数据仓库与数据中台建设经验。 在这一课里,你会听到: 数据中台的选型与构建˙ 数据中台踩过的那些坑 AI是如何驱动数据中台 数据中台新理解与畅想 下文为分享节选: 01 数据中台:正确的人+正确的工具+正确的事=降本增效 数据中台对于许多传统企业而言,依旧是很陌生的概念。 如何从零开始建设数据中台? 我们把它简化为一个方程式,正确的人+正确的工具+正确的事,三者缺一不可。 正确的人 数据中台在国内有完整实践的企业不多,相关的人才也相对较少。企业在选择数据中台时,需要有方法论、实践经验去指导,以避免从零摸索带来大量人力物力的浪费。这也是企业在选择服务商时需要留意的。 正确的工具 在这里主要指的是狭义上的数据中台产品。市面上的产品五花八门,数据中台产品各型各样,如何选择非常关键。 正确的事 数据中台不是摆设,并不是说搭建一个产品意义的数据中台,企业就完成数字化转型了。数据中台最终还是要为业务服务。我们要用数据中台做什么,解决什么业务痛点,需要考虑清楚。 这个方程式最终导向了我们建设数据中台的目的:为企业带来降本增效。「要么给老板省钱(降本),要么给老板挣钱(增效)。」 02 数据中台的选型与构建 首先需要强调的是,在这里我们分享的只是一般情况,不同企业、不同数据情况和不同需求,不可一概而论。不管黑猫白猫,能解决痛点的就是好猫。 数据中台的底层是大数据架构,大数据架构如何去选型? 在架构选型时,成本、场景支持是我们考虑最关键的2个要素。 综合实施周期、实施成本、是否支持实时计算、数据冗余与数据一致性情况等因素,我们认为Lambda架构成本相对适中,又能满足实时计算和离线计算两个场景。 当然,选择Lambda架构也会不可避免地面临数据冗余的问题,而目前大部分传统企业用到实时计算的场景偏少一些,相对来说产生的数据冗余也较少,可以通过数据治理等方式解决。 底层之上是引擎,包括离线计算引擎和实时计算引擎,又应当如何去选型? 离线计算:三种离线计算引擎各有特点,可以综合企业的数据情况和需求,选择合适的计算引擎。 实时计算:在批处理+流处理上,Flink备受青睐,稳定性较好、吞吐量较大。一般来说推荐使用Flink。 在架构上层,则涉及到了:数据模型应如何设计? 数据模型是为业务服务的。具体来说,就是把业务抽象化,提炼成数据模型,再通过数据解决业务问题。 建数据模型,会经历业务建模、概念建模、逻辑建模和物理建模四个阶段。 在模型选择上,我们仅列举两种模型,星型模型与雪花模型。通常情况下,为了能下游能更好地理解业务,快速提供数据服务,我们会采用空间换时间的方式,从而选择星型模型;而在维度信息变化非常频繁,或者数据存储成本非常高的情况下,我们可以采用雪花模型。归根到底,数据模型没有好坏之分,只有能否解决业务问题。 最后需要强调,对于技术和模型的选择,我们做了一些推荐和优劣势的介绍,但技术和模型本身没有对错之分,适合自己的才是最好的(能解决业务问题才是最好的)。 03 数据中台的架构设计 我们把数据中台的架构分为三层,数据资产层、数据服务层、数据应用层。 这张图从下往上看,首先通过数据治理、数据开发、借助数据仓库,把数据转化为可用的数据,即资产「数据资产化」;然后建立数据能力,把数据用起来,例如标签工厂、模型分析等,即「资产服务化」;再通过智能化的场景给业务赋能,也就是「服务智能化」。 04 AI驱动的数据中台 奇点云创立三年来,数据中台的实践在零售、时尚、百购等行业相继落地成功,在实践经验中,探索并检验出了数据中台的王道:AI驱动的数据中台。 所谓「AI驱动」,我们可以看到在架构中融入了奇点云独创的「云(智能)+端(感知)」的解决方案,从数据采集层的AIoT到数据服务层的算法服务、分析引擎再到顶部的数据智能应用,实现了「云赋能端,端丰富云」,既解决企业数据生产的问题,又解决企业数据使用的问题。 在「AI驱动的数据中台」实践的道路上,奇点云自研一站式大数据智能服务平台——DataSimba,旨在为企业提供全链路的产品+技术+方法论服务。其核心模块包括全域数据采集、数据开发、数据治理、数据资产管理、数据API、数据科学、数据质量、标签工厂。助力企业快速搭建安全、易用的数据中台,最大化释放价值,驱动业务增长与创新。
疫情黑天鹅之下,有的企业作为数智化转型的先行者,已做到「即使废掉了左手,还能用右手吃饭」;有的企业则终于意识到,形势发生了不可逆的变化,数智化转型迫在眉睫,甚至可以说,这是企业绝地求生的至要机会。 我们不再讨论「YES or NO」的问题,而更关注「如何做」、「如何更快更好落地」的问题。 4月22日,奇点云副总裁何夕在数据中台建设实战系列课程「数智加速度」第3课中带来分享——《企业数智化转型战略解析》,为企业伙伴们明确方向、挖掘问题,找到实践路径,跨越美好想象与现实落地之间的鸿沟。 何夕,奇点云战略咨询专家,原天下网商主编,原阿里妈妈大数据中心产品专家、阿里巴巴集团市场部市场专家,浙江大学社会硕士生导师。集多年数字化转型咨询经验,2019年推出口碑之作《大数据咨询方法论白皮书》。 在这一课里,你会听到: 背景:数据中台走红的时代背景 变局:数字化转型到今天主要面临的都是数据问题 战略:数字化转型的核心是建立清晰有效的数据战略 对策:厘清差距、明确方向、提出对策、建立框架 下文为分享节选: 01 企业为什么必须直面数据问题? 《富足》这本书谈到,当人类社会的生产资料从供不应求进入供过于求的状态,很多商业模式和商业逻辑都会发生巨大的变化。 2015年,人类的数据量迎来了关键转折点——这一年产生的数据量是人类过去历史上所产生数据量的总和,从此进入了指数级增长阶段。 伴随着「数据富足」状态,企业的主要矛盾将成长为日益增长的数据存储费用和仍然稀缺的数据应用之间的矛盾。 简而言之,就是数据越存越多,成本越来越高,却用不了,不能发挥数据的价值。因此,企业必须直面数据的问题。 从另一个角度来讲,企业也逐渐发现,有大量的数据问题隐藏在业务问题背后,例如数据不通、数据不可用、数据准确性低等。 举个例子,我是一家企业的财务总监,我不仅想知道ERP里数据能提供的分析结果,还想算出人力成本、产品研发成本,产品交期对收入的影响,但ERP外的数据都没有打通。再如,我已经建了数仓,却因为数据质量问题、数据准确度问题及数据口径不一致等问题,导致数据不可用,我的销售数据可能有15个,不知道到底哪一个才是准确的。 越来越多的业务问题,伴随着越来越多的数据问题,亟待企业正视、解决。 02 当谈到「企业应重视数据」时,我们究竟在谈什么? 有些企业认为已经对数据有了足够的重视,却依旧做不好数智化转型。 在介绍我们的方法论之前,不妨先给自己一个直观的判断:已知数据资产和人才资产都很重要,为了建设人才资产,企业有HR部门去做人才储备和管理,有专业的系统管理工具,有咨询公司为企业出人才报告,那么对于数据资产,我们有什么? 「什么都没有。」 有些企业确定了数字化转型的目标,由各个部门分别自行建设了一些项目或系统,却依旧答不出灵魂拷问:「我的核心项目是什么?目前我们是如何规划的?」 事实上,数字化转型在企业的推进过程中,受到了预算、资源和技术能力的限制。在有限的预算下,我们如何对数字化转型进行有效的项目规划?这需要主导方对企业的现状和目标有充分的了解。因此从某种意义上来说,战略才是数字化转型的核心。 那么如何帮助企业确定数据战略?我们会从业务、技术、组织三个视角来看: 技术,解决数据存通用的问题,但数据战略并不止于技术。我们需要采集什么数据、治理什么数据、应用什么数据,则需要从业务视角出发,去做数据驱动的商业设计。这也就是「以通促用,以用带通」。 而数据在组织内外流动的过程中,也涉及到了组织设计的问题,例如人才招募与培养、激励政策与组织保障:是否需要数据产品经理?需要什么样的数据分析师?需要制定什么样的政策才能保障相关人员能够充分发挥价值?数据管理部门在技术中心应该如何设置,在业务中心又应该如何设置? 总而言之,数据战略需要全集团下一盘棋,从技术架构、业务价值、组织设计三个视角去考量和执行。 03 大数据咨询如何帮助企业明确数据战略? 技术、业务、组织通盘考虑,道理我都懂,具体怎么做? 奇点云的做法是: 1、正确理解 我们作为大数据咨询方、数智化转型服务方,要去理解企业的现状,通过业务调研与数据摸底的方式确保我们的理解与企业的理解没有偏差,同时企业自身也需要建立对自己的正确认知。 2、有效沟通 就数智化转型,在内部讨论并达成共识,例如高管与高管之间对数智化转型的理解是否一致,管理层与经营层之间的认知是否有偏差,又由谁(技术部门?业务部门?)来主导数智化转型。 3、厘清差距 在认知现状的基础上,我们需要厘清企业的技术能力和实现业务目标之间的差距,这可以视为建立数据战略最重要的前提。 4、形成对策 基于对差距的评估诊断,有针对性地提出对策,例如数据中台可研/建设规划、数字化改善策略和方法论等。 5、重点突破 数据战略并不止于形成对策、实施对策。或者说,如果我们的方法论只到「形成对策」为止,企业实施或许很难得到较高的成功率。 这是因为在初期、短期内,数据体现出价值的过程是非常缓慢的。甚至仅数据治理一项工作,就可能需要花上1-3个月才能见效。而这个「干脏活」的过程,从业务视角来看,是毫无感知的。 那么如何能让业务层面更快、更清晰地感知到数据的价值? 重点突破。 我们协助企业挖掘出一些明星需求,例如为领导做一个「管理驾驶舱」,让领导实时看到数据和分析的结果——在此之前,这些可能需要分析师花上一周的时间才能输出。 之所以称其为明星需求,它不一定能直接对业务产生价值,但是它能让业务看到数据的价值。 通过这些明星需求,我们确定了数据赋能的突破口,有效降低企业数智化转型的风险,实现了数据战略从策略端到行动端「端到端的落地」,并有利于持续探索数据产品化的路径。 04 如何推动业务部门与信息部门一起推进数智化转型? 在传统观念里,从信息化到数字化、智能化,都被认为是信息部门的责任。而前文我们已经谈到,企业数智化转型是全集团一盘棋去考虑和建设的。那么如何推动业务部门与信息部门一起来做这件事? 除了前面介绍过的用「明星需求」来突破,在多年的大数据咨询服务过程中,我们还发现有一种比较好的方式——打造数据门户,能够帮助企业各部门打通数据流程、推动企业数智化转型节奏。 数据门户可以理解为「数据黄页」,就像电话黄页一样,能够在上面查到有哪些数据、数据在哪里、应该找谁要对应的数据、应该怎么要、是否有使用和分析的权限等等。基于数据门户,企业各部门能把数据串起来、用起来,真正实现「被大规模使用」,而不再困于「有数据分析的想法却找不到人」、「有创新需求却碍于职能部门之间的数据隔阂」等问题。 数据门户的建立过程同时也能有效带动企业各部门持续整理数据资源、确立数据归属和数据组织、建立数据管理制度等,为公司进一步的数据治理、数据应用打下基础。 数字化转型的核心是建立清晰有效的数据战略。 奇点云将以成熟的大数据咨询方法论和数据中台建设之道,助力更多的企业伙伴了解自己、厘清差距、明确方向,在多变的环境形势中,以数智化转型强势突破、立于不败之地。
4月8日晚,数据中台建设实战系列课程—— 「数智加速度」正式启动,第一课由 行在开讲。 行在,奇点云创始人兼CEO,20年数据老将。2016年,带着12年阿里系数据实战经验创立奇点云,旨在「让实体商家拥有淘宝一样的数据化能力」,让商业更智能。 在第一课里,行在集中回答了7个问题: 1、数据中台是什么? 2、数据中台与数据仓库、数据平台、数据湖等概念的区别? 3、阿里巴巴的大数据之路? 4、数据中台是如何演进的? 5、线下商业如何落地数据中台? 6、数据中台能为企业带来什么? 7、「不看广告看疗效」,有没有案例? 01 数据中台是什么? 狭义上来说,数据中台是一系列数据技术的统称,以解决数据“存通用”问题为核心,为业务数据化和智能化提供数据采集、计算处理、分析决策和应用的技术。 而我们理解的数据中台,从广义上来说, 数据中台不仅仅是技术,更应该是集公司战略决心、组织架构、技术架构于一体,以业务价值为导向,用技术拓展商业边界, 是商业进入DT时代的重要基础设施。 02 数据中台与数据仓库、数据平台、数据湖等概念的区别是什么? 20年前,数据仓库出现,企业在数仓上建BI,更多的是给决策者看报表;后来阿里发现,数据除了给决策者看,更多的可以为一线运营所用,例如打 「通」淘宝消费者信息数据、建立TCIF后能帮助他们了解消费者、优化广告投放,才进入到 「用」的阶段。 而在「用」的基础上,数据中台可以为企业 「赋能」,实现降本增效,例如为企业建设智能补货、智能人效等能力,实现质的飞跃。 至于数据湖,它比较像个杂货铺,更多的是堆积数据,而数据中台不仅要完成 「存」这个任务,还要把数据 「通」、 「用」起来。 当然,在处理数据、搭建算法等能力上,数据仓库、数据平台与数据中台也不是一个量级的。譬如传统数仓要跑几天的几亿条会员数据,依托奇点DataSimba只需要1-2小时。 这也就解答了「企业是不是可以用原来的数据仓库、数据平台,去完成这一系列数据相关的动作」的问题,要真正实现「让机器完成机器能做的事情,释放人去做更有创造力的事情」,还是需要数据中台的支撑。 03 阿里巴巴大数据之路 关于数据中台的起源,相信大家已经听过很多故事,例如奇点云首席战略官才言的分享《数据中台从何而来》。 阿里巴巴是国内最早也最成熟的数据中台实践者。 在阿里的12年,我亲身经历了从数仓到数据中台的整个过程: 2004年,我以「数据仓库专家」的身份加入阿里,负责搭建阿里巴巴的第一个数据仓库(DW)。 2009年,阿里提出了重大愿景——未来要成为「数据公司」,同年阿里云成立。 2012年,我和团队完成了TCIF(淘宝消费者信息库)的搭建,整合打通了阿里巴巴各平台应用的消费者数据,形成了底层3000+个标签。从那时起,阿里打破了淘宝、天猫、高德等平台产品各占一个山头的局面,消费者形象从「单面」变为「多面」,立体、丰富。至此,阿里也拥有了「预测」的能力,可以基于对用户的立体认知,预测用户的偏好、消费轨迹等。 2015年,阿里巴巴向外发布了DT时代的提法,用Data Technology(DT,数据技术)替代了Information Technology(IT,信息科技),强调数据技术将成为未来商业的驱动力。 同年,我在阿里云内部创业,带队创建 「数加」平台,把阿里巴巴的数据能力外化赋能给社会更多主体(例如企业、政府)。 04 数据中台是如何演进的? 基于阿里巴巴的数据之路,我们总结出了 数据中台演进的四个阶段: 1、数据库阶段,主要是OLTP(联机事务处理)的需求; 2、数据仓库阶段,OLAP(联机分析处理)成为主要需求; 3、数据平台阶段,主要解决BI和报表需求的技术问题; 4、数据中台阶段,通过系统来对接OLTP(事务处理)和OLAP(报表分析)的需求,强调数据业务化的能力 05 线下商业如何落地数据中台? 在线下场景, 我们既要解决企业数据生产的问题,又要解决数据使用的问题。 相信很多企业的朋友有同感,相比线上,线下商业在落地数据中台时会遇到更多问题:数据从哪里来?能从数据中获得什么信息?线下90%的数据是非结构化的视图声数据——而线上的数据往往是结构化的,经验无从借鉴,我们如何把这样的「数据原油」提炼成降本增效的燃料? 更直接的例子是,比如一家零售企业,线下几千家门店,店长可能很清楚有哪些货、量有多少,但是不知道一天进店的顾客有多少,有多少男性、多少女性,其中有几位是你的会员,他们拿起什么、放下什么、花了多长时间决策,都无从了解。 我们的做法是把「云」和「端」结合起来。 端,智能端(企业原有的信息系统、AIoT等)负责数据的收集,获得线上线下全域数据,解决无数据采集、无数据沉淀等问题; 云,云负责数据的存储、计算、赋能。具体包括将视图声数据结构化处理、计算、分析,用AI算法代替经验公式,搭建行业价值化的应用场景等等。 云赋能端,端丰富云。从而真正解决企业数据生产和数据使用的问题,用人机协同的力量消除不确定性,让机器去做机器能做的事情,让人有更多时间去做人该做的、有创造力的事情。 06 数据中台能为企业带来什么? 我认为, 一切为业务服务,数据中台最终要帮助企业建立能力、实现降本增效。 如果拿苹果树来打比方,我们不仅要让土地(底层数据平台)变得肥沃,也要能为客户种出苹果树(数据智能应用),为企业带来真正的业务价值。 当我们和企业IT部门(或信息部门、数据部门)一起把这棵树种好,结出了业务价值的苹果,大家就会发现, IT部门正在从成本中心转向利润中心,正在最大化地为企业创造价值。 07 有没有案例? 老话说得好,「不看广告看疗效」,上4个案例: (1)大型零售企业,建立智能定价能力 一家传统零售企业,在全国有几千家门店,年营业额在100亿到200亿之间。 企业要求“零库存”,也就是说在4个月之内,一件新品就必须完成上市销售直至库存清空。因此,这个企业以前会对商品做一系列的营销降价。这样虽然带来了不错的营业额,但实际上每年的利润是很低的,40%的商品都不得不低于成本价售卖。我们为这个企业做的第一件事就是 补齐消费者数据——因为在此之前,客户只有300G数据,虽然门店很多,却只有货物的数据,没有“人”和“场”的数据。 根据店面及周边一些信息、节假日的销售数据及消费者洞察等的数据分析,我们为其提供了一套智能定价模型,让这个企业在全国的每一家店都能有自己“个性化定制”的定价策略,智能降价,千店千面,因地制宜。 在这样的服务基础上,这家企业每年大约增加了5000万净利润。 (2)服饰零售企业,建立智能人效能力 一家服务零售集团,主打三四线年轻人市场,直营门店2000家。 我们为这家企业打造了智能人效管理系统,在门店仍然保持业务平稳增长的基础上,截至2019年3月下旬,通过排班优化和人员优化,企业释放1720人,2019全年节约人员开支超8000万元人民币;同时,全面了提高员工工作效率与组织协作效率。 这个项目在企业内部的推广速度远超出预期,受到了业务部门和公司管理层的热烈欢迎。 (3)连锁零售企业,建立智能补货能力 这家连锁超市企业,其生鲜销售额占比超过一半。生鲜对新鲜度要求很高,这就需要保持合适的店内排面库存和在途库存。 原先它的生鲜需求量是基于买手的人工经验来预估的,一般为了保证尽量不缺货,提升顾客的消费体验,往往会过高的估计进货量,这会导致未及时销售的蔬菜水果等只能低价处理或者清理掉,耗损率很高。 我们在深入了解客户业务现状及需求后,与客户一起梳理对齐关键业务指标(如正毛利率、损耗率等),结合会员、销售、损耗评估、缺货还原等业务数据以及节假日、天气、附近商圈居民区等数据, 从16个变量升级为100多个变量,对生鲜需求进行了预测。 最终仅绿叶菜这一项的预测准确率就相比原先提升了35%,每年能为每家店节约400万的成本。 (4)大型家居零售企业,建立智能营销能力 一家国际大型家居零售企业,有超100T数据量,客户数量超3000万。 奇点云入场后,搭建数据中台,新增了超过200个客户标签,从而建立了精准投放、精准营销的基础。 例如,仅短信投放一项,成本就从700万元/年降低到了200万元年。而基于更丰富的客户标签、更立体的会员画像,复购率比原来提升了4%。 以上案例均来自于 奇点云所创导并始终践行的「AI驱动的数据中台」。 我们认为,只有AI驱动的数据中台,才能同时发挥好 「存:把一切业务数据化」、「通:连接数据孤岛」及「用:把一切数据业务化」的作用,最终帮助企业实现数智化升级,赋能企业实现降本增效。 未来,我们会坚持践行AI驱动的数据中台,以实现数据中台的最终目标——给企业带来降本增效,与客户、伙伴们一起拥抱未来世界。
DT时代的浪潮席卷而来,「数智化转型」显然已不只是信息化部门或业务部门能独立承担的「一个项目」。企业需要从战略层面站定立场,建立决心,与之相配合的,则是一个组织架构和技术架构的变革升级。 4月15日,业界首个数据中台项目实践者才言,在数据中台建设实战系列课程「数智加速度」第二课中带来分享——《企业数智化转型的商业模式调整与组织变革》,从组织与商业模式视角破解难题。 才言,奇点云首席战略官,「数据交换区」专利操盘手,曾主导建立过阿里云「数加」的23个工作室。 在这一课中,才言以自己的十余年数据实践经历总结了「在线」、「数据大」、「机器分类人」、「服务业分工精细」、「平台经济崛起」五大浪潮,分析了浪潮之下企业如何站定数智化转型战略、重塑商业模式,并对随之而来的组织结构变革调整等问题进行了讨论。 下文为分享节选: 01 数据对于企业组织而言,有什么意义? 在企业组织至今160余年的历史长河中,从传统时代到今天我们的智能时代,数据对于组织来说是什么意义,起到了什么作用? 可以发现在科学管理时代,计划和执行开始分离。同时,计划与执行之间的沟壑也在产生巨大的浪费,这种浪费在电气时代与信息时代逐步由企业努力去消解。例如电气时代,杜邦分离了研发和营销,福特建立了生产流水线,通过聚合专业分工的能力减少浪费;信息时代,戴尔采用程序化流程管理,大大降低了人工行为带来的不确定性。 而智能时代,大规模精细化的数据匹配能最大程度地消灭浪费。 以营销为例,以往由人制定目标、制定策略、制定渠道、完成执行、回收结果,而在中台化、智能化和数据化的场景下,全过程由掌握数据的机器判断,过程可视、结果可预测。计划和执行将再次从分离变为融合,最大的收益即在于此。 02 中台战略将如何影响各行各业? 2016年冬天,奇点云创立。我与行在、与创始团队思考:我们要去服务什么行业? 曾鸣教授有句话让我印象深刻:「平台是你脑后的一盏明灯」。 你不要一直回头去看你脑后的这盏灯,你只要往前走,记得后面有这样一盏灯就好。你需要深入行业,做应用,做服务。 那么哪些行业,是我们判断会率先用到数据中台? 我有4个判断逻辑: 第一,企业有「超级APP」,或「超级前台」,能够以消费者为中心去打通链路,做到线上线下无缝体验。 举个例子,茅台,它需要数据中台吗? 「茅台云商」并不是一个超级APP,它只是茅台众多渠道中的一个点。除非有一天茅台云商完成了茅台分区而治、分省而治的机制,成为了茅台线上线下一体化的一个部分,它才真正的进入到需要数据中台的阶段。 第二,企业的商业模式有变革的需求,要往平台化的方向演进。 例如,超级APP成为了品类丰富、交易体验好的第三方平台,或超级APP后台成为一站式接入、服务供应商的线上线下统一平台。 第三,企业需要有增加新收入的动力。 如果一家企业目前的业务特别赚钱,可能也就不会考虑一些更精细化的方式、更新的渠道去增加新收入。而它的垄断资源一旦受到影响,则可能会开始考虑变革,需要尝试一些方式去增加新收入。 第四,如果企业已经有了比较成熟的智能终端,能够实现对线下流量的线上化,则比较适合推进数据中台。 例如,能充分利用线下流量,把客流变为会员,能提高线下触点的数量和交易频次,提升会员粘性。 总结来说,有2类行业,有更迫切的数据中台战略需求: 1、「一体化」的行业,顺势而为 企业的品牌对消费者的感知、体验是一体化的,从线上到线下,从触达、消费到服务,都是全链路一体化的。这样的行业(例如零售业)将会率先建设中台。 2、「条块分割」的行业,组织先动 这种类型的行业虽然没有完成一体化的动作,但看到了趋势,从战略上认同,并在组织上先进行调整。这样的行业也将得到数据中台的积极影响。 中台将会像波浪一样,影响到各行各业。但如果企业还没有对上文谈到的四条做好准备,没有顺势而为的业务趋势或坚定的组织战略,这个中台可能建不稳,或只是个「伪中台」。 03 中台战略下,企业组织应该如何构建? 「你相不相信数据中台的实践一定会对业务有效果?」 当组织去落实时,一定要坚定不移地相信,才能推动组织的变革。坚信,加上下面3个「关注」,至今从未失手: 第一,关注效果 企业做数据中台,是业务价值驱动的。组织设计和技术架构,都是为了解决业务里的问题。 那么想让组织走向中台化、智能化,第一步就是去找到战略卡位点,落实卡位点,让组织依托于此去生长起来。 第二,关注效率 找到卡位点,发现确实有效果,接下来就面临:你能不能把它规模化? 我们的方式是——AI驱动的数据中台。「AI驱动」,就是规模化支撑数据化运营的关键点所在。提炼算法,落地人工智能应用,把数据的、重复性的工作交给机器,释放人的创造力与生产力。 第三,关注可持续性 企业中,支持组织变革的责任主体是谁,由谁来推动规模化? 有三种模式,供大家参考: A模式 例如阿里巴巴,主要由业务部门推进,经历了先业务数字化转型、后数据数字化转型,数据数字化转型先规模化再平台化的路径。 A模式往往采用自研,比较适用于数据公司。 K模式 例如某知名人工智能上市企业,由IT部门牵头数智化转型,先数据数字化转型、后业务数字化转型,「集中力量办大事」。 这种模式较适用于不以「数据公司」为愿景的大型公司。 混合模式 更多的企业会选择混合模式,例如中石油、国家电网、云南烟草等,由IT部门和业务部门联合推动。 这种模式较适用于业务比较复杂的大型公司:IT部门没办法支撑到每个场景,场景的专业程度不一;而所有部门的业务间具备较大的关联性,数据标准有待建立。 其实,这三种模式没有优劣,只有适不适合——企业自身很容易判断自己适合的模式。 目前对于大多数企业来说,我个人认为混合模式更保险,分布立项,逐步往前走,更能保障数智化转型的可持续性。 04 中台战略下,智能企业的组织环境会如何转变? 「数据中台、业务中台怎么做?」甚至可以说这其实是比较小的问题——真正的问题是「角色定位的问题」。 逍遥子说,公司的竞争力都反映在组织上。我非常认同。 中台这件事,不是一锤子买卖。它的投入周期至少是5-10年。所以我们的组织环境必然要发生变化。 第一,迭代领导者,选择「奇点人才」 我把这一类leader统称为「奇点人才」,TA既要熟悉「开源」,例如改善、扩展、颠覆,又要熟悉「节流」,例如局部优化和全局优化,规模化和整体协同。 第二,迭代组织关系,从支撑到赋能 信息化时代,技术和业务的关系是支撑关系;到了中台化时代,技术和业务则转变为赋能关系。 具体而言,从满足业务部门需求,转变为能够推动业务部门完成中台化,乃至提出业务创新构想,带来新的价值增长点。 第三,迭代组织的能力结构 首先,组织架构一定要是平台式的架构,能够容纳数字化转型。 在模式上,一定要强调创新前台业务,强调业务与后台的一体化运营,不要单独项目化运作。「以立项的方式搞数据中台,是搞不起来的。」 在推动数智化转型的过程中,一定要关注利润。数据的存储和计算是不可忽视的、非常高昂的成本。考核体系需要以业务目标为核心,辅助以技术目标,尽力实现从成本中心到利润中心的转变。 第四,迭代组织的制度文化 银泰与阿里合作,提出一个目标:五年再造一个银泰,而且并不是通过收购、兼并、门店数量或面积增长来实现。 这给了我们一个启示,在数字世界与物理世界逐步融合,企业走向智能化、一体化的道路上,企业不是要专攻物理世界的发展,而更要尝试在数字世界里努力。国家推动「数字新基建」,也是逐步来建设、丰富我们的数字世界。 那么怎么努力呢? 从企业的制度文化角度来说,其一,企业每一个人都需要建立「人群意识」,从「以货为中心」转向「以人为中心」,核心是人有哪些需求、又是如何被满足的,由此去构建一系列策略、行为;其二,制度上需要保障企业拥有数据主权,没有数据主权则可能在DT时代面临危机,曾经的「喵街」就是例子。 时代变革的浪潮浩浩汤汤。 变化不仅在市场、环境、业务、技术,也同时存在于组织、角色、商业模式。才言认为,未来的一切都可以实现在线化,唯有以人为中心,打通链路、实现数字世界与物理世界的一体孪生,才能「以变应万变」,在智能时代占据高地。
DT时代,大数据成为人们谈论的焦点,2019年更被誉为数据中台元年。人人都在谈数据中台,却不是所有人都清楚,从历史逻辑来看,中台或者数据中台从何而来? 少数清楚这段历史的人中,有一位大数据老司机,人称「才院长」,他是回答这一问题的最佳人选。 他叫才言。奇点云首席战略官,9年大数据老司机,「数据交换区」专利操盘手。 9年之前,才言初次踏入阿里巴巴大门。对才言来说,揭示未来趋势是个脚踏实地的研究历程,与其研究复杂的经济结构变化,不如抓住简单而明显的趋势,阿里巴巴是一个趋势,而数据则是下一个。 数据中台从何而来?才言用其亲身经历为我们回答。 01 缘起:作为生产要素的数据 在入职阿里之前,才言是管理咨询公司的一位战略咨询顾问,努力帮其客户理解趋势的同时,也在为自己寻找趋势。他发现,商业世界最不容忽视的一个简单趋势是,企业的数据正在变得越来越多。 才言清晰的记得,「2012年,大数据之所以兴起(的背景在于),有句话反复出现:人类迄今为止生成的数据中,有90%是在近两年内产生的。」 2011年,才言在在阿里研究中心(现阿里研究院),研究电商服务业并且以研究者身份进驻淘宝商家事业部,见证了淘宝数据开放的过程(API每日调用量千万次到百亿次)。 2011-2013 海量数据如何塑造新商业? 进入阿里之后,才言一头扎进了数据的海洋。他第一份工作是利用http://alibaba.com上的数据来预测中国的进出口。他发现,互联网数据颠覆了传统的宏观经济指标的抽样采集工作,互联网数据的加工可以做出全新的宏观经济变量。 「(在阿里研究中心的)这段经历部分回答了我的疑问:海量数据对商业世界有什么影响?——如果一家公司的数据极为丰富,会发生什么?能够有什么启示?」2009年,阿里研究中心发布网商报告,提出「海量个性化」这一新概念,才言也随之找到了自己的兴趣点,也有了越来越多发现。 因为研究电商服务业,他发现,从 「数据是生产要素」这一命题展开对新兴行业探求的话,数据是有成本的,而且一定程度上成本高昂,跟大家认识到的「数据几乎零成本复制」完全不同。不仅如此,在良好的用户体验这一约束下,数据的采集也有机会成本。从这两点来看,数据是稀缺的。它具备生产要素的特点,会极大影响企业的商业模型。 因为研究电子商务生态系统,他接触到同事们把理论物理的复杂系统分析方法引入到研究中来,第一次看到淘宝数据展现出的「自然分布律」适用于淘宝女装卖家,第一次用「连通性」等理论物理语言重塑产业研究。顿时,他感觉数据极为丰富之后行业研究这个职业都要变天了。 他从品牌商品在网络渠道的实时渠道数据里,第一次观测到品牌商「渠道灰度」:随着时间的延展,商品(某类sku)的价格和数量变动的情况,实时反映了渠道结构与关系。「在线下人们只是感知到这个规律存在,而在数据极其丰富的线上,借助强大的计算平台这些都得以直观展现。」才言说。 才言对数据的认知在改变的同时,他也在思考,阿里的生态可以利用阿里的数据做些什么? 才言当时的本职工作是对淘宝生态业务的跟踪研究,需要思考淘宝开放平台(以及服务市场)的运转机制究竟是什么?应该是什么?需要解释的是,淘宝开放平台即后来为人们所知的共享服务平台(即阿里的业务中台),不光服务淘宝还服务外部,职责是把淘宝的数据开放给淘宝认可的合作方。其中,数据服务的方式是API服务方式。 在做业务的过程中亲手实践了「封装API服务ISV」,才言陆续意识到问题所在:从供给需求的角度,自2010年起经过三年多的数据开放现有的1000多个API覆盖范围极广,但平台供给给市场的数据数量和类型是有限的,导致了交易市场上的ISV的APP供给也是有限的(超过6000多个),使得市场竞争趋于同质化。然而在API封装的过程中,大量的数据、算法因为过严的安全审核无法对外开放,一定要去寻找新的数据服务方式。 2012年阿里巴巴同步「聚石塔」发布而诞生的CDO(数据平台部),极大地刺激了才言。在2013年的淘宝服务商大会上,才言提出了「在CDO的基础上构建新的电商服务业」的想法,并且随后就转岗到了CDO。 2014-2015 A如何用B的数据? 「到岗第一天的会议里,老A讲到淘宝数据还处在自给自足的原始状态。各种光怪陆离的情况层出不穷,」才言回忆起CDO,不禁哈哈大笑:「当时有个实习生刚入职3个月,表的生产总数全淘宝第一。还有个资历非常深的BI因为在公司工作很久,合法积累了很多数据使用权,于是很多团队的算法合作不得不找他,因为他有数据霸权。有了计费计量之后,有个勤奋的员工在宽表里跑一段sql,花掉上百万RMB,太可怕了。更可怕的是他的工作后来经过审计还是合理且必要的。」 这大概就是数据极为丰富之后如何治理的最初状态。 春江水暖鸭先知,阿里巴巴的状况也将预示着数据如果进入有序的提供价值的状态时,商业世界变化极大。当时,CDO团队所共识的大数据理念是「数据从业务中来,回到业务中去」,共同的愿景是解决「A如何用B的数据?」的问题。 才言在CDO做的第一件事就是担任商家数据中心(2015年迁回淘宝后改为品牌数据银行)PM。这一项目首次尝试把商家散落淘宝的所有数据大集中,解决商家在经营决策中的数据工具问题。 在梳理某知名淘品牌的商家数据时,他大吃一惊:商家想要看一份正式的BI报表,但这份BI报表的数据源分散在13个淘宝的部门,而依据阿里集团数据安全规则,谁生产数据谁对数据的使用负责。这些数据存储在不同的数据库、不同类型的数据库,甚至不同的计算集群。在技术上尽管当时CDO做出来了享誉阿里的DXP数据交换平台,但割裂的数据如何通过可信可靠的方式对内对外服务?显然还有很长的路要走。 商家数据中心应该实现什么功能?为了了解商家需求,才言找了大(年收入十亿级别)、中(年收入亿级别)、小(年收入千万级别)三家典型商家进行试验,商家数据中心第一次尝试把淘宝给商家用的数据尽量集中,方便商家加工数据,继而做分析和洞察。这也是淘宝生态里第一个BI工具(数云NewBI)的缘起。 「大数据最终会影响各行各业,要想在这个行业做出点什么,我决定两步走,一是扎实的基本功,尽可能熟悉基础的大数据技术。我花了接近两年的时间,把数据平台CDO最重要的3个引擎——BI引擎、推荐引擎、营销引擎都做了一遍。二是在工程实践的基础上尽可能掌握行业实践。了解多行业多领域就会触类旁通,只呆在其中一个环节导致视野变窄。」他说道,「很幸运,在深入电商4-5年后有机会在阿里这个大平台上从数据的角度接触几乎所有行业,明白了数据平台最重要的框架结构和主要应用场景。」 在挖掘数据的业务价值、推动数据在业务中应用方面,标志性的事件是TCIF(淘宝消费者信息库)——统一拉通阿里的消费者数据,并进行标签化,形成了3000个消费者标签。这些标签在具体的使用过程中,才言接触到了「表级别字段级别的数据开放」、接触到数据交换区在阿里各BU的推进。 「我的小伙伴把友盟等BU的数据上云,对于那些没有上云的BU比如UC,他们如何合理合法合规且安全地使用TCIF以及TCIF延伸出来的数据服务。这是我当时的工作。」对比之前在淘宝开放平台的工作,才言认为,数据安全和数据价值是相对而言的,重要的是数据技术本身在不断演进,以API形式开放的形式是数据开放方式里未来一定不是主流,这也是他从计算广告的实践中获得的认知。 以智能广告为例,整个页面从请求广告、智能推荐、调取广告素材并展现,整个过程就200ms。数据服务是一个高速运转的闭环链路,数据金矿若想被服务商更好地利用,主流不是API开放的方式。 2015-2017 如何让数据产生价值? 2014年的阿里技术论坛上,后来的奇点云创始人兼CEO行在(张金银,TCIF创立者)发表演讲《大连接》,认为大数据的本质就是大连接。「这一点我非常认可。」才言提到:「如何让数据产生价值,第一件事就是数据要连接。有些一些脏活苦活累活必须要干,这是有价值的。」 自2012年7月成立以来,阿里内部各BU在马总「one company」战略下持续推进数据大连接、大集中。 在连接的过程中,数据和业务逐渐实现双赢。以TCIF为例,一方面行在团队通过 TCIF 服务集团内部各业务方,另一方面业务方使用数据服务的过程中,也产生数据回馈CDO的ID mapping服务,使之更强大。从实践出发,行在总结了「数据共建共享」的数据交换理念。出于对「大连接」和「共建共享」理念的认同,才言参与了行在主导的数据项目——整合阿里上市前后收购的全资子公司之间的数据,进而推动数据交换区。 作为「数据交换区」专利的落地操盘手,才言帮助UC第一个成功使用专利成果,合规地使用阿里巴巴集团的数据。经过半年多的努力,阿里巴巴前20个数据交换区多数都是才言建立,他认为数据交换区是数据平台未来的最高阶应用,「最狂妄的时候我有这样的错觉:没有数据交换区的数据平台都是扯淡」。 「我们发现在数据使用的过程中存在奇点。」才言复盘数据交换这件事的意义时谈到,「先有需求再有供给。业务方是要到知道业务可以数字孪生,业务可以数字化;知道业务提升的瓶颈,感受到痛;他知道他需要什么数据时,数据交换才会发挥价值——这个临界点就是奇点,这个临界点过后AI跑出来的效果才可能超过业务专家。」 那年一个重要变化是,阿里云内部提出了要从DBA到DA(Data Architect,数据架构师),才言转岗成为第一个DA:「真正的DA大多对各类计算平台很熟悉,懂数据架构,知道算法如何工作,且能够深入业务场景。只有这样,他们才能和机器一起在生产率上超过业务专家。」 02 转折:数据中台从何而来 不管是当时还是现在,阿里巴巴对数据的认知和应用能力都是超前的,不仅是技术超前、人才储备超前,应用场景也超前,成本收益也与众不同。2015年,行在创立了数加平台,提出了「普惠大数据」,把阿里的大数据技术和能力通过一个新的平台对外透出,让大数据普惠各行各业。 才言也参与数加平台在阿里内部的创业,在云栖小镇的平台垦荒岁月里,才言负责数加的业务板块,建立了数加23个工作室(由阿里云合作伙伴建立,形成大数据能力服务各细分行业)。 (2016年数加平台在云栖大会正式发布) 找到一个合适的客户 「普惠大数据」的具体实践中,有两大问题:一是鸡同鸭讲——你跟客户讲技术客户跟你讲行业;二是大炮打蚊子——平台功能大而全要解决的问题很具体充满细节。 「第一个客户是华数,华数认同阿里的大数据技术是一回事,但是让华数明白甚至构建数据平台是另一回事。虽然阿里最终提出了「数据中台」的理念,但是服务2B客户时客户听不懂,没法落地。同时,阿里内部组织叫做数据平台事业部,需要对大数据在组织中的作用重新定义,否则无法落地。」才言回忆当时碰到了不少问题。 一家好的合适的客户,对于大数据理念的落地至关重要。 如何找到合适的客户?在经过23个工作室的实践和筛选后,才言初步得出一个结论:零售和政府会率先践行大数据的落地。「离开阿里云之后,我们创建奇点云时剑指这两个行业。行在提出了两句话:帮助政府高效治理,帮助实体零售转型升级。」才言补充,这与2019年阿里云的组织结构调整后行业分布不谋而合。 「我们(当时)接触了传统电商和传统实体零售企业。」才言回忆,「对于传统电商,数加平台能够帮助这类纯电商平台做好智能应用,常见的是广告和推荐,但纯电商平台的业务重点还是流量获取优先于流量转化。」那时,流量获取已经开始往线下走,并且有了直播、短视频等等苗头。 「而对于传统实体零售企业,数加平台能够帮助他们做好智能决策(主要是BI),但是纯实体零售企业信息化尚待完善,人货场的数字化还在未来。」才言说,在2015年的时点上,这两类零售客户显然都不是理想客户。 直到后来的奇点云联合创始人兼COO公主(刘莹,时任阿里云西南大区负责人)带来了一个客户,「我们详细访谈了(客户的)各部门后发现:他们花10年时间在各零售业态建立起品类优势,然后再花10年的时间在信息化、互联网、移动互联网、O2O时代都做成了品类第一。」才言掩饰不住兴奋,评价这个客户:「老板对组织创新想法非常大胆且敢于执行。对于战略卡位点敢于投入,比如抓住移动互联网的机遇时,内部有10多个团队各自根据消费者的场景发展业务独立开发APP,3个月拼一次生死,最后活下来的业务最终代表了公司竞争力,指明了方向。」 但即使这样,仍然经过了七轮沟通,双方才最终确定了合作关系。 客户命名了数据中台 这次合作的客户有别于传统实体零售企业:老板掌握了平台开发的特点,但迫切需要对技术平台进行微服务改造;并且借鉴阿里2015年底提出的「大中台战略」,提出了「多端卡位,相互PK」的战略部署。 「与阿里最大的不同是,阿里自2007年起就「去SAP」,后来惊天动地地提出「去IOE」。而这位老板先后把Oracle和SAP用过一遍,最后自己组织团队开发。」才言说客户的痛点很有代表性,「如果技术架构不变,他们认为SAP的Idoc接口效率太低,会拖死他们。就像大多数实体零售企业的底层管理信息系统仍在建设中,客户在SAP上做大量定制,成本高昂。」 客户提出,已经尝试搭建过数据仓库且失败了(信息化之后需要把数据合到某个地方去加工,10T左右的数据量,传统的IOE已经不能承受),需要立项一个新的数据项目。 「对于项目是否能验收,客户有两大要求:一是能够支撑业务转型,最后我们通过Datav实现了四个部门跨13个环节的作战,通过推荐实现了旗舰APP的个性化智能化等等,二是广泛应用到阿里云的产品,最后我们用了18多款产品,其中包括8款数加的大数据产品,10款阿里云的云服务。」才言说,最后团队总结客户的需求是「两云一端」,用以概括支撑业务O2O转型的系统技术架构。 「两云」指的是业务中台+数据中台,「一端」指的是AIOT终端,到目前为止,这仍然是对中台最精辟的总结,而这个客户项目也正是「两云一端」的第一次成功实践。 1、业务中台:「名称是客户取的,早在我们合作之前就有。」业务中台当时解决两个问题:首先是业务方需要数据时,可以通过一个接口平台来调用,如果前端的业务系统太多影响应用效率;第二个问题是业务方系统数据太分散,需要把会员、商品、订单等重要的数据重新在逻辑上内聚、集中。 「后来,业务中台往门店端、营销端和供应链端不断延伸,技术上不断去中心化,业务上不断中心化支撑前台多变的需求。」才言提到客户的现状:「这是一个不断侵蚀的过程。上一轮信息化的所有成果,在新的系统架构里从功能和架构层面都再做了一遍。」 2、数据中台:客户不满意「数据平台」的提法,新的数据项目命名为数据中台。客户发现,现有的后台业务系统(ERP、CRM、TMS等)具备深度的行业属性,跟公司内外的业务流程深度融合,必须持续投入增强竞争力,但是持续投入就产生了组织问题——如果生搬硬套用阿里的「数据平台」,这个部门在组织内部成长不起来,也成为不了最底层的业务。在了解了微服务架构(业务中台的雏形)之后,客户认为,有了前台系统,有了后台系统,顾名思义应该有数据中台,中台面向业务应用,而平台则不具备业务特征,因此把新项目命名为数据中台,以方便内部项目推进,并且在投入产出上可以算清楚数据账(数据存储与计算的投入产出比)。 3、AIOT终端:终端智能化提升业务竞争力。「从消费者、企业、技术服务各端的变化来看,我的垂直类目优势面临挑战。」才言回忆客户老板谈到,消费者会走向无现金,客户店铺无现金支付比例已经接近20%(2015年),刷脸支付带来了方便的同时,智能物联使得门店台面变得越来越智能。零售企业受到即时物流和近场零售的挑战,如果业务不再进行一次碎片化再重组,将经受不起任何冲击。 「技术上,你们比我们懂,阿里在推中台战略,AI在兴起,还有很多新技术层出不穷。」这位老板认为市场决胜的关键是:未来智能门店IOT逐步具备性价比,需要将业务高度集成一体化,需要将三代技术体系兼容打通,业务重构形成新零售平台。 数据中台走向成熟 第一个客户的合同落地很困难。 「特别痛苦,在当时的阿里云组织架构里,没有签过类似的合同。合同落地需要跟法务财务做大量沟通,而且在项目组织上算法、数据甚至计算等技术人员调动、协同难度极大。」才言回忆到。 「在客户的“威逼利诱”下,我们项目组饱受折磨之后,有了2016年年底这一稿,第一次从架构上定名为数据中台。后来,这个词广为人知,并且,阿里云在2018年年中第一次对外发布双中台。」才言的成就感从微笑的眉角溢出,「我们实践了业界第一个客户项目,第一次把双中台画出来做出来,一步步调整架构图,后来,这些PPT被很多人查阅,也被人反复修改。」才言回忆往事仍然历历在目:「2016年云栖大会马总提出新零售等五新,我们当天在大数据分论坛上发布了双中台架构图。」 (业界第一个双中台雏形) 客户项目获得了成功,公主告诉才言:「客户的项目负责人在组织内部连升三级,这就是项目的价值所在。」通过这个项目,才言他们还学习到了要敬畏传统行业,或者说叫做敬畏线下:电商平台虽有平台的搭建和运营的经验,但是线上场景里缺少供应链相关的内容,而传统零售企业的「端到端」供应链则是他们的立身之本。 「有必要回顾一下阿里提出业务中台和数据中台的历史,这里有无数阿里大侠们的智慧结晶。」才言回忆起这个过程时满怀敬仰。「数据平台是长期以来阿里巴巴对内部大数据团队的叫法,数据中台是阿里面向2B客户提出的理念,也是云上PASS的解决方案。」 才言回忆2014-2015年,他通过App-push 智能化推广项目获取的经验,淘宝运营团队对流量极端渴求,推动了技术的大胆应用,「淘宝就是一个强大的共享服务中台支撑了200多个团队四面八方打仗,利益优先全方位无敌国外交,开展合作不管内外。」 「阿里B2B有句老话:技术支撑业务,我入职B2B时最喜欢的一句话。」才言认为中台技术在阿里的形成历程是业务驱动技术进步:阿里是首先发展业务,再建共享中台。 2009年,阿里巴巴开始建共享服务平台,不叫业务中台; 2012年开始建数据平台,当时还不叫数据中台,数据平台在系统架构上处于底层; 2015年大数据能力通过阿里云数据平台透出,对外提供数据服务; 2015年,阿里巴巴开启了企业架构调整:业务中台化,前端业务部门可以像搭积木一样调用平台上的产品技术模块,从而快速搭建新业务场景,通过「业务数据化」实现了业务的数字孪生;数据中台化,打破了不同业务部门之间的烟囱式IT架构,打通了数据孤岛,为「一切数据业务化」打好了基础。 「2015年是标志性的一年,搜索完胜人工运营,从收购雅虎中国起,长达十年的争论结束了。这是一个精细化,业务专家不断AI化的过程。」才言兴奋的说:「一旦从投入产出上迈过了大规模数据存储和计算的高成本,将会产生持续的高效创新。我第一次看到机器把人分成两类,指挥机器的人和被机器指挥的人,淘宝这个终端会快速走向机器人化」。 数据中台替代数据平台,则从名称上标志着数据技术走向可认知可利用。才言认为,如果客户还称之为数据平台,那么说明客户还是在做数据仓库项目;如果客户叫数据中台,则说明客户决策层已经认识到数据的价值,开展数据业务。 03 认知:中台创新不只是一个技术问题 中小企业是否需要中台? 「这是伪命题,一点都不明白企业主的思考逻辑。」才言对这个业界争论的问题提出自己的观点。「信息化、渗透率、云化,老板可能不关心这些。但是正视威胁,业务竞争力的提升,以及通过机器长期吸纳业务专家的经验来优化人才结构,最终形成一个有竞争力的组织。这是战略和组织的问题,老板一定关心。」 才言认为,中台创新是一次巨大的商业技术浪潮,可比较的是1972年SAP成立后对商业的影响,中台技术的商业化,可以利用美国人的原创技术和思想帮助中国企业弯道超车。这不只是一个技术问题,还是组织和文化的问题。 「马总说阿里未来的组织像美军的大中台小前端。自从2015年开始做第一个数据中台项目,我就越来越关注军事工业。」才言再次提到美国对中台的借鉴作用,「企业的数字化转型就像二战后美国政府的转轨。」 《美国国防工业转轨》里提到:国防部战略从作战平台(舰船、飞机、坦克)为基础的,转变为以信息为基础。才言提出这段话说清楚了信息时代作战的本质,也是信息的作用,因此企业老板的战略思想和执行层的战术原则,都需要因时而变:「美国1945年就开始变,从总统、到国防部、到NASA、到军工复合体,到商务部。以史为鉴,你应该变。」 对企业老板而言,数据中台首先是一个咨询问题。在数据平台的策略从用户量优先转向营收优先之后,才言签下了第一个数据中台的咨询项目,在他看来,数据中台要想落地,首先需要咨询的帮助,因为数据中台不只是技术问题,更是一个战略选择问题、组织管理问题,是一个决策难题,甚至是文化落地问题。 1、战略选择问题(怎么选?):互联网巨头以平台的方式对各行各业产生了巨大的影响。平台经济是未来企业发展的共识,也是企业家的危机意识所在——自家企业要么平台化,要么成为平台的生态。 2、组织管理问题(怎么管?):现代企业管理理念开始从「控制」转向为「赋能」。传统的管控线对待创新是不友好的,而组织赋能的好处在于,一方面决策灵活应对多变的市场环境,另一方面全程数字化足以推进权力进一步下放。赋能式管理是对创新的尊重。 3、复杂的决策难题(怎么办?):数据中台从技术上讲是架构上的变化,项目立项对企业的影响将是全方位的。甲方不仅要决策数据中台产生的应用价值(解决具体问题的投入产出比),还需要决策大数据支撑AI来强化原有产品或者服务的竞争优势(AI构建新竞争壁垒的可能性),更需要决策数字化转型中组织结构所必需的IT投入(投入够不够的风险)。 4、文化落地的问题(怎么想?):数据中台推动了「大中台小前端」的组织变革,大中台对协同的要求之高,小前端对优胜劣汰的要求之高,是前所未有的。这是科学博弈的竞争文化。不光要求老板转过来思想,而且要渗透在组织行为的日常中。这些势必会产生文化冲突。 才言研究过企业的发展史,200年不到的实践中,所有的企业都从杜邦、福特、通用、戴尔、ebay等标杆性的美国企业身上学习过工业化技术和经营管理经验,在才言看来,中台背后的技术革新和产业实践,始作俑者都是美国人,但是用的最好的是中国人,中台就是代表。 「2016年之后,我开始跟我的咨询业前辈大量传播数据中台和业务中台,我甚至认为这是中国咨询业可以弯道超车的一个历史机遇。」不仅是咨询业,用中台帮助所有中国企业强大(这个时代的所谓「强大」是迈过奇点,真正拥抱人工智能),这也是才言心里最简单的出发点。奇点云CEO行在在创立奇点云的一段话,可以用来代表才言的初心:「所以叫奇点云,我们一直希望这家公司,能够帮助政府能够高效治理,帮助商业企业更加智能。政府的高效治理能够服务好企业,加之企业更加智能各行各业强化了比较优势,中国经济的竞争力会更强。这些都是吸纳中台技术和经验后中国政府和企业能够做到的。」 中台,表面上是一个简单的词,有前有后,逻辑简单,概念普适,也很符合中国人「中庸」的理念,但是作为战略的卡位点和经营的着力点,中台也并不简单。在参与多个中台项目之后,通过与各行各业客户和业界前辈沟通,才言总结了三点: 1、中台为前台而生,要扛业务KPI。从技术架构上来看,中台要负责从ERP等70多个系统里同步数据,数据计算成完后展现给前台的业务系统,前台的业务系统直接面向消费者,中台的「中」字就是这么来的。 「不是买了阿里云的云产品就可以建中台了。中台有强大的业务内涵。不过阿里云的那几十款产品还是要了解掌握的。」才言笑着指出,前台是由各类前台系统组成的前端平台;后台是由后台系统组成的后端平台;中台是真正为前台而生的平台,为了更好的服务前台规模化创新,响应用户,使企业做到自身能力与用户需求对接。 前台业务足够丰富、业态复杂,需要中台做承接,把各个平台的数据集中打通。需要中台的客户说明他们的业务正在平台化,中台的核心是中间件技术,中间件技术是为了平台使用的,客户的组织往扁平化发展,需要双中台的系统。 2、中台 for 业务,不只是 for 管理。中台是为了让业务系统更加高效,而不是让管理系统更加万能。 抛开技术本身,大数据根本不是一个底层的问题,它是一个上层「for 业务」的问题。数据转型和应用,一定是强调从业务出发的,因为数据是业务的映射,业务上有什么需求,才相应抓取、分析、挖掘相关的数据。 比如,经常提到的问题是,中台里的会员中心和CRM系统是什么关系?从「for 业务」的视角分拆来看,CRM系统里,流程协作的功能会进入到前台终端,「for 管理」的数据分析与建模需要强大数据中台来支撑,而其他部分都分拆进入了中台里的营销中心或者会员中心。 顺便提一句,数据中台是企业业务和数据的沉淀,利用数据中台,可以提升效能、更好支持业务发展和创新,不仅减少烟囱式协作的成本,也是差异化竞争优势所在。 3、中台全部自建投入巨大,需要借助外力。中台是企业掌握ABC(人工智能、大数据、云计算)技术的基础设施,技术冲击给商业组织带来了重要命题:如何利用这些生产工具来提升工作效率?延伸而来的是公司内部的组织关系会发生什么变化。 中台需要至少持续5-10年的技术规划,不是一两个技术项目可以覆盖的,中台是一个有技术和业务深度的企业服务领域。对企业而言,企业的CTO需要转变为CDO(首席数据官),信息部门要大变,人才结构也会大变,这都不是单靠企业自身能解决的问题。 04 落地:亲历奇点云AI驱动的数据中台 「一家公司的成功, 七分战略,三分管理。大趋势大浪潮比什么都重要。」2017年,才言加入奇点云创始团队,回忆起他在咨询公司时,老板说的这句话,他认为,数据中台就是下一个大趋势,尽管当时大数据还只是一个小圈子的玩意。 把大数据说成小圈子,才言的理由是在客户眼里,大数据尚不成熟: 1、从使用者的角度:「中国真正有PB级数仓的开发经验的人,其实很少。2014年我第一次搭建100TB级别的互联网数据传输通道,那个时候阿里云的产品还不成熟,数仓的秘钥,在线存储的安全漏洞。」才言提到伤心事:「一天到晚低声下气向人请教,周会上压力太大直接把我气哭了。我反省我是一个无知的人,后来意识到这是无人区。」 2、从搭建者的角度:大公司的场景特殊,比如阿里巴巴太特殊以至于hadoop跟不上业务创新,被迫自研。但是绝大多数企业,开源社区足以满足需求。「代码都在那里,关键是太过于复杂,开源社区更新如此之快。」产品化成为当务之急,客户可以拿来即用。 3、从业务方的视角:教科书上,数据仓库的传统应用是BI和CRM。而实际场景中业务方都在提出数据引擎的需求,这些需求超越了营销、商业智能、推荐等常态的业务范围。更重要的是,业务创新在不断拓展产品深度,「数据一旦走出了自给自足的状态。这又对数据安全产生了更高要求。开源的演进还在持续。」 工程实践在业界的稀缺性,使得奇点云这一类阿里系的创业公司有了先发优势。 「奇点云开始只是一个技术强国的初心愿景。真正化为行动,我们要坚持的是产品在云和端同时布局,拥抱2B时代。」才言说,2015年,马总提出互联网前20年就是技术产生的20年,接下来的30年是技术应用的30年,大数据、云计算、深度学习、机器学习在过去的20年产生了,接下来面临的就是应用问题,前面二十年是信息化的浪潮,应用技术的过程就是智能化的浪潮。 创业的高风险,迫使奇点云创始人行在一直在思考业务聚焦:在「智慧零售」和「数据中台」这两条赛道上,不是要左右逢源,而是集中力量打歼灭战。 在数据中台赛道上,「AI驱动的数据中台是我对市场竞争的回答,也是我认同的唯一解。」才言提到:「所有的这类公司会走向趋同。而奇点云与他们有着本质不同」。 (数据中台的分层:三层的技术架构) 从技术架构上看,客户对数据中台的这三层需求,边界清晰,很好地满足了市场需求,仅仅只做其中一层都有问题,他是自上而下的,也是自下而上的。是因为AI只有在具体的场景与可控的边界解决问题,数据中台是中间层,尤其对实体零售业态多、绑定具体的业务场景时,对CIO、COO、CEO来说都很好理解。 从技术到产品,是奇点云迈过的第一个鸿沟。 「产品大图,其实是客户的需求大图。奇点云相信数据红利给客户带来的价值,挖掘它赋能业务又体现出了数据平台的基础价值。」才言说:「这就是行在提的:端滋养云,云赋能端。」 「我非常认同马总提的DT时代。在我看来数据中台就做了2件事,把AI落地,把BI系统升级」,才言总结到:「在这张产品大图里,任意的云端组合都只为一个目的:在可信可靠的数据基础上做数据智能的应用,针对性地解决客户某个具体场景中降本和增效的问题,是一个范围明确、产出清晰、可量化、可立项、能落地的事,帮助客户储备大数据人才,比以前做BI的厂商采用数仓的解决方案要好的多。」市场上本来就有这种需求,数据中台出来后,正好以新的基础设施的形式结合深度学习的浪潮,原有的需求被新的基础设施满足。 「数据中台最重要的产出是要有闭环的数据服务,去服务前台的业务。对服务线下实体零售来说,线下智能在线化就是通过智能硬件,在数据反馈闭环的同时要掌握前台的端。」才言说这个大数据业界对云端的共识,将会在零售行业真正落地。 从产品到服务,则是奇点云走过的第二条路。 奇点云倡导的数据中台五维度服务体系包含数据中台咨询、数据中台产品设计、敏捷交付、数据智能应用、团队赋能,是完整的一套解决方案。 「数据中台解决方案是解决具体场景问题的,对团队有严苛的要求,一定要有数据团队、算法技术团队,而奇点云从成立第一天起就开始做算法研究,应用场景丰富。」才言提到。 从服务体系到走进行业客户,则是奇点云走向成功的关键。具备百购商超、大时尚、大快消、政府、创新孵化等多行业成功经验,实实在在为客户创造了价值。 未来,是一个数据即经济的时代。在赋能企业的道路上,才言将与奇点云一起脚踏实地,帮助企业找准大数据应用的切入点,快速推动企业数字化转型升级。
在人工智能和大数据时代,越来越多的云上数据和越来越智能的模型开始辅助人们做出各种最优决策,从运营效率、成本节约、最优配置等方方面面,实现降本增效,进一步提升商业效率。京东、美团、滴滴、顺丰等众多知名厂商,都通过运筹优化平台,改造其供应链、智能派单、司乘匹配、智能分拣等等。 零售行业环节众多,从生产到仓库、到线下门店的供应链中,即使最终产品的需求非常稳定,长鞭效应也经常会发生。原因在于供应链中各节点只根据其相邻的需求信息进行生产或者供应决策时,需求信息的不真实性会沿着供应链逆流而上,逐级放大。更准确的需求预测只是决策的一个步骤,还有随着销量等业务变动过程和流程管理过程中的库存订货决策、价格波动决策、短缺博弈决策等决策问题。长鞭效应表明即使预测再精准,如果对后续的流程决策过程没有有效管理,精准预测带来的收益也会被不合理的安全库存带来的损失抵消掉。 很多企业的决策过程往往过于依赖对应岗位的个人经验,而企业员工在这些事情上一方面获取的信息不完全,另一方面决策环节存在大量估算对比的重复工作,导致决策方案输出的低效和不稳定。员工重复劳动限制了个人成长,企业耗费了人力资源和宝贵的决策判断时间。针对企业优秀计划决策经验方法的快速复制、集中高效决策、快速信息反馈和计划决策效果预估等需求,奇点云在数据中台的基础上,推出了决策引擎的应用。 奇点云决策引擎 数据采集与管理完善,对数据进行信息提取,了解事物的规律,并不能释放数据的巨大价值。数据要产生实际价值,必须真正提升决策质量,实现决策的自动化、流程化、规范化。 在为客户完成数据中台的开发后,提供基于中台数据资产的智能决策服务,根据场景的不同,选择最大收益期望决策、最大最小收益决策、最小最大后悔值决策、马尔科夫博弈决策等决策方式,并结合运筹优化算法和强化学习对决策目标进行求解。 现实生活中,有很多问题可以描述成优化问题,然后利用运筹优化的知识加以解决。 比较核心的两个步骤是:建模(modeling)和求解(solve)。奇点云根据成熟的软件工具包(cplex, gurobi, glpk,lpsolve, scip ...)给出经典运筹优化问题的baseline解,快速上线试运行。在运行的过程中根据结果评估的核心指标,结合运筹优化算法和强化学习,对算法和求解过程进一步优化,使得计划决策模型、求解过程、评估体系能够满足客户业务发展所需的计划决策流程。 奇点云预测引擎以需求预测作为切入点,决策引擎则关注执行过程中的计划决策效率和决策质量。对于商品的季节性的影响和市场的供应的不稳定性需要补货决策合理跟进;铺货完成后,具体仓库到门店之间的补货,门店到门店之间的调货,依然需要客户的工作人员进行大量的工作,来生成每一期的补货、调货方案;为了完成铺货、补调货的同时保证市场状态的松紧平衡,也需要一个合理的分配方案。 计划决策的核心是库存的分配,包含仓库库存、在途库存、店铺库存等。库存管理是对制造业或服务业生产、经营全过程的各种物品,产成品以及其他资源进行管理和控制,使其储备保持在经济合理的水平上。利用历史数据实现实时更新的需求预测,为企业提供补货建议。合理地设计仓储货架摆放,商品区域划分,高低货架摆放,入库出库最优路径调配等,可以为企业节省巨额的成本以及大量人力劳动成本。可以减少资金占用,提升库存周转率,提升自动化管理,提高人员与设备利用率,降低库存负担。 运筹优化算出最优调货策略 奇点云某大时尚客户,线下门店有几千家,每家店有几百个sku,通过历史数据预测每家店铺每个sku在未来的销量,必然有的店铺会出现库存不足,而有的店铺出现库存积压的问题,那么通过将库存积压的店铺的商品,调货到库存不足的店铺,将会提高公司的整体毛利。店铺与店铺之间的物流成本不同,缺货和积压的商品种类也有差异,通过运筹规划中的混合整数规划的方法,计算出最优的调货策略,混合整数规划的模型可以抽象建模如下: 通过对调补货过程的建模求解,帮助客户业务人员对应的重复工作量减少了80%,计划决策时间缩短了三天。业务人员能够在决策时看到更多的数据依据,计划决策输入输出清晰高效。 结语 客户的业务流程中,大量环节会涉及到决策问题,如何高效利用数据来驱动决策是奇点云决策引擎的核心。在上篇StartDT AI Lab专栏文章中我们提到了精准需求预测的重要性,而实际中预测总是有偏差,带有不确定性,需要在不同环节产生的多级不确定性情况下做出决策。结合需求预测和决策引擎,让数据决策更加智能。未来我们会不断在需求预测与决策引擎领域耕耘,帮助客户创造更大的价值。
近日,奇点云副总裁何夕应创业邦BangTalk邀请,首次线上直播分享《数据中台建设之道》,直播间人气爆棚互动活跃。以下为演讲实录分享(文字根据现场演讲录音整理)。 数字化转型,其实并不是个新词。 根据IDC(互联网数据中心)的报告,自从数字化浪潮开启以来,企业就开始数字化进程。而据IDC预计,到2020年中国GDP的20%将来自业务数字化转型的增加值,数字化转型已上升到宏观经济层面,不仅将改变企业运营方式,还将重塑经济面貌。 我们要如何去定义人工智能的未来? 它影响到我们去怎么去理解数字化转型的本质。 过去10年中,云计算、大数据和人工智能技术的发展,不断驱动机器智能替代体力和脑力,那些高频重复的体力和脑力工作,越来越多地被机器智能所取代;而脑力赖以生存的经验公式(方法论、思维工具等),也越来越多地被算法所代替。 数字化转型主要面临的都是数据问题 站在今天的角度,我们或许可以清晰地定义数字化转型,本质上就是以算力、算法和数据为代表的信息技术,以数字化的方式驱动社会整体的改变和变革。数字化转型的未来清楚指向人工智能的发展,从而让人做人该做的事情,让机器做机器该做的事情,人类和机器脑力算力协同发展。 传统的数据分析其实是一种刀耕火种的状态,手工对数据进行提取,手工清洗数据、手工的透视和分析,以及在此基础上生成一些可视化图表,在这个过程中,其实只有透视和分析是人真正应该去做的事情。前面的数据提取、数据清洗,包括后来的数据可视化,其实都可以通过相关的BI工具和一些可视化工具来完成。 《富足》这本书讲到,当人类社会的生产资料从供不应求进入供过于求后,很多商业模式和商业逻辑都会发生巨大的变化。 今天我们面临着一个非常大的变局——数据量的指数级增长。2015年是人类社会数据增长的一个关键节点,因为在2015年,其一年产生的数据量是人类过去历史上产生的数据量的总和。换句话说,人类的数据量自此进入了指数级增长,2015年之后,数据量每年增长40%-50%。然后它会给我们带来巨大的数据富足的挑战。这种挑战我们称它为日益增长的数据存储费用和仍然稀缺的数据应用之间的矛盾。 这个矛盾到底会给我们公司的业务带来哪些挑战?需要如何解决? 作为一家已经跨越了数据指数级增长的公司,阿里巴巴的经历或许可以给我们启示。2007年,阿里巴巴决定未来要成为一家数据公司。2009年,阿里成立了阿里云,正式开启了去IOE的路程。 从2003年成立以来,淘宝收集了大量的数据,其中90%是非结构化的日志数据,当有了数据之后,所有人都想看见数据背后的真相:用户从哪来,他们买了什么,为什么购买,转化率如何……类似这样的分析问题,给阿里带来巨大的数据挑战。 2012年数据平台部的成立,这个被称为CDO的部门,诞生了一系列数据分析和挖掘工具,包括在云端、数据魔方、淘宝时光机、淘宝指数、TCIF等等。特别要提一下TCIF(淘宝消费者数据工厂),由现在奇点云的创始人行在创立,拉通了阿里巴巴所有的消费者数据,并且完成了3000+标签体系的建设。2012年的标志性事件,就是TCIF的存储和计算消耗量超过了BI,以TCIF为代表的人群定向成为了计算资源的消耗大户;另一个标志性的指标是,阿里巴巴有50%的服务器不再处理任何事务,而仅仅用于处理数据。 2015年也有两个标志性事件:一是阿里云数加平台的成立(行在创立),代表阿里巴巴开始把内部形成的大数据能力外化,赋能社会去建立大数据能力;二是推出千人千面算法,推荐算法一跃成为了存储和计算资源的头号消耗大户。 推荐算法不仅仅是我们看到的淘宝界面那么简单,在某种程度上,推荐算法让阿里巴巴跨越了「从人指挥机器到机器指挥人的奇点」。 数字化转型核心是建立清晰有效的数据战略 为什么今年数据中台特别火? 我们所有的企业在数字化转型走到今天,会发现业务问题背后往往可能隐藏的为数众多的数据问题,如数据不通,数据不可用,数据变现等问题。 拿「数据变现」打个比方,在数据进入了乘数级增长或者指数级增长的领域会特别明显,比如汽车因车联网的关系,它的整个数据增长量非常快,可能每年都有几十T的数据增长。而这些数据只是把它们存了下来,可能我有几亿行的数据,但我连一张大宽表都拉不出来,所以这个情况下它的数据是完全不可用的,所以需要解决数据变现的问题,而数据变现就是日益增长的数据存储费用和仍然稀缺的数据应用之间的矛盾。 很多的企业其实去做了很多算法、数据应用的尝试,但是因为没有解决数据采集、数据质量的问题,就会出现例如采集到的数据一半是空值,统计口径不一致所带来的数据总和之差,也有比如说我们的发票数据和销售数据的总和,它可能相差5%~10%不等,然后在不在某些行业来说,这可能就几千万到上亿的一个差距。这些业务问题背后其实都不同程度地体现为数据问题。 数据资产如何变成业务价值?讲数据中台的时候,我们一定会讲,需要和数据中台一起去建立整个企业的数据资产的管理体系,那么如何去建设?这也是很多企业会碰到的问题。 数据如果仅仅是存下来,它是不能解决我们所说的主要矛盾的。那么数据资产要如何增值?如何变成业务价值?哪些业务是这个领域,哪些业务是我的数字化转型过程中最核心的业务?它是有业务痛点、业务场景的,包括它可能是一些明星需求能够带动整个公司来认知这件事情,提升对数据的认知,这些都是在这个过程中需要去解决的。 大数据咨询的核心是厘清差距 数据战略不能仅仅是把它当成一个技术问题,而是要从业务、技术、组织三个维度综合的来考量我们的整个数据的问题。那么要如何去考量这件事情?此前一年,为帮助企业推进数字化转型战略,解决数字化转型中的问题,奇点云推出了大数据咨询服务,并付诸大量案例实践。奇点云也将这些实践经验总结提炼成方法论,以白皮书的形式开放给更多商业机构。 而大数据咨询服务,它的核心的价值也就是厘清差距、明确方向。 我们如何去建设整个数据中台?作为我们公司的一个基础设施,一般把数据中台拆成4个部分来做建设规划。首先对于我们的数据中台来说,他一定会需要解决的是数据的来源问题,包括对我们的数据进行有效梳理,在此基础上,我们有专业的团队来构建一站式大数据智能服务平台DataSimba,通过我们的数据中台去解决整个数字资产管理问题,以及建立整个资产管理体系,整合所有的数据。我们把这个过程称为数据的工业化生产体系,在这个基础上,我们会仰赖一些专业的分析师团队去own,仰赖于算法工程师挖掘数据价值,真正去帮助我们做数据决策,然后去产生业务价值,最终一定是实现通过数据去建立数据决策能力,并面向市场进行一些应用的开拓,从而真正有效的使用,建立内部协同、外部协同,提升整体的经营水平。 具体如何基于明星需求去开展一些业务数据化的规划和实施呢?从数据的维度,首先要建立ETL数据抽取清洗处理的能力,有专门团队再进行探索性数据分析形成算法,去赋能整个沟通决策,相当于自动化分析,在此过程中构建数据产品,在现实世界中使用,完成整个闭环动作。 下面介绍我们建立的一套数据资产管理体系的方法论,我们叫它「盘理管用」。 从数据用起来的角度,根据业务场景,看数据是否已被收集、治理,是否已变成数据资产价值,所以叫「盘理管用」。但从我们思考的维度则相反,我们要关注怎么去盘、怎么去理、怎么去管,以及最终怎么去用。 当我们具备了这样的数据中台能力,具备了这样的数据资产管理体系,我们就会进入到如何去赋能我们的业务,然后也分享我们在实践过程中的一些经验。我们在跟一些企业做咨询的时候,其实大家慢慢对算法这件事情会产生极大的认同,因为算法代替经验公式在今天是一个不可阻挡的潮流。那么对于公司来说,未来的竞争的态势很可能会是每个公司所拥有的算法的数量和质量的竞争,公司就需要去沉淀自己的算法平台,去沉淀自己的算法模型,包括在集团管控、研发、制造、营销、服务、人才,包括共享服务上,都需要有自己的算法模型,去真正的去一方面去提升人效,降低整个成本,另一方面就去沉淀自己的一些实实在在的竞争壁垒。 目前线下的传统企业,很多时候数据问题并不仅仅是数据不通或者数据变现的问题,很多时候还是数据有无的问题。想要具备淘宝一样的数据化运营能力,那么它最大的数据来源会是哪里?从科学的角度来说,线下90%其实都是视图声的。而视图声数据大家都知道,它一定是非结构化数据,那么我们就需要去解决这些非结构化数据的采集和结构化的问题。我们如何把「数据原油」转化为企业所需要的燃料,助推商业引擎? 奇点云提出了AI+DATA「云(智能)+端(感知)」解决方案,帮助更多企业实现数字化转型,为他们赋能。 今天我们更多地还要去建立使用非结构化数据的能力,也就是奇点云在云端所提供的全场景智能化的企业转型服务,围绕整个数据中台建设AI算法,通过360度数据管家帮助企业更好地掌握企业的数据现状,及运用大数据咨询解决发展中的重大数据问题,帮助客户真正实现数据化企业运营,盘活企业的数据资产,创造更多商业价值。
12月6日,“中台客栈——‘数’下英雄会”在杭州湖畔大学举行。活动由奇点云、袋鼠云、新华智云、数澜科技联合甲子光年主办。奇点云、袋鼠云、新华智云、数澜科技几位创始人,作为国内最早接触数据中台的阿里系数据老兵,在2016年前后不约而同地走进数据中台赛道。3年的时间,在各自深耕的行业和领域中获得了越来越多客户的认可。如今,国内数据中台第一梯队的老将们聚首湖畔,深度论道,廓清“数据中台”迷雾,与企业、与社会共同展望数智化未来。 来自蚂蚁金服、戴尔、乌镇智库、浙江省数字经济学会、浙江省大数据科技协会、杭州数字经济联合会等机构30余位关注数据中台的行业专家、企业高管出席活动,与嘉宾共同探讨数据中台。 从左至右:甲子光年联合创始人程曼祺,奇点云创始人张金银(花名:行在),数澜科技创始人甘云锋(花名:风剑),袋鼠云创始人陈吉平(花名:拖雷),新华智云首席数据官李金波(花名:介然) 01 数据中台是“新瓶装旧酒”?为什么以前的方式行不通了? 场景和业务倒逼出了“数据中台” 行在,2004年加入阿里巴巴,原阿里云大数据平台“数加”创始人,2016年创立奇点云。他认为,某种意义上来说,是场景和业务需求倒逼出了“数据中台”。很多企业以往的业务系统是条块化建设的,例如淘宝和淘宝商城(天猫前身)各自都有货源体系,但因条块化建设,阿里巴巴难以看到自己的数据全貌,也无法将数据打通。奇点云曾服务过的一家大型综合体内部有12个系统(来自不同的供应商),分别都包含消费者信息,但无从整合。而数据中台可以做到。 奇点云创始人张金银(花名:行在) 除了数据的打通整合,风剑谈到,多云适配,也是推动数据中台出现的重要原因之一。“上云”已成为DT时代企业的共识,但认为上云就可以消除数据孤岛,其实也很大程度上误导了企业和政府。“这里一套阿里云,那里一套华为云,大家互不相关,就好像你有一个山头,我有一个地盘,反而加剧了数据孤岛。国外曾有一篇报道,预测未来五年全球范围内85%的企业会是多云环境。既然多云环境是必然的,底层的数据能力如何整合打通?这时候大家发现,无论是什么样的IT系统或者云架构,无论是在哪朵云上,通过数据中台,都可以让自己的这些系统的数据互联互通,在企业购买和使用的多个云环境中的数据自由流动。正是多云环境的产生,决定数据中台未来会变成企业的一个必选项。”风剑曾是阿里云创新数据工作室及人工智能创新业务主要负责人,在职期间其打造了阿里巴巴集团最重要的数据资产服务,被集团CEO评价为“最有价值的数据战略资产”。2016年创立数澜科技。 数澜科技创始人甘云锋(花名:风剑) 数据中台 VS 数据仓库 VS 数据平台 VS数据湖 作为阿里巴巴首个数据仓库建立者,行在谈到:数据中台可以实现“从看,到用,到赋能”。20年前,数据仓库出现,企业在数仓上建BI给决策者看报表,是“看”的阶段。后来阿里发现,数据可以为一线运营的“小二”所用,还可以搭建TCIF(消费者信息数据系统)帮助阿里了解消费者、优化广告投放,也就进入“用”的阶段。在“用”的基础上,数据中台可以为企业“赋能“,实现降本增效。简单来说,“用”和“赋能”是数据仓库无法实现的”中台“价值。数据湖则像一个杂货铺,更多是堆集数据,而数据中台不仅需要“存”数据,还是要把它“通”、“用”起来,因此中台更像沃尔玛或者淘宝,分门别类,清晰可见。 介然,2008年加入阿里巴巴后曾负责淘宝网数据平台广告数据研发团队、数据产品数据研发团队、阿里大数据平台基础数据团队,任职期间亲手打造了阿里数据中台基础核心数据体系。目前在阿里和新华社合资成立的新华智云担任首席数据官。介然从媒体行业的视角对数据中台和平台的异同进行进一步阐释:“平台更强调系统的建设,而中台更强调能力的服务。”媒体对数据的依赖非常强——线索发现、自身绩效评估、稿件编辑校验等都需要数据,可以说在媒体行业,数据就是生产资料。在平台的阶段,更多的是为了收集数据,管理数据,而数据中台则是要为媒体建立核心能力,提高发现新闻线索的能力、内容生产能力、新闻传播的能力以及信息追踪的能力等等。 袋鼠云创始人陈吉平(花名:拖雷),新华智云首席数据官李金波(花名:介然) 拖雷,2004年加入淘宝,在阿里任职11年,是淘宝最早的数据专家、淘宝第一代数据仓库建设者、阿里巴巴大数据平台开创者,曾是阿里集团数据治理、数据规划、数据安全的负责人,2016年创立袋鼠云。谈及数据湖与数据中台的异同,拖雷以京东的“亚洲一号”项目举例补充道,如果今天的“亚洲一号”只有仓库而没有管理系统的话,可能就是数据湖。“但今天‘亚洲一号’最强的不是在于这个仓库面积有多大,放了多少货,而是在于管理系统能很方便地管理任何货物,比如知道任何一件货物的位置、数量,可以快速获取、配送,以达到高效管理。这就是数据中台的能力。” 当然,“数据中台”需求大热,并不代表数据仓库、数据平台、数据湖等方式都要全盘否定。在风剑看来,数据湖为构建数据中台提供了一个良好的基础,大量数据的整合沉淀为数据的接入、使用提供了一定便利,但这只解决了“看见数据”的问题,并没有解决“数据怎么用”这个问题,在未来面对不确定性的场景时,数据中台相较于数据湖将发挥出更强大的功效。 02 数据中台是一种技术? 在拖雷看来,数据中台更多的是一种理念。“对于企业来说,数据是能源,是生产资料,可以为下一阶段的智能化打下良好基础。所以今天的数据中台对于机构、企业,就是构建一个数据大脑。产品做得好,组织架构配合得好,当然这颗数据大脑会运行得更好。” 拖雷用其自创的“数据中台五步法”进一步阐释了他对数据中台的理解:第一步——数据资产盘点,就好像盘点家里有多少食材,能做多少菜,梳理完才知道想做什么,能做什么;第二步——数据中台建设,这就需要一个具体产品来做支撑;第三步——数据的清洗和加工,好比造房子前要先打地基,干的都是“脏活、累活”,而这部分工作也是最会被误解的,因为业务方看不见;第四步——数据的应用,对于很多企业来说,他们最关注的就是数据能不能用起来。第五步——持续迭代,真正的数据中台需要持续迭代,而不是一劳永逸的。 “我们把数据中台的英文定义为Office而不是平台(Platform),说明它并不是一个纯技术上的概念。”介然补充道,数据中台需要技术,但绝不仅仅是技术。这也是在场四位嘉宾的一致共识。 03 数据中台:一个时代的选择,谁先用谁先受益 数据中台将在DT时代帮助企业极大地发挥数据的力量,这已经成为了大多数企业及政府的共识。那究竟什么样的企业更适合做数据中台? 介然言简意赅地给出了他的判断原则:做数据中台的核心,还是要强调数据在业务上发挥价值。如果说任何一家机构的业务需要利用到数据去改善或提升它的业务价值,那它就适合做数据中台。介然补充道,媒体大脑数据中台有一个用户是江西省融媒体中心,该中心通过中台打通省市县三级融媒体中心和互联网数据,做到百县联动,省宣可以更好地协调全省媒体资源,讲好江西的故事;而地县级的基层融媒中心也可以通过媒体数据中台提高生产效率。 在座4位所属的中台服务公司覆盖了多个行业,包含零售、地产、媒体、政府,风剑也谈到,数据中台的服务对象不会止于某个特定的行业或群体。“再过十年,不管你是什么样的客户,是政府还是企业,都需要数据中台。就像ERP之于企业,所产生的价值是渗透到企业中的角角落落,这就是我为什么说数据中台一定是一个企业级的战略,而非部门级的。” 拖雷认为,现在是信息化2.0时代,数据中台把数据汇集在一起,形成企业的数据大脑。到了信息化3.0时代,会真正形成智能化趋势,未来所有的企业都是数据化企业,需要利用大数据来作为驱动力。“什么样的企业更适合做中台?就好比每个人需要代步工具,有的人买汽车,而有的人买自行车就行了。同样的,每个企业都需要一个数据中台,一个数据大脑。不要觉得数据中台就是一辆汽车,它也可以是自行车、电动车。代步是一个刚需,数据化驱动也是一个刚需。” 观时代趋势,指今朝行动,谈及未来,行在补充到:“用老套的话说,数据中台、数据驱动一定是未来,这和20年前互联网爆发的时候一样,谁先用谁先受益。” 04 数据中台服务之路,难关几重? “数据中台元年”走到尾声,市场对中台的认可度越来越高,但对中台服务公司来说,仍存在不少发展的阻碍。譬如,数据不够完备,价格低于价值,行业设定的准入门槛不合理、把业务提升要求强加在中台服务公司上等等。 数据不够用?开放数据共享,既要卖产品也要卖服务 介然谈到,数据不全、不够用是普遍现象,今天企业能够意识到自己的数据不够用,已经是一个进步。很多企业可能不知道自己有多少数据,也不会想到如何把数据用起来。 同时,数据中台不仅要帮助企业把自己的数据用好,还要能把企业要用到的数据汇集到中台里来,将不足的数据通过行业甚至互联网数据补足,这样价值更高。“以媒体行业为例,我们要打造面向媒体的数据中台,而当前媒体自身数据的业务价值可能还不如行业数据的价值高,所以汇集行业产生的数据也应是中台能力的一部分。我们长期的愿景也是要打造‘开放数据分享的第一平台’,将开放数据和媒体技术相结合。” 行在介绍,建设数据中台有三个阶段,在线化、数据化和智能化,三阶段相辅相成。在数据化环节,往往难以要求企业在做中台之前都已经有非常完备的数据。奇点云的做法是帮助客户产生新数据,通过AI、IOT来帮助客户补充数据。另外,与新华智云相似,也会加入互联网公开的数据来丰富数据。“举个例子,我们有一位做生鲜超市的客户,以前通过买手在Excel里计算明天要进多少生鲜,我们入场后为他们建了一个智能订货的算法,一方面做了数据升维,把周边的消费者信息、天气、节假日等考虑进去,另一方面用算法代替了人工经验。做出来效果很好,比历史提升了35%。我们做中台的公司除了帮客户解决TA数据使用的问题,还要帮助TA解决数据生产的问题。”数据中台卖产品,也要卖服务,二者不可分割。 “价值驱动”攻克付费意愿难关 风剑介绍:“相比国外,国内对企业软件付费的意向是很弱的。另外,很多行业会设定许多准入标准,比如证券行业、金融行业,而标准都是十几年前定的。” 拖雷也谈到,袋鼠云给客户带来的价值远远高于数据中台服务的价格。对此,他呼吁大家用“价值驱动”来攻克难关:“未来的企业服务一定要做到价值驱动,不做价值驱动的话跟外包就没有区别。而且我相信环境在好转,付费意愿会越来越强。中国的2C发生天翻地覆的变化花了10年左右,中国的2B我相信也一定会有天翻地覆的变化。关键企业愿不愿意改变,我们愿不愿意改变,这是很关键的基础。” 05 “造电网还是造电器?”数据中台服务生态可期 同样为企业服务,与不同类型的企业合作,企业的侧重点亦有所不同。拖雷分享道:“客户其实有不同类型,如果有比较懂技术的客户(例如企业的技术部门),TA知道这个东西能带来的价值,就会直接买我们的平台产品。如果是企业的业务部门,则往往更关注数据中台完成后能为业务带来什么价值。” 当然,同样是阿里系出身的数据中台公司,袋鼠云、奇点云、新华智云、数澜科技对数据中台的服务价值侧重点亦有所不同。 风剑强调,数澜科技的愿景是成为客户信赖的数据应用基础设施供应商,就像建造楼房一样,通过数澜扎实的技术能力和行业最佳实践,给企业提供一个中台底座,赋予企业超乎想象力的未来空间。“想尽办法把过往的一切业务数据化,汇聚联通,再想尽一切办法把这些数据变成可用的资产,最后提供工具方法技术把这些资产沉淀为数据服务。”目标在于让客户的数据可见、可用、可运营,但数据中台的价值基础,是客户是否主动去拥抱科技带来的变化。不会有人比企业更懂自身的业务,数澜是要帮企业构建数据能力,帮助企业解决更通用的场景化问题。 介然所属的新华智云聚焦于用中台解决媒体行业的痛点。他谈到:“公司里有媒体从业经验很丰富的人,和阿里过去的技术经验丰富的人结合在一起,是可以攻克一些问题的。如果我们只做技术性的平台,在媒体行业里会比较难生存。中台到底是技术推动还是业务推动,我觉得不一定要分得很清楚,它可能是一个综合体。只不过今天新华智云的中台一定需要解决媒体行业的业务痛点。” 同样把重点落脚在行业的行在补充道:“我们不仅提供底层数据平台的产品,例如奇点云自研的大数据智能服务平台DataSimba,同时也希望我们的行业专家能和客户一起共创,让土地(底层数据平台)变得肥沃的同时也能为客户种出几棵苹果树(数据应用)。才能让客户真正实现数据化企业运营,盘活企业的数据资产,创造更多商业价值。奇点云现在主要是在零售行业,但我们绝对不止于零售。未来我们一定会多行业拓展,大家也会在这个生态里不断成长。” 拖雷总结道:“我们不同的企业关注点不同是很正常的,大家会形成一个生态,成为伙伴。就好像有的服务商去做电网(数据中台基础设施),有的去做电器(数据应用),不会要求做电器的一定要去把电网也给做了,只做电器一样能成很大的企业。” 从概念定义到本质辨真,从需求热潮到实践瓶颈,从市场定价到价值赋能,从基础设施到业务应用,短短2小时,行在、拖雷、介然、风剑与主持人曼祺畅谈数据中台大小事。高手过招,切磋琢磨,仰望星空,脚踏实地,企业数智化转型的未来蓝图在“争锋论剑”中徐徐展开。 如何看待对企业下一个十年变革会产生重要影响的数据中台?无论是克服万难搭好基础设施,还是想用业务应用去解决具体痛点、节本增效,相信在场嘉宾心里已经有了自己的答案。
通过StartDT AI Lab专栏之前多篇文章叙述,相信大家已经对计算机视觉技术及人工智能算法在奇点云AIOT战略中的支撑作用有了很好的理解。同样,这种业务牵引,技术覆盖的模式也收获了市场的良好反响,而奇点云AIOT在市场的大面积铺开又给算法部门带来了新的挑战,也就是如何进一步的降低算法端计算成本,从而提升业务利润。 目标很简单,就是将现有算法模型在不降低准确性的前提下,缩小模型尺寸以节省硬件存储成本,简化模型计算复杂度,以节省硬件计算成本。这又小又快的模型优化要求,我们一般统称为模型加速问题。对这一问题的解决,在学术界也是由来已久,有了很多非常值得借鉴的探索。本文便为大家揭开模型加速的神秘面纱。 为什么做模型加速? 在正式揭开之前,首先需要了解到深度学习是怎么成功的:为什么深度神经网络在现在这个时代能成功而不是在上世纪80,90年代呢?相比于之前,主要的突破来自以下几个方面:一是诸如随机梯度下降之类的优化算法的改进,二是越来越大的标注数据集,三是引入能够满足模型训练和推理巨大算力需求的GPU这种高性能计算硬件。 (不同模型在CPU和GPU上的图像分类任务的表现) 但是昂贵的GPU,因为工业界的应用对成本非常敏感。因此,像google这类大厂一般开发自家 的AI芯片(TPU)从源头上省钱。因此,模型加速对应的第一个问题就是工业界最关心的效率问题:如何 将算法能够稳定高效地部署到硬件上使之能够产生最大的价值。 进行模型加速的第二个目标就是快!很多场景对速度的要求是非常高的:最容易联想到的场景就是深度 神经网络图像处理技术密集使用的无人驾驶,在这种刹⻋慢个0.5s都会造成重大事故的场景下,对模型的推理速度永远是要求极高的。 另一个场景是在移动设备上在移动应用中注入AI能力,这是在移动互联网遇到AI时的必然反应。现在比较著名的应用有各家推出的人工智障语音服务助手,Siri,小爱同学等。 模型加速的第二个目标就是如何在性能受限的设备上部署能够满足需要 的模型。加速后的模型的参数和计算量更小从而可以有效降低计算和存储开销,能够部署到移动端这种性能受限的设备上。关于移动端性能,这里说组数据:移动端常⻅的ARM芯片的A72大核的算力大概是 30G FLOPs,而桌面端的Intel酷睿i3的算力是1000G,也就说如果要把在服务器端进行推理的模型拿来放在移动端上去运行,这个加速比例至少是30倍以上。 如何进行模型加速? 模型加速一般是对已经训练好的深度模型进行精简来得到轻量且准确率相当的模型。这里有一个重要的前提:深度神经网络并不是所有的参数都在模型中发挥作用,大部分参数其实是冗余的,只有一小部分对模型的性能产生关键作用。 根据这一前提条件,目前工业界主要通过以下几种方式对模型进行加速:包括不会改变网络机构的权值量化,知识蒸馏,紧凑型神经网络的设计和会改变网络的网络剪枝。学术界和工业界对着几个方向的研究侧重点略有差异:前者对经凑型神经网络的设计更感兴趣,毕竟是从源头上解决问题的方法;而后者对剪枝量化这种偏向工程实现的更关注,毕竟加速效果稳定可控。这里主要简单讲下我们在生产中比较常用的几种方式:1、权值量化 2、知识蒸馏 3、网络剪枝。 01 权值量化 量化的思路简单概括下就是把相近的值变成一个数。最常用的量化方式就是INT8量化,即把神经网络里面的原来用精度浮点数(FP32)存储的权值和计算中间值用整形(INT8)表示。计算机中的值都是用二进制存储的,FP32是用32bit来存储,INT8是用8个bit来存储。从下图可以看到,FP类型用了23bit来表示小数部分,因此使用INT8集意味着只能用更稀疏的值和更小的数值范围(-127~128),小数的部分和超过128的部分都会被省略,如果直接就这样量化,那么这部分损失的值就会极大的影响模型精度。 (来源:wiki:fp32的存储方式)StartDT AI Lab | 视觉智能引擎之算法模型加速(FP32量化到INT8的值的变化) 那既然会影响精度,为什么我们还是要冒着⻛险去做量化呢?这主要是两个方面的原因:一方面是现代的计算芯片对于低bit的数值计算要比高 bit的快很多,尤其是现在很多AI芯片都设计了专⻔的INT8计算核来专⻔处理INT8数值的计算,比如瑞星微出品的RK3399 pro芯片就带了一个算力达3T FLOPs的NPU;另一方面是计算机内存和GPU显存加载8bit的数值速度更快,显存消耗更小,同样的显存下就可以加载更多更大的网络进行计算。 (来源:https://devblogs.nvidia.com/nvidia-turing-architecture-in-depth/:RTX2080ti对FP32, FP16和INT8 那么为什么INT8数值类型在深度神经网络中中能够应用呢?不是有数值精度损失么?主要原因有两个: 1、训练好的深度神经网络是出了名的对噪声和扰动鲁棒性强。 2、大部分训练好的权重都落在一个很小的区间内。 这个是有文章作为理论支撑的,Han Song在ICLR2016发表的DEEP COMPRESSION: COMPRESSING DEEP NEURAL NETWORKS WITH PRUNING, TRAINED QUANTIZATION AND HUFFMAN CODING作为神经网络压缩的开山大作里面就对AlexNet网络的卷积层的权重分布进行了分析。下面左边这个图就是其中一层神经网络的权重,基本上分布在-0.1到0.1之间。 如果进行4bit量化,4bit能够最大表示16个数值,因此大部分权重都有塌缩,能够保持原来的值的只有16个值,这16个值的分布如右图所示,分布的图形还是挺吻合的。那么如果进行8bit的量化,最大能够保持256个值,对原始权重的保留会更加完整,量化造成的数值损失会很小。 根据这个特性,最直观、最简单量化方式就是乘一个系数把FP32类型的小数部分缩放为整数,然后用这 个INT8整数进行计算,计算结果再除以这个系数还原成FP32的值。因为数值集中在很小的范围内,因此缩放的时候就不太需要担心会有大量的值转化后会溢出INT8的表示范围。因此对于实际值和量化值的映射关系,一般可以用以下公式表示: 其中,r表示实际值;q表示量化的比特数,比如int8量化就是8;z表示量化后的0点值。在实际操作 中,缩放比例、进行缩放的原始数值的最大最小值边界这些值都是需要反复调试优化的,优化较好的量 化加速效果4倍的情况下一般能够保持模型的精度损失不超过0.5%。 02 网络剪枝 另一项比较重要的神经网络的加速方法就是模型减枝,剪枝这个方式在许多经典的机器学习中也很常见,比如决策树,GBM算法。在神经网络中,剪枝原理受启发于人脑中的突触修剪,突触修剪即轴突和树突完全衰退和死亡,是许多哺乳动物幼年期和⻘春期间发生的突触消失过程。突触修剪从出生时就开始了,一直持续到 20 多岁。 前面提到过,神经网络的参数量非常多,而其中大部分的参数在训练好之后都会集中在0附近,对整个网络的贡献非常小。剪枝的目的就是把这些对网络贡献很小的节点从网络中删除,从而使网络变得稀疏,需要存储的参数量变少。当然后遗症也是有的,一方面模型的精度会有所下降,另一方面那些冗余的参数可能是神经网络鲁棒性强的原因,因此剪完枝模型的鲁棒性也会有所损失。 经典的剪枝方法是使用预训练模型进行裁剪,裁剪的原则就是设定一个阈值或一定的裁剪比例,然后把低于阈值的权值抛弃,再使用训练集进行微调来得到最后的剪枝模型。这种方法操作上非常简单,裁剪的评价指标有很多种,比如权重大小,权重梯度大小,权重独立性等,但是往往要耗费非常多的时间来进行反复调参和微调训练。这种就是现在主流的结构化剪枝方法,裁剪的粒度比较粗,对神经网络整个层进行裁剪,损失的精度相对来说比较大,但是优势在于不用关心使用的模型和硬件,通用性很好。 (来源:HanSong 2015 NIPS:神经元剪枝前后的结构) 后来的研究又提出了效果更好的非结构化剪枝方法,裁剪的粒度较细,可以对神经网络层的单个神经元进行剪枝,精度损失比较小,但是依赖于特定算法与硬件平台,操作起来比较复杂。另外,随着强化学习和生成对抗网络在深度学习领域的广泛应用,越来越多的剪枝算法使用强化学习和对抗生成网络产生剪枝模型。强化学习可以使用机器自动搜索剪枝模型空间,根据剪枝要求获取最佳的剪枝模型。生成对 抗网络同样可以在对抗网络的指导下,使得生成器生成满足需求的剪枝模型。 03 知识蒸馏 在使用了上面两种加速方式还不能满足需要的话,这个时候就可以试试15年Hinton和 Google创世julao Jeff Dean提出来知识蒸馏。在很多任务上,复杂的大网络一般表现都会比简单的小网络表现要强。使用轻量的紧凑小网络在模型训练的时候加入在改数据集上训练 收敛好的大网络作为而外的监督信息,使小网络能够拟合大网络,最终学习到与大网络类似的函数映射关系。那么在部署的时候我们就可以用跑的快的小网络替换大网络来执行任务。 (知识蒸馏方法的基本结构) 知识蒸馏可以实现深度神经网络计算量最大的⻣架网络的替换,从方法论上比较通用,因此在奇点云实际图像任务中都有很强的应用价值,而从加速效果上来说,使用的小网络计算量越小,加速倍数就越多,当然一般这种情况下的模型学习效果也越差,精度损失越大。但是不同的任务对网络抽取的特征的使用方式差异还是比较大的,一般来说需要根据不同的任务调整蒸馏方法的策略。 结语 综上, StartDT AI Lab在模型加速的实践上,综合运用权值量化、知识蒸馏、紧凑型神经网络设计和网络剪枝,不断小型化、快速化、准确化业务所需各类模型,极大提升研发效率。
10月30日,2019上海智慧城市建设「智慧工匠」选树暨软件开发与测试竞赛落幕,奇点云与来自云平台计算、人工智能编程等方向的学者同台竞技,共推人工智能及计算机视觉技术的交流与落地。 值得一提的是,奇点云算法工程师涉川、草窗以出色的专业成绩分别斩获本次人工智能赛事的一等奖、三等奖。 (涉川、草窗现场领奖) 与往届相比,今年的赛事进一步聚焦云平台计算、人工智能等方向,以科技竞赛、创新方案等方式遴选出精英工程师,弘扬工匠精神。 开发者测试与人工智能编程竞赛是参赛者展示自身学术专业能力与创新技术沉淀的舞台。竞赛挑战难度大,对技术创新具有拉动力,同时,竞赛沉淀下来的技术成果也将反哺人工智能界,为AI产品落地提供强有力的算法支撑。 (竞赛现场) “得知获得一等奖,还是比较激动的。平时自己就一直从事图像相关、机器视觉、人工智能领域的工作,这是自己喜欢的领域,也感谢公司的鼎力支持。在报名比赛后,我通过尝试不同的网络结构、相机拍摄实际场景图片等方式,进行了数据的增广,从而恢复了图像像素。之所以能在赛事中发挥出成绩,主要还是依靠平日的积累与练习。”涉川同学获得一等奖后发表感言。 草窗获得三等奖后如是说:“参赛前我做了许多准备,对相关领域的前沿论文进行了详细调研与充分的实验论证。参加比赛时,心态比较平稳,自己认为发挥得还算满意。在之后,我还会继续保持初心,加深技术钻研与创新的热情,更要将技术与应用相融合,发挥「智慧工匠」精神,期待在人工智能算法领域能有更大的突破。” 奇点云作为国内AI驱动的数据中台创导者,专注于人工智能和大数据技术。始终保持行业领先水平的背后,是奇点云自研的算法科创能力、深厚的AI人才储备与技术创新能力,更源于奇点云对AI算法技术的重视及学术交流的开放态度。 奇点云获得的骄人战绩不止于竞赛本身,也反映了奇点云在人工智能领域专注技术研发,为AI应用落地能力保驾护航,实现「技术创新+产品落地」齐头并进。
10月29日,由爱分析举办的中国零售科技高峰论坛在京举行, “2019爱分析·中国零售科技创新企业50强”榜单同步揭晓。奇点云凭借强大的人工智能、大数据前沿技术及商业落地能力,成功入围榜单。 在过去三年间,爱分析访谈调研了数百家优秀的零售科技企业,既有零售品牌商、零售渠道商,也包括服务各大零售企业、平台的科技类公司,涵盖零售云服务、零售大数据、零售AI、商业硬件、代运营等诸多细分方向。 经历了征集、候选与最终评审,在2019爱分析·中国零售科技高峰论坛上,50强榜单正式揭晓。最终 奇点云在100家候选科技创新企业中脱颖而出,成功入围榜单。 现如今消费者的数字化程度正在不断攀升,与此同时,大数据、云计算等新型技术也日趋成熟,零售产业链各环节与科技不断进行融合与应用,从而推动零售行业整体效率提升。新技术的应用不仅提升了消费者的体验和商家的运营效率,还改变了用户的消费场景,也在此基础上催生出了更多的新科技。 奇点云一直致力于帮助线下传统企业进行数字化转型和升级。目前,奇点云已成功服务300余家传统零售领域的客户,涉及大时尚、生鲜超市、综合体、百购、烟草、美好家居等业态。未来,奇点云将继续专注在传统零售深耕,并成立了行业专家团队,将前沿的人工智能、大数据技术与行业经验深度融合。
DT时代,如何建设现代化烟草经济体系,推动烟草行业高质量发展,已经成为每一个烟草人、每一个烟草生态圈参与者共同思考的课题。 10月22日,作为阿里云的重要生态合作伙伴,奇点云受邀参加阿里云主办的「从连接到赋能,助力烟草行业高质量发展」论坛。会上,面对烟草行业优秀的企业管理者和行业前沿专家们,奇点云副总裁何夕分享了奇点云在实践服务过程中对烟草数字化直营门店建设思路。 01 数字化直营门店是烟草数字化转型中不可或缺的重要一环在我国《烟草专卖法》的指导建设下,直营门店已经成为卷烟销售网络零售终端中的重要组成部分。烟草直营门店作为直接触达顾客的第一场景,如何构建数字化的直营门店是烟草行业把握市场整体发展趋势,提升卷烟市场渠道掌控力,实现烟草行业高质量发展的关键所在。 针对烟草行业的特殊监管要求,我们要做数字决策或推动数字化转型,必须要考虑其「在店有人零售」的合规要求,在这个要求下,去构建和推动零售户乃至整个零售体系的业务闭环和数据闭环,这也是业务闭环必须要考虑的问题,重要而不可或缺。 在实践过程中,烟草数字化直营门店建设难题: 获取:如何有效跟踪和积累消费者在直营门店购买卷烟或非烟商品的全过程数据? 连接:如何打通烟草商业与零售客户的直接连接? 体验:如何增强消费者在直营店的购物体验? 线上90%的数据是日志数据,而线下90%的数据是视图声数据,人和店铺之间产生的交流和互动的数据,这并不能用传统的一些方式来解决,需要视觉算法、智能硬件终端帮助线下商家解决线下数据的获取问题。 我们把线下获取的数据及原本具有的软件及系统的数据集中到我们的数据中台上,通过数据中台辅助决策,以及通过算法应用赋能实体商家,提升门店的经营水平,推动整个环节的服务能力。 02 未来的门店一定需要构建一个个完整的数据闭环数据闭环是由整个技术架构来构成的,需要具备能够打通在线与线下门店购买的闭环,这都需要整体架构去解决,在这个过程中,我们可以通过AIOT智能终端,提供一些服务、货品,让消费者主动地和我们发生连接,从而主动地获取到数据。 线下的数据是一个从无到有的过程,每增加一个维度的数据,业务闭环就会更往前一步。当有了无感知获取能力后,我们可增加消费者的维度(年龄段、性别、服饰),最终实现在应用端的突破,从而去构建一个从数据获取——分析——应用的完整闭环。在此过程中,我们需要解决的闭环有三个: 在店内运用智能终端 通过我们的数据分析和应用工具的运用及构成的店内的一个最小的业务闭环,通过这个最小的业务闭环去持续迭代我们店内的经营水平。 线上线下融合 烟盒上的二维码、小程序实现了在线获客的行为,在线的连接行为和线下的购买行为要形成业务闭环,这是在直营门店数字化过程中需要解决的问题。 细分之后,我们能否识别出购买的顾客是否是首次购买,获客之后能否留客,留客后能否持续保客,保客后能否持续和顾客产生互动,这就有赖于奇点识客的解决方案。 通过Face ID的方式,打通业务数据,持续迭代线下的会员体系,而奇点识客系统基于人的跟踪,以视频为媒介,建立人脸、人体、人场、人货的多维度获取分析与数据&智能服务体系,帮助烟草门店认知顾客、掌握经营情况、提升经营效率。 数据智能应用 将价格指数、存销比、订足率、重需率、订足面、动销比、投放面、订购率、订单满足率“九要素”作为主要指标对烟草行业进行分析,为货源组织与策略制定提供量化支撑,驱动资源高效整合。借助数据中台以及AI算法应用能力,建立的烟草行业智能投放模型,能够使货源投放由经验式分析向数据化分析转变,真正做到以数据驱动精准供货。 03 「成功案例」:奇点云联合阿里云共同打造的烟草智慧直营店 全新升级智慧展厅体验区 兼顾互动体验功能的同时,以自助“店中店”方式帮助消费者更便捷的完成购物,为展示区提供营收能力。 新增智能设备 新增奇点魔镜 、智能零食柜、智能饮料柜、智能烟柜、品吸烟机试烟机等智能设备。 营造科技感,带来十足“智慧购物体验”。通过烟柜购买所产生的所有线下行为数据,都可以被记录下来,快速地积累起线下的数据资产,从单店到区域到片区到全国,就像从神经末梢建立起一个小闭环,从而构建起全国的大闭环。 保留店铺原有营业区,不影响传统业务 智能展厅依托直营店大量客流和强大的运营能力进行改造,旨在不影响原有业务的前提下进一步提升店铺单位面积营收能力。 总结 从中国烟草行业销售网络建设的需求出发,奇点云在智能门店试点的实践中,帮助烟草客户建立会员强认证体系,推动建立符合国家法律管制的新市场规范,通过趣味性引流,降低获客成本,并且依靠刷脸进店、个性化推荐、刷脸试烟、智能导购等黑科技,增强顾客购物体验,提高会员转化率,并根据人工智能和大数据技术,实时了解客流画像及门店经营状况,实现数字化运营。
数据安全是实现隐私保护的最重要手段之一。数据安全并不是一个独立的要素,而是需要连同网络安全、系统安全、业务安全等多种因素,只有全部都做好了,才能最终达到数据安全的效果。 随着AI、DT时代的来临,传统企业越来越重视数据,并逐步的开始对内部数据的进行互联,其核心是通过数据的集成、同步,来连接各个业务系统的流程以及通过对数据的二次加工,创造更大的价值。 本质上,数据作为一种生产资料,加入到企业的生产过程中,并成为重要的能源。但数据本身,在生产过程中可能因人为管理的不善、生产过程的控制不善带来各类风险,并可能会在输出的产品和服务中输出风险。如内部人员导致的大规模的数据泄露、数据质量引起的业务系统故障风险、产品和服务暴露个人隐私。 因此我们迫切的需要建立针对数据流动和使用的风险控制体系,需要一整套的规范、数据分类管理体系、场景控制流程、可追溯体系、数据风险识别和度量体系、检测体系。用来防范内部各种涉及数据的生产系统以及人员的不规范行为,导致的各类数据风险。 我们接下来讲下构建数据安全体系的话,需要解决的一些痛点问题: 01 数据访问风险1、缺乏统一账号管理:大数据组件较多,各自一套,缺乏统一用户账号体系。 2、缺失身份认证管理:大数据组件鉴别访问身份薄弱,对大数据访问入口缺乏有效的身份认证手段。 3、数据授权能力弱:数据使用缺乏细粒度授权方式和精细化的权限控制保护机制。 02 数据流动风险1、缺乏审计溯源能力:大数据组件审计能力薄弱,缺乏对数据流动的全面双向审计溯源能力。 2、数据保护能力弱:缺乏对数据使用和导出的风险控制能力和脱敏保护机制。 03 数据运维风险1、数据管理成本大:各类数据汇聚,数据量大种类繁杂,数据资产梳理难,缺乏敏感数据的分类分级手段。 2、运维行为缺乏监督:系统管理员和运维管理员权限巨大,其操作行为缺乏有效的监督和控制以及追责能力。 3、高危操作缺乏管控:一些特定的高危操作没有做到拦截,容易造成误删库的后果。 针对以上的痛点,奇点云DataSimba提供了一整套大数据风险管理方案。 01 首先规范大数据访问人员,统一规范访问控制 1、建立大数据统一用户管理系统,打通原有企业账号体系。 2、建立大数据统一认证管理体系,多因子控制访问入口,防止数据裸奔。 02 建立大数据的资源管理能力和规范数据授权流程和手段 1、建立数据资产统一管理查询平台,需要开展数据分级分类管理。 2、数据访问需要统一授权的工作流审批,快速完成数据业务化过程。 03 对敏感数据访问进行控制保护 1、需要设置细粒度权限,控制敏感库表、字段、文件被低权限用户获取。 2、提供精细化运营管控手段,基于数据等级、数据标签、数据分类进行保护。 3、提供透明化的动态脱敏能力。 4、控制用户访问数据频率和数据体量。 5、控制用户的高危操作。 04 控制数据导出风险 1、基于敏感数据级别和权限,对导出场景进行审批。 2、 限制开发导出数据落地,审批后通过统一的平台进行数据导出。 05 对内部人员内审、异常行为分析和事件溯源 1、对大数据管理员的操作行为进行审计、UBA分析和溯源。 2、对大数据开发、分析的操作行为进行审计、UBA分析和溯源。 3、对数据导出的操作行为进行审计、UBA分析和溯源。 奇点云DataSimba可以帮助企业建立统一的4A管理系统(账号、认证、授权、审计),帮助企业解决数据的“有什么、在哪里、怎么管、如何控”的问题,进而帮助企业进行大数据敏感数据的分等分级管理、细粒度授权管理、数据脱敏保护管理等。 通过安全审计有效监督运维、开发、BI等各类人员的数据操作行为,借助追踪溯源提高平台的威慑力,让不法人员不敢进行数据泄露等非法操作,凭借风控管理深度学习分析大数据访问行为构建行为访问基线,联动智能拦截规则让不法人员不能进行数据非法访问和操作。 最后帮助企业实现全面把控全局的数据流动和安全态势,帮助企业管理数据流动中的风险点,完成对大数据安全使用全流程的可视可监可控可管能力建设。
过去十年,云计算蓬勃发展,大数据、人工智能等前沿科技已向线下行业挥舞起革新的大旗,以智能系统推动生产力的解放。技术人心中对未来世界蓝图的描绘愈来愈清晰,让人振奋不已。 我们亦是如此。创立三年来,奇点云怀抱着“让商业更智能”的使命,致力于为企业打造“云(智能)+端(感知)”的产品与服务,为数字经济注入强劲新动力。 但或许,日新月异的世界还未悉心聆听过来自企业的声音: 数智化转型是不是科技行业的一厢情愿? 如何判断企业是否需要数智化转型? 数智化转型在现阶段能为企业带来什么? 在数智化转型过程中,从企业的角度出发,会遇到哪些问题? 2019年9月25日,在云栖大会《数智商业论坛》,奇点云有幸邀请到了我们的老朋友、合作伙伴卓诗尼,由卓诗尼控股CIO韩振强先生为我们讲述卓诗尼数智化探索实践的历程,分享企业数智化转型的成功经验。 卓诗尼控股CIO 韩振强 关于“卓诗尼” 卓诗尼成立于1998年,集女鞋研发、生产、销售、电子商务于一体,经过20年的市场磨砺,已成长为中国时尚女鞋行业领军企业,全国门店逾3000家,年零售额超40亿元。集团旗下现有Josiny卓诗尼、O.E欧意等品牌,坚持以用户需求为导向,致力于为消费者提供多品牌多品类的时尚潮品。 鞋服行业面临四大挑战 韩先生谈到,商品供应链是卓诗尼的核心竞争力之一:规模化高效的供应链模式保证了大批量商品的供应能力,而快速反应的补货上新模式则能保证卓诗尼产品“潮”与“快”二者得兼,绝不错过消费者的心动时刻。 即便已具有强大的商品供应链能力,韩先生依旧认为,卓诗尼还是非常传统的企业。在行业风云变幻的十字路口,四大挑战席卷而来: 1、逆转:原有“品牌生产—供应到门店—销售给客户”的产品链条与客户的需求天然存在割裂,当下如何快速、准确地响应客户需求并服务好客户,是整个行业面临的问题。在供需关系逆转的环境中,只有抓住客户的芳心才能逆流而上。 2、激烈:市场变化频繁、竞争激烈,网红经济、颜值经济等新业态对传统行业产生了冲击,不可小视。 3、失控:原有的管理模式渐渐失效。尤其是对旗下拥有超3000家门店的卓诗尼来说,在新环境下,管控难度提升,开始考虑推进合伙人机制方式,将管控变为合作。 4、压缩:零售行业前进的脚步越来越快,而消费者喜好更新的速度似乎还要更快几分。曾经鞋服四季的商品可以卖3个月,而现在商品从上架到下架都不能超过一个月时间。传统鞋服行业不得不寻找新的方式,以实现产品的快速迭代、及时响应客户需求。 挑战之上,机遇应运而生 面对四大挑战,韩先生未露难色,反而剖开表象,看到了严峻市场环境中的机遇。 1、快速:从信息时代转向概念时代,软件定义一切。在未来,卓诗尼将尝试通过软件来定义自己的产品、服务和商业模式,以赢得竞争机会。 2、开放:从封闭的时代走向开放的时代,连接找到入口。卓诗尼有自己的研发、生产和营销团队,但未来将继续开放企业环境,更多地应用社会资源,上下游协同,真正做到数字共享、价值共享,共建共赢。 3、异化:从肉体时代转向概念时代,计算无处不在。卓诗尼将会把一些机器计算可以做到的事情交给机器,解放生产力。 4、交互:从实体时代走向虚拟时代,交互消融边境。传统企业的壁垒正在慢慢消失,卓诗尼将找到生产者与消费者的连接点,用融合的方式共同创新发展。 5、共享:从我有时代转向我用时代,数据驱动发展。数据来源于生活,又反作用于生活,因此在未来,卓诗尼一定会把握数据来促企业发展。 对于卓诗尼而言,这正是数智化转型的好时机。 韩先生相信,“数据资产化”、“决策智能化”将助力卓诗尼顺应行业变革趋势,化挑战为机遇。 卓诗尼的数智化转型破局:共建共享 2018年,卓诗尼就开始着力数字化尝试,并制定了具体的战略实施路线,希望通过一系列革新,转型成为以市场需求为驱动、商品链反应快速的平台型企业。 据韩振强先生介绍,卓诗尼双IT架构由前端、中台、后台构成。前端负责用户体验和生态系统,中台则主要负责业务逻辑定义及数据分析,后台由物联网平台、信息系统平台组成。以“轻前台、强中台、大后台”为理念,卓诗尼开放平台资源,与更多伙伴共享。 2019年,卓诗尼与奇点云正式建立合作,共同打造了卓诗尼的数据中台系统。 在全国多家门店,卓诗尼也引进了奇点云的“奇点识客”系统,通过数据中台将前端采集的视觉信息与后端的交易数据、历史喜好数据和线上数据打通,形成立体的消费者画像。识客系统、视觉计算平台和数据中台联动,最终反哺卓诗尼的商品设计与生产。 奇点识客3.0大屏看板示意图 数智化转型如摸石头过河,应由谁先行? 数智化转型对于大多数企业而言,还是一个“久闻大名、未见真身”的新鲜事物。在探索的路上,卓诗尼亦遇到了许多挑战: 01 创新协作不足 一直以来,卓诗尼对自身的业务、研发、管理体系不断创新,但跨业务、跨行业乃至整个行业的协同层面的创新,目前来说仍较少。 02 经验技能有限 数智化转型对于传统企业而言,缺乏可借鉴的经验。 03 战略规划短视 业务在变化,组织在变化,企业的战略规划很难长期推进,而数智化转型正是需要持之以恒的。 04 考核体系陈旧 传统的考核体系难以适应新的调整,缺乏对新尝试业务的考核。 05 组织机构孤立 在传统企业,企业数智化转型的任务往往被抛给信息技术部门,希望由计算能力、云能力和应用能力带动产生红利。但信息部门其实无法深入理解业务的痛点,而更追求技术如何实现,如何避免系统的复杂程度。因此主导转型的应当是业务。业务先行,技术协同,方能高效推动企业数智化转型。 企业的数智化转型仍处在初级阶段,未来还有很长的路要走。但我们相信,数智化转型能为企业创新价值,提供有据可循的商业决策,帮助企业提升产能效率。 在AI助推新零售的时代,奇点云将与卓诗尼及更多企业携手,助力华丽转身,共赢智慧未来。
2019年可谓是“数据中台元年”,过去几年企业市场对大数据的不断积累与沉淀,人们对数据中台、数智化转型的讨论也是非常火热。几乎每个企业都在关心如何构建自己的数据中台,如何利用数据中台构建企业自己的数据银行。 作为专注为企业数智化转型赋能的践行者,在2019云栖大会《数智商业论坛》现场,奇点云COO刘莹分享了《数智化运营中的数据中台构建解析》,并以“接地气”的方式为大家奉上数智化转型过程中的避坑指南。 01 从IT到DT时代,亟需AI赋能 IT时代由人编辑数据库,而在DT时代由机器编辑数据库。三年前我在成都听马老师讲,DT时代中国是可以直道超车的,因为中国有人口基数的优势,产生的数据最多。阿里巴巴CEO张勇也提到了我们从五新迈向了百新,五新里面最核心的是新能源,而新数据就是新能源。中国有十几亿人口,每天产生新能源、新数据也最多,所以人工智能一定在中国先诞生,并且人工智能的技术会复制到全球,全球优秀的企业都会采用中国的大数据和人工智能技术。同时,数据中台将是每一个企业做战略转型和整个业务转型的一个基础设施。企业数字化、智能化就是一种必然的趋势。 02 数智化转型中的四大常见误区 01 拿来主义 在拜访客户过程中,有些客户会问我们有没有数据可以借用给他们,答案想必是否定的。因为数据是最核心的资产。我们认为把自己业务系统产生的数据先用起来,形成闭环以后才能慢慢地看怎么把三方的数据融合起来,并把自己的数据和别人做简单的碰撞和交换,数据一定是和应用场景相结合才能被应用起来,拿来主义要不得。 02 业务和IT部门谁主导 数智化转型过程应人人参与,各司其职。其实IT很多时候是对业务的理解,只是在前面十年IT的建设中对业务有很强的理解,以往业务和IT之间的沟通有所限制。事实上IT在整个过程中通过机器发现了很多业务,这个时候需要有一种新的机制和组织来保障运行,应是一个相辅相成的关系。IT要更多地理解业务痛点,通过跨部门的协作和整个行业内的数据协作找到业务曾经发现不了的规律。 03 切入点怎么找 在找切入点的过程中,经常说先建一个平台,把所有数据聚进来,再慢慢清洗整理,或是先做一个小的数据应用看它跑得如何。其实不同的企业有不同的切入点,如果一开始很难下手做数智化转型,不妨看一下我们发布的《大数据咨询方法论白皮书》。我们说人都是千人千面的,每一家企业当然是不一样的,切入点通常是在大家共同的探讨之后,通过一些方法论找到最适合自己的切入点。企业要做的首先是把不同的业务部门的数据做体系化的梳理,并且找到创新业务最需要的业务应用点,再反推到怎么建数据中台。所以我们常说以用带通、以通带存,以存带采。 04 有存、无通、想用 现在大部分企业有把数据存下来的意识,他们也会找一些数据公司把存量的数据用起来,但所有的数据都没有通起来,真正能够通起来的企业非常少。很多客户觉得数据只有大而全才可以用,其实不然。我们发现其实数据是有多少就可以用多少,关键看你怎么用。 解开以上四大误区的五个方子: 1、采集并用好自有数据,再结合三方 2、IT与业务深度融合 3、以用带通、以通带存,以存带采 4、数据可以不全,但可以有多少用多少 5、面向数智化转型的组织保障 03 赋能商业,助推企业降本增效 我常说自己承担了技术和商业落地的翻译官的工作。上图从数据采集开始,大家之前都是业务系统里有很多的数据,并且这个数据很多时候维度比较单一,也比较少。我们会通过互联网的数据和三方数据做一些数据升维,数据不全、数据质量差,数据没有被充分利用都是没法做好数智化应用。 我们在深耕数据智能应用,也就是我刚才说的IT到DT时代的核心改变,我们把智能应用分为人、货、场。在人货场里面做了人货关系、货场关系之间的数据智能应用。在这个智能应用之下到数据的通、存、采集,它才能够跟行业做更多结合。但这是远远不够的,我们认为今后的数据智能应用将会是它的几百倍甚至几千倍。而我们在数智化应用之上,也为零售领域各行业客户数智化转型赋能,助推企业降本增效。在此分享两则奇点云赋能客户数智化转型的案例: 1、某家居标签体系建设及精准营销 奇点云为某家居建设统一的客户标签体系,实现了: • 数据中台总数据量达到100T,客户数量达到3000万; • 新增有效客户标签200个以上; • 基于统一的算法标签实现客户精准投放,渠道投放成本每年节省500万元; • 基于精准营销,复购率比原来提升4%,营收比原来增加2亿元左右。 2、某商超数据中台构建 奇点云为某商超建设业务应用和数据中台,实现了: • 数据中台应用,结合企业微信管理,员工报表使用率提升20%; • IT运维成本下降,通过双中台的升级,设备故障率下降为0; • 财务处理人员成本下降,通过数据中台中提供的财务及发票的数据智能处理,每年节约30万左右的人力成本; • 通过数据中台中智能化,支持优化新业务拓展流程,每个新业务(需求)建设平均时间原来为15-30多天,现在下降为3-15天。 04 构建一个面向未来的数据中台数据中台是企业数智化转型的必然选择。作为一个企业,不管是业务方还是IT方,或是董事长、CEO,一定要构建一个面向未来的数据中台,而不是一个小型的数据仓库。因为现在是数据大爆发的时代,业务系统数据到互联网数据再到5G和万物互联的数据,数据应该是大于指数级的增长,怎么样从海量的数据中找到优化业务和精细化运营的点。这是我们在AI+算法定义的世界里面要孜孜不倦去挖掘和发现的一个持续十年不断努力的过程。
2019云栖大会上,奇点云正式发布《大数据咨询方法论白皮书》,希望帮助更多企业用切实可行的方法来了解自身数字化转型状况,对自身数字化转型做出有利判断。 奇点云副总裁何夕分享《大数据咨询方法论白皮书》 此前一年,为帮助企业推进数字化转型战略,解决数字化转型中的问题,奇点云推出了大数据咨询服务,并付诸大量案例实践。这次,奇点云把这些实践经验总结提炼成方法论,以白皮书的形式开放给更多商业机构。 数智商业论坛现场 白皮书从时代背景、定义和需求来源、核心特征和挑战、核心方法论、咨询工具和案例实施等六个维度,第一次正式提出了「大数据咨询」的概念,并对「大数据咨询」进行了完整定义,分析了传统管理咨询和大数据咨询的区别,提供了完整的方法论和实践内容。 奇点云认为,大数据咨询是在传统咨询以外,基于技术驱动数字化转型的需求,通过咨询的方式,帮助企业更好地规划数据智能的未来。围绕数据构建企业的数字化转型能力和数据生态,让数据真正发挥业务价值,更好地帮助企业进行战略规划、组织设计和人才管理等等。 大数据咨询的核心是厘清差距 数字化转型并不是一个陌生的话题,很多企业都已经进行了多年的数字化转型尝试,但是直到今天,数字化转型仍然是一个需要持续关注的话题。原因何在? 技术进步是一个首先要考虑的因素。 过去十年,随着云计算、大数据和人工智能技术的发展,信息经济快速地被智能经济的概念所取代,智能经济成为了众多行业的共识——数字化转型的未来清晰地指向人工智能,让人做人该做的事情,让机器做机器该做的事情,人机脑力算力协同发展。 这极大地挑战了数字化转型的传统理解。在传统的数字化转型中,技术问题只需要通过合理的IT部署就可以解决,但是在智能经济中,IT部署本身并不能解决企业面临的人工智能问题。人工智能本身涵盖了算力、数据、算法等多个技术领域。 特别是数据,这个常常被企业忽略的因素。 如果说算力和算法都可以通过市场获得,那么数据是唯一一个只能通过企业自身积累来增长的要素。企业并不能通过数字化转型实现理想的战略目标,大部分情况下,都是因为缺乏有效、清晰的数据战略,导致企业的数字化转型处处受阻。 比如,有了算法,却因为数据质量导致算法不可用;比如,新建了财务系统,却因为财务数据统计口径不一致,导致财务系统使用困难;再如,新建的系统,数据采集一半是空值,却不知道原因何在。 奇点云副总裁何夕分享 大数据咨询的核心,正是从数据战略出发,正确理解企业数字化转型现状,并且对企业的技术能力和战略目标进行正确评估,厘清两者之间的差距。 通过有效的数据战略规划,企业就能通过技术建设、组织建设和业务规划,来突破数字化转型的数据障碍,真正实现数据的业务价值。 大数据咨询是传统管理咨询的有效补充 大数据咨询并不是凭空诞生的,而是来自于企业数字化转型的实际需求。在云计算、大数据、人工智能大行其道的今天,企业面临越来越多的数据问题,也产生了迫切的数据战略需求。总结下来,有四大类问题: 1.如何面向未来建立合适的企业数据战略 2.如何规划建设企业数据资产管理体系 3.如何规划建立企业数据中台基础设施 4.如何让数据资产增值和变成业务价值 这些问题,需要有长期的数据平台建设经验和数据应用实践,而传统的咨询公司和商业机构都缺乏这方面经验。 当然,大数据咨询和传统咨询绝非竞争关系,而是合作关系,只是在数据资产管理上大数据咨询和传统咨询有两个大的区别: 其一,大数据咨询方法论来源于数据中台建设经验和数据资产管理体系建设经验。 奇点云所提出的大数据咨询方法论正是来自于创始人12年的阿里巴巴数据经历,以及3年的数据创业实践,奇点云创始人及核心团队都完整经历了阿里巴巴数据发展的四个阶段。 其中,奇点云创始人张金银(花名:行在)本人创建了阿里巴巴第一个数据仓库(DW);第一次打通了阿里巴巴消费者数据建立了TCIF(淘宝消费者数据工厂),现在阿里巴巴的消费者标签都源自于TCIF;创建了阿里云数据平台——数加,把阿里巴巴的数据能力外化赋能社会。 二是大数据咨询的目标是”端”到“端”帮助企业建设数字化转型能力,在目前阶段,还需要具备丰富的项目实施经验乃至交付能力。 数据中台狭义上是一整套技术能力的集成,但要真正为企业产生价值,就需要从商业设计和组织设计的角度,真正找到落地的业务场景,通过建立数据资产管理体系、辅助管理决策、算法代替经验公式等方式来真正实现企业的数据决策,以及业务端的降本增效。 奇点云70%以上都是IT工程师,拥有完整的「云+端」大数据产品,以及数年来累积的数据中台实施经验,这些都是大数据咨询的必要条件。 在论坛上,奇点云正式向公众免费开放《大数据咨询方法论白皮书》下载,希望从0到1,真正帮助更多企业找到属于自己的数字化转型道路。
自零售领域近些年围绕转型升级建设性地提出了以“人、货、场”三核心为基础的新零售蓝图之后,各方新技术蜂拥在零售的各型场景中角力。在之前的分享中,我们主要介绍了奇点云是如何通过人工智能技术,从“人”的维度切入零售场景的。而本文将着重介绍奇点云的人工智能技术是如何从“货”的维度赋能零售商业的。 视觉智能引擎作为奇点云AI落地的第一步,在商品数字化方面发挥着主要作用。而从视觉角度来说,“货”的形态差异相较于“人”来说有了显著增加。不同的垂直行业为顺应市场需求所开发的产品,无论在产品功能还是形态上都千差万别,甚至同类型产品也会产生出不同的形态以顺应差异化的细分需求。这对视觉智能引擎提出了新的挑战,也激发出了StartDT AI Lab更大的技术突破。下面从奇点云已经商业落地的场景中选了几个比较有代表性的行业场景来展示StartDT AI Lab已取得的技术突破。 AI识货赋能服饰行业 我们在17年率先推出服装识别技术,结合产品——奇点魔镜实现落地。在这个场景中,用户站在奇点魔镜前站定几秒后,奇点魔镜首先将对用户的穿着进行分割理解,从中分离出T恤、风衣、夹克、牛仔裤等各种类型的服饰,然后通过对单品服饰的分析,例如T恤,我们可以对其抽取特征,分析出T恤的风格、袖长、版型等属性,最后在我们自建的百万级服饰商品库中,使用推荐算法为用户推荐相似的、配套的商品,从而达到引流客户、智能导购的效果。 在这个链路中,我们当时碰到的主要问题和解决方案: 1.获取用户准确的衣着信息并获取特征时,像T恤、短裤这样上下装明显的衣着较容易获取,但像连衣裙、风衣类较长的衣着却较难处理。 我们通过收集大量数据、清洗打标、完善数据集,并使用级连方法,先对服饰一级标签进行检测分析,再进行二次处理,从而提高了分割效果。 2.服饰属性多样且没有统一的标准,如何快速同时判断成为难题。 我们将属性的分类器各自独立互不影响,使用特征作为输入,减少了重复运算,另外我们将分类器同时接在Graph中,使整体过程End-to-End,快速有效。 3.大规模检索:当数据库较大时,检索速度慢,无法快速响应。 我们将比对数据库部署在分布式集群上,实现了特征比对层面的map-reduce,使我们在应对各种级别的比对时游刃有余。 AI识货赋能快消饮品行业 我们在快消饮品行业已有近两年的探索历史。各式各样的饮品——包括矿泉水、碳酸饮料、果汁、啤酒、白酒等都可以在奇点魔柜中售卖。我们通过自研的深度学习算法、数据采样方法,配合我们定制化的硬件配置,实现了在商用场景中99%以上的识别准确率。我们将货损率控制在1%以内,低于快消饮品行业平均货损水平。此外,我们在不到1平米的占地空间上实现了极高的坪占比,单柜单月零售额可达千元级别,却仅需少量的维护工作。 在正式商用的背后,StartDT AI Lab主要的contribution有以下几点: No.1 快速有效的小物体检测算法 和大多数场景不同,我们的检测目标往往是最小边接近16像素的小目标,且在一张图上有相当多的目标。我们通过自适应anchor的方法,使先验anchor更加准确;此外我们通过一种特征增强算法,使细节特征得以在深度网络中尽可能减少损失,从而避免了因特征过少带来的低分值检测结果不稳定的问题。此外我们还自研了一种自蒸馏方法,在不增加参数的情况下提升了模型准确率,从而达到了商用水准。 No.2 与度量学习结合的识别技术 度量学习在过去的几年中被广泛使用在人脸识别模型上,并取得了非常不错的效果。我们将其引入商品识别,结合经典的神经网络方法,使识别结果更加准确可靠;此外模型还可输出可比对特征,支持特征比对方式出结果,支持不同类间相似比较,从而在选品层面就避免了相似商品同时售卖无法识别的问题。 No.3 小数据集增强 我们的数据集相对使用场景,其实是一个小数据集。如何使用小数据集在大数据场景下获得商用级准确度?我们自研了一种mix方法,使检测模型获得了非常高的召回率;此外我们还使用了GAN,在训练分类器的过程中同时训练生成器,再拿生成结果同时训练分类器,使分类器训练更充分,更平滑。 在生鲜/药品等垂直领域,我们也敢于摸索和尝试,发挥自有深度学习算法和采样方法的优势,结合自研的硬件优点,首创能将繁复多类的生鲜不受类别影响的智能货柜。众所周知,在垂直领域中,同一sku的外观变化多样,适配成本高。我们通过特定产品设计,完美支持各类蔬菜水果等生鲜,准确率更是可以做到近乎100%。让顾客不受限于菜市场/药房等特殊场地的限制同时,更可以发挥无人货柜的完美优势——不受时间限制。 (从上至下为药品类识别、生鲜类识别、订单展示) StartDT AI Lab在黑暗中探索的收获与创新: No.1 新颖的深度学习式场景思考 为了摆脱生鲜场景下,各种形状和尺寸带来的异同和难以兼容,以及客户快速上新的切实需求,我们在场景落地的实际道路上,结合商品的特性、产品的优势和深度学习算法的原理,给奇形怪状的生鲜产品进行特殊的包装,该方案解决了生鲜产品之间的差异性,并能支持客户快速上新。 No.2 独具创新特色的数据增广 光有新颖的方案设计还不足以让深度学习在一个实际场景中完美落地,准确率是客户第一要素,数据是深度学习的资本。StartDT AI Lab在深入分析了生鲜和药品等垂直领域的数据特性和算法性能之后,创新性地在采样数据集上进行数据增广,让准确率近乎完美,诠释了什么是将深度学习进行落地的概念。 从以上案例中,呈现了奇点云在“货”的数字化探索,虽然还是比较初步的商品数字化阶段,但也通过AI技术首次实现了商品售卖周期内的全链路数字化跟踪。并在此基础上实现了零售前端成本削减,提高了用户调研自动化的效率。为了让商业更智能,StartDT AI Lab将继续前行,请持续关注~
你是否还在疑惑“人工智能可否改变世界?” 那么,你该有一些危机感了。 机器视觉、自然语言处理、智能语音、机器人问诊、智慧驾驶……这些AI技术及应用早已渗入了我们日常生活的点滴。 今天,以「智联世界,无限可能」为主题的2019世界人工智能大会(WAIC)在上海开幕。围绕智能领域的技术前沿、产业趋势和热点问题发表演讲和进行高端对话,打造世界顶尖的智能合作交流平台。作为全球顶级人工智能峰会,WAIC已经成为最活跃的AI产业合作平台,华为、BAT、亚马逊、特斯拉等众多行业领军企业将亮相峰会现场。 汇聚全球智慧,纵论智能风云。 以“高端化、国际化、专业化、市场化、智能化”为特色,不仅汇聚了多名AI研究之父、图灵奖获得者、诺贝尔奖获得者,还有马斯克、马云、马化腾等400余位国内外嘉宾,以及10余个主题论坛和20多个行业论坛。 谈到AI的未来,马云和马斯克各自发表了看法。 马云:「我不是技术咖,我更多的想生命。AI的未来很难预测,历史上,人们对未来的99.99%的预测后来都被证明是错的。人们应该有更多的自信,AI不是一个威胁」。 马斯克:「AI还不是很了解人类,他们只是很奇怪的机器人。AI研究最大的问题是没有想象力,如果有的话,人工智能的进展会更快」。 “AI应用落地”已成为当下人工智能赛道决胜场,也是今年大会的最大亮点之一。 当奇点云携一身「酷炫AI应用」遇上「WAIC大会」,又将释放怎样的科技火花呢? 奇点云联合良友集团硬核打造以用户数据智能为核心的「智能体验馆」,通过奇点云独创的“云(智能)+端(感知)”技术解决方案,不仅在端上具备视觉数据的收集和分析能力,还能通过Face ID,帮助企业去打通业务数据,最终建立线上线下触达和服务消费者的能力。 当顾客进入「智能体验馆」,奇点识客会基于人的跟踪,以线下消费者行为采集为切入点,使用Face ID和Re ID技术实现消费者在场景中的进入、逛游、交互、结算、离开等行为的完整描述,建立起人脸、人场、人货的多维度采集、分析与数据智能服务体系,帮助零售商家实现线下人的描述,从而达成基于大数据的经营辅助决策能力。奇点Insight是基于奇点云大数据智能服务平台DataSimba ,结合企业经营中的前沿业务场景,围绕“人、货、场”展开,建立系统性闭环,及时做出决策调整,堪称运营管理者的智能诊断器。 (左:奇点识客;右:奇点Insight) 「智能体验馆」的互动神器奇点魔镜,刷脸即可根据算法生成性别、年龄和性格特征等个人标签,娱乐元素形成趣味互动和分享传播,还可领取优惠券红包。 (奇点魔镜刷脸领券) 奇点魔柜“刷脸”即可精准、快速实现秒速开柜进行核销,提升顾客购物体验。 (奇点魔柜刷脸核销) (浦东电视台记者体验奇点魔柜) 亲身体验才是最正确的方式~我们在C107等你来撩!
8月26日-29日,2019中国国际智能产业博览会(简称“智博会”)在山城重庆如期举行。本次智博会以「智能化:为经济赋能、为生活添彩」为主题。奇点云作为人工智能大数据领域前沿的高科技创新企业,携「数据智能+零售」、「数据智能+政府」、「数据智能+车企」等多种场景下的最新技术、“云(智能)+端(感知)”产品及解决方案亮相智博会。 数据智能+零售构建企业自己的数据银行 奇点识客是一款线下人脸数据采集与分析系统。基于人的跟踪,以线下消费者行为采集为切入点,使用Face ID和Re ID技术实现消费者在场景中的进入、逛游、交互、结算、离开等行为的完整描述,建立起人脸、人场、人货的多维度采集、分析与数据智能服务体系,帮助零售商家实现线下人的描述,从而达成基于大数据的经营辅助决策能力。 展会现场,奇点魔镜刷脸领券、奇点魔柜核销领取专属礼品,为观众们带来“AI+零售”场景的全方位体验。 通过奇点魔镜等会员信息采集端,全方位地丰富会员信息,加之奇点识客的广泛应用,掌握顾客身份信息、交易行为的同时,掌握其购物动线轨迹,甚至情感行为。从而实现会员精准画像并建立全域的会员标签体系。基于此完成对顾客全新方式的引流和流量分发,实现精准有效的营销。 奇点CDP聚焦营销场景,帮助企业打通分布于会员、订单、售后等内部系统中的客户数据,并在此基础上进行消费人群的智能化洞察与分类标签生产,以帮助企业快速建立包括产品定位、客群圈选、营销投放与效果评估在内的大数据营销闭环,系统化提升企业获利能力。借助于它,营销部门可以真正做到「取数于谁,用数于谁」。 奇点Insight是基于奇点云大数据智能服务平台DataSimba ,结合企业经营中的前沿业务场景,围绕“人、货、场”展开,建立系统性闭环,客户可以随时洞察经营各关节中的问题,辅助业务决策,实现数据化运营。 数据智能+政府释放政府数据资源价值 大数据成为经济转型发展的新动力,为提升政府治理能力创造了新途径。「企业服务大脑」是奇点云为政府探索出的符合数字经济时代的政府服务企业的新路径,旨在提供数据采集、数据加工、数据治理、数据规范、数据应用等全链路的产品+技术+方法论服务。重构了大数据时代政企关系,通过大数据与人工智能等技术,融合企业多源数据,实现地区经济发展的多维分析、智能判断、趋势预测等,采用“1+N”的模式,面向企业提供个性化、精准化的服务,辅助政府科学决策,提升政企精准沟通效率。 数据智能+车企精准研究消费者习惯 在汽车行业,数字化、智能化的趋势越来越明显,大数据也成为了汽车产业链的标配,那么,对车企而言,何谓大数据?销量不过百万辆的企业有没有“大”数据?我们的供应链、生产、财务数据算不算大数据?车主的购买记录、社交媒体上的印记属不属于我们的“大”数据? 车企大数据应用的重点,不是在于如何获取更多的数据,而是围绕业务目标和具体的业务问题,基于一定的数据分析,来解决问题、达成目标,体现数据的价值。 展会现场,奇点云还为汽车经销商数智化服务平台——「省心宝汽车」打造了智慧化的汽车整体解决方案,构建了实时、精准的“人+车”数据库,为汽车行业打造数据新引擎。顾客只要站在大屏前,就能用人脸识别技术识别出年龄、性别等属性,并进行用车推荐。 看了以上这些还不过瘾?智博会仍在火热召开中,我们在N2—039展台,期待您的到来~
人货场的思路是整个新零售数字化链路的核心,人是整个业务生命周期的起始点,图像算法的首要目标就是从图像中得到“人” 。前一篇我们主要讲了Face ID的发展,Face ID帮助商家赋能了线下用户画像,把视觉计算的热情带到支付、安防等各行各业。 诚然,分析人的方式多种多样,各种分析行人的算法中,Face算法在其中有着得天独厚的优势,它在验证身份方面是最精准的(可以精确到支付验证),但Face算法在数量统计的准确度肯定不是最优的。因为很多场景下的Face ID受到了光照遮挡的影响,质量参差不齐,所以基于行人身体的识别诉求便越来越强。 我们常说一套算法系统是一个此消彼长,鱼和熊掌不能完美兼得的,这里的鱼指的是准确率--精确的识别人(face技术),熊掌指的是召回率--全面抓到行人(body技术)。只有当face技术和body技术紧密结合时,我们整个场景人的分析才能全面覆盖,人这个维度分析才能更有价值。那么下面我将着重讲讲整个行人识别的整体技术链路。 01 人体检测 通过计算机视觉信号对人的相关信息进行结构化提取,第一步通常是人体检测。由于奇点云商业赋能的相关产品和系统在广泛的商业场景中大量铺开,所以对人体检测的鲁棒性提出了较高的要求。在无约束的视觉场景下,人体检测主要碰到的问题有: 尺度变化大:人的身材大小不一,大人和小孩的比列会相差很大。行人距离摄像头的远近也会造成很大的尺度变化。尤其是这两种尺度问题叠加,造成的困难就更大了。 人体姿态变化大:直立行走、弯腰劳动、坐着休息、三五结伴等等,都会带来人体形态的巨大变化。 摄像头造成的畸变:目前行人检测所赋能的场景和商业盈利的要求,都对行人检测相关硬件的成本做出了比较大的限制。所以,由于摄像头本身成像质量和部署所带来的图像畸变是很常见的,而这对人体检测又带来了很大干扰。 影像模糊:行人检测训练中,由于行人所在的场景及其广泛,作为负样本的背景常带有形状、纹理、外观等于人体相像的景状物,加上光照角度等影响,使得一些负样本可以以假乱真。 遮挡:在行人密集的场景中,行人之间会互相遮挡,在不同的场景中穿梭,也常常使得部署位置固定的摄像头无法完整地检测到人体,这也对人体检测带来了很大困难。 速度要求:人体检测所赋能的场景往往是类安防的场景,其所需处理的数据量巨大,所以为了保障一些业务实时性的要求,对人体检测模型的检测速度就提出了较高的要求。而人体检测由于本身任务较难,模型较大,想要提升速度而不降低准确性,对技术的要求就更高了。 StartDT AI Lab针对以上的一系列问题,展开了针对性的攻坚工作: 在数据准备上,下了很大的成本,通过自行标注整理,形成了百万级的数据样本库,尤其在零售商业场景下的行人标注,积累十分丰富。 在模型算法方面,充分借鉴了目前主流的铺设锚点框和新近取得较大突破的关键点检测类的方法。通过不断的迭代和实验,目前算法在准确率和召回率方面都已经可以充分满足当前业务场景下的人体检测任务。 在模型推断速度的提升方面,StartDT AI Lab主要从两方面入手来压缩模型计算复杂性。一方面,压缩backbone神经网络,在尽可能不降低特征提取性能的前提下,减小backbone尺寸。另一方面,优化检测头模块,保障检测器整体性能不降低。通过不断的版本迭代,目前模型尺寸已经只有第一代模型的十分之一以下,在同等计算资源下,模型的处理效率有了巨大的提升。 02 行人重识别 行人重识别的技术本身是从度量学习这个大类脱胎而来,和人脸识别要解决的是一类问题——检索。通过检索,我们希望行人的空间信息和时间信息能够关联和聚类到一起,那么重识别就很容易理解了,在一个摄像头出现的某个行人,如果我们可以找出在其他摄像头中出现的踪迹,那么就完成了一次跨境追踪。 试想这样的场景如果在迪斯尼乐园/机场/大学校园里和孩子走散了,除了广播“xx小朋友你的家长在广播室等你”的被动方式。我们可以翻开实点图就找到熊孩子。而实点图就可以通过重识别来实现:主动输入小朋友的照片,检索多个不同位置的摄像头下的当前帧,找到熊孩子的出现摄像头。最后联系摄像头的位置,就可以定位孩子了。这个应用同样也可以用来找小偷/保护vip等等。这样的想象空间确实给人以极大的振奋,但如此具有未来感的画面也不是一蹴而就的。StartDT AI Lab背后大量的技术支撑才能有让行人重识别技术发挥其应有的作用: 1.Body-Tracking机制:在视频结构中的行人追踪可以规约为多目标跟踪问题,我们主要通过滤波和贪心算法结合的手段整合每个行人ID所关联的信息,在短时间的范围内,追踪可以将某个行人的行人框根据前后帧的关联性,快速匹配,这样的好处有两点:一个是增加空间的连续性,在一段视频帧中前后帧之间有着行人的空间信息,追踪就可以将它们的空间信息统一在一起;二是节约了计算成本,在整个追踪过程中只需有代表性的分析某帧数据,便可以对整体信息有一个较高维度的把控。 2.人体骨骼点分析:对于行人重识别来说,通过计算机视觉技术,获取人体的骨骼点,这些关键点能为行人重识别提供关键先验知识。首先,不是所有检测出的行人都适合去做重识别,其中不完整的行人,分辨率过低的行人对模型会产生一定的攻击,为了避免这些脏数据的影响,骨骼点就可以提供一定过滤作用,通过骨骼点数量我们对行人的完整度有一个定性的评估。同时,骨骼的位置信息也是我们行人对齐的关键所在,不同的行人的姿态和位置是需要通过骨骼关键点来完成对齐的,通过对齐行人特征,减少身体部件错位对结果产生较大影响。 3.Person Re-identification:行人重识别是通过在监控视频中,用Re-ID模型对行人的图片进行特征抽取,这个特征所呈现的特点是相似的行人距离较近,不同的行人距离较远,这个高维度embedding的特征就可以帮助我们找到不同摄像头下,相同的行人。虽然技术很新很先进,但在实际场景中,我们分析行人图片时,无法避免的产生了行人不完整的现象,如果我们直接过滤掉这些行人,那么在更高层的数据统计维度产生的系统误差将为对召回率产生较大影响,在行人不完整时,我们被业务倒逼去使用残缺人体进行比对。我们有意在模型训练时增加这样的噪音数据,同时通过无监督的方式对身体特征对齐,提高了算法对不完整行人的鲁棒性。 03 样本生成 数据样本是人工智能技术的基础,然而数据的积累是极其费时、费力又费钱的一项工作,尽管当前存在一些数据可观的公开数据集,然而这些数据集本身存在样本分布不均衡,样本多样性差等问题。另外不同应用场景下的数据分布之间存在一定的区别,导致模型的泛化能力会严重降低,因此就必须进行实地数据标注,Re-ID样本的标注尤为困难。 在项目中,由于现场摄像头画面的行人数据分布与公开数据集之间存在巨大domain差异,因此采用公开数据集训练的Re-ID模型在该场景下的准确率较低,无法满足实际需求。针对此问题,我们采用生成对抗网络(GAN)将公开数据集中的行人转化成实际场景下的图像风格,重新进行训练后,模型准确率提升了50%以上。此外,我们还通过GAN的方式实现行人姿态的变化,以提高数据集的多样性;通过注意力机制,强化学习行人除衣着之外的特征(头部,四肢等),以解决行人换衣导致的准确率下降的问题。 风格迁移: 风格迁移前 风格迁移后 行人服装更换: 通过以上技术展示,读者对于行人重识别(Re-ID)这项技术有了全面的了解,也对奇点云对于技术的极致追求有了新的认识。游离在VIP体系之外的稀疏用户行为,正是通过行人识别技术,将其落袋到整个客流画像之中,为动线分析,热力分析提供了可能性。同时也弥补了Face ID无法作用于广义统计维度的短板,StartDT AI Lab通过各种算法相互协同并取长补短,产生了微妙的化学反应,最终重新定义了客流系统,将商家的分析维度达到了新的高度。
1 为什么要进行数据治理? 首先,数据是有价值的。根据埃森哲发布的“2035年之前各行业的平均GDP增长率”,单纯看自然增长,制造行业只有2.1%,但是通过数据以及由此衍生出来的人工智能加成之后,这个数字就晋升到第二名4.4%,数据的价值是相当可观的。 但是,数据的应用环境是有风险的。Facebook的个人隐私泄露事件,直接导致Facebook市值缩水640亿美元,扎克伯格也受到国会质询。 此外,数据的应用环境是低效的。为什么数据的应用环境是低效的?一是数据不可知,用户不知道自己有哪些数据,也不知道这些数据和业务有什么关系,虽然意识到了大数据的重要性,但是没有能解决自己业务所面临问题的关键数据或不知该如何寻找这些数据。二是数据不可用,数据需要一个漫长的开发过程,导致业务分析的需求,难以被快速满足。三是数据不可控,没有统一的数据标准导致数据难以集成统一,没有质量控制导致海量数据难以被利用,没有有效管理整个大数据平台的管理流程。 从上面三点的分析,就得出了我们数据治理的一个目标就是:合规、高效地产生数据价值。建立数据拥有者、使用者、数据以及支撑系统之间的和谐互补关系, 从全机构视角协调、统领各个层面的数据管理工作, 确保内部各类人员能够得到及时、准确的数据支持和服务。 2 如何合规、高效地产生数据价值? 我们认为要合规、高效地产生数据价值一定不仅仅是技术层面的事情,而是需要构建全生命周期、全深度、全方位的治理体系,包括数据治理组织体系、数据治理工具、数据治理管控流程三大层面。 通过数据治理组织建立管理办法、制定工作流程、确定角色职责。数据治理工具主要包括数据标准管理、元数据管理、数据质量管理、数据资产管理、数据安全管理,各模块协调运营,确保数据平台的数据一致、安全、有效。数据治理管控流程贯穿整个数据治理体系的流程中,实现平台化的数据管理思路。 3 数据治理组织体系 数据治理组织的构建旨在通过建立数据治理组织架构,明确各级角色和职责,保障数据治理的各项管理办法、工作流程的实施,推动数据治理工作的有序开展。 整个数据治理的组织结构可以分为三层: 1.数据治理委员会:数据管理的决策者。负责牵头数据治理工作,制定数据治理的政策、标准、规则、流程,协调认责冲突。 2.数据治理中心:数据平台的运营者。负责提交数据标准的要求及数据质量规则和业务规范,监督各项数据规则和规范约束的落地情况,并负责数据治理中整体数据的管控流程制定。 3.各业务部门:数据提供者、数据维护者、数据消费者。负责具体执行事项。 4 数据治理管控流程 数据治理管控流程是为了让方案能真正有序的落地,以数据标准制定为例: 数据标准管理协调者组织数据提供者和执行者参与数据标准属性的收集和整理工作,并按照企业实际情况协商出数据标准初稿。 数据标准初稿进行多次的讨论和丰富后,形成数据标准审核稿提交至数据标准管理决策者。 经过数据标准管理决策者的讨论审核后,由数据标准管理协调者再次进行数据标准的修改完善,并完成数据标准的发布。 5 数据治理管控工具 工欲善其事,必先利其器。数据治理管控工具是为了帮助企业更好地将规范执行落地。通常认为, 数据治理至少应当涵盖如下功能域:数据资产管理、数据标准管理、元数据管理、数据质量管理、数据运维管理以及数据生命周期管理等。 • 数据标准:在数据治理组织架构推动和指导下,遵循协商一致制定的数据标准规范,借助标准化管控流程得以实施数据标准化的整个过程。 • 元数据:采用集中式管理模式进行元数据管理,企业元数据逻辑集中,即元数据管理模块作为公司元数据的统一发布源,集中管理元数据,提供元数据集中创建、维护、查询功能。 • 数据质量:对数据从计划、获取、存储、共享、维护、应用、消亡等生命周期的每个阶段可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。 • 数据资产:规划、控制、提供数据及数据资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、提高数据资产的价值。 • 数据安全:通过计划、制定、执行数据安全政策和安全策略措施,为企业数据提供行之有效的认证、授权、访问和审计。 • 数据运维:包括数据资产运维、数据质量运维,可借助运维工具来整体提升企业数据运维效率。 6 结语 在数据资产价值被高度认可和开发利用的今天,数据治理不仅仅需要作为一项管理职能在企业内贯彻执行,也应该成为一种企业文化。企业各层级的数据管理人员必须不断地沟通、教育和推广数据资产价值的重要性以及数据治理职能的业务贡献。提升数据使用者对数据治理的意识及对数据治理效益的认可程度,是以持续改进企业数据管理机制,充分挖掘企业数据价值,提升企业核心竞争力。
中台是“让听得见炮火的人召唤炮火”,面对如火如荼的中台建设潮,只有先解释了“数据该怎么用”的问题,才有必要进一步解答“数据怎么来”、“数据怎么存”的问题。 为什么需要数据智能模型 中台,2019最火热的词汇之一。 如果把数据中台比喻为现代企业数据管理的航空母舰,无疑现在这艘航母还是一艘孤零零的巨无霸,没有护卫舰队,没有搭载作战集群,更没有攻击性核潜艇。 现在的问题是,我们建好了「中央发电站」,却发现缺少能释放其巨大产能的「电灯泡」。 我们空有单集群上万台服务器规模的算力基础设施,仅仅只是让报表跑得更快或者消除数据孤岛?这无疑是对海量算力最大的资源浪费,市场呼唤着能把这些庞大算力释放出来的数据应用。 什么样的系统才能与巨大的算力相匹配?什么样的系统才能真实有力地去解决业务实际问题?数据智能模型! 什么是数据智能模型 什么是数据智能模型?他和传统的信息化系统有什么区别?智能又体现在什么地方? 这里需要解释下「信息化系统」和「智能化系统」的区别,「信息化系统」本质是编辑数据库,一个系统如果核心是靠人工决策并且依赖大量人工交互来完成任务,那么就是信息化系统。而「智能化系统」则是依靠机器高度自动化完成“数据清洗—问题定位—业务决策”等一系列操作,以任务为输入,以处理结果为输出。 按照这个标准,市面上形形色色的智能系统都只是借智能之名鱼目混珠。 智能化系统的智能程度可以参考下图,L0向L4意味着智能化程度越高。 对标企业管理发展的四个阶段,企业必须完成整个信息化工程L0至L4的改造升级。 数据智能模型——智能调补货系统 企业的信息建设其实是企业管理升级的投影。当然这么说还是比较抽象。 拿商品运营中最基础的货品调补环节举例。 1、L0阶段:在企业早期阶段,区域门店的补货、门店间的调货,不是一个非常严重的问题,一个人列几张表格,花点心思就能搞定,仅仅做到标准化管理即可; 2、L1~2阶段:随着规模的扩大,当门店达到上百家,这时候就必须组建商品部门,去协调上百家门店之间的商品短缺和区域间不平衡的情况,这里就需要流程化管理。半自动化或者自动化管理系统可以辅助商品运营人员形成企业独有的运营风格和策略; 3、L3~4阶段:数据的传输效率会随着节点(人员)的增加边际递减,随着规模的进一步扩大,想依靠加人头来管好线下的整盘货,就变成了一个人员臃肿、效率低下、成效难以衡量的问题,期间伴随着高昂的人员培训成本和核心员工离职的风险。智能化系统也就应运而生。 我们近期服务的某集团正处于流程化管理向自动化管理过渡阶段,商品运营部门人员多达20余人,这20余人平均每周需要投入四天时间去处理商品的补货、调货数据。 这20余人训练有素,需要人肉去判断500家门店商品的盈亏状态,在供大于求的时候优先满足哪种类型的门店,应该满足多少?供小于求的时候?一个熟练的投放专员在每次补调货的时候需要同时考虑十多个衡量指标。 现在某集团预备在未来一年内开启加盟模式,门店预计扩张到4000家,一个熟练的商品专员平均培养周期最少2年。 门店扩大十倍,商品专员也相应扩大十倍? 智能调补货系统,集采了天气、区域、位置等外部数据,结合行业先进的调补货经验,上线后预计可达到: 1、采用深度学习算法,原先需要十多人协作完成的补货数据,机器仅仅在几分钟内就完成了全部补货过程,即使千余家门店的调补货计算量也不在话下,无需辛苦招人培训,还要随时警惕竞争对手来挖角; 2、原本需要整个商品部反复拉扯的补货问题,系统自动按照毛利最优解决方案,完成了全部的调度工作,预计可将商品平均周售罄率提升到60%~70%,双周售罄率稳定提升到80%以上,区域间调拨次数降低30%以上(18年某集团仅补货物流成本可达250万); 3、业务人员的脑力被极大释放,珍贵的核心员工只需管理好算法模型的优化方向和数据补充,有更多时间去思考商品本身的运营策略,商品部也由一个成本部门升级为利润部门。 巨舰还是得配利炮 云计算浪潮降低了硬件采购的成本,直接催生了今天中台生态的繁荣。 今日中国的中小企业可以低成本搭建自己的数据中台,有机会从源头就开始校正数据化建设方向,但是中台的盛行和业务发展的需求,必然会倒逼业务前台的升级改造。 中台战略之下,现行企业的方方面面其实都值得重构升级一遍。
2019年7月25日下午,在阿里云峰会上海站,奇点云入选阿里云首批联合解决方案合作伙伴,并联合发布了“综合体数字化转型与数据创新解决方案”,共同探索综合体的智能服务。 关于综合体的数字化转型,奇点云联合创始人兼COO刘莹在演讲中反复提及一个关键点:“构建人铺场「三位一体」生态体系”。 商业综合体本是人、货(铺)、场的有机结合,但现实中却是互相割裂,缺乏数字化切入点,B2B2C模式存在严重的管理问题,刘莹认为主要来自三个方面。 第一、对消费者的洞察犹如盲人摸象,商业综合体对消费者触达能力弱,难以获得他们在场内的行为数据。 第二、商业综合体的角色好比“二房东”,没有直接参与货品的销售,顾客运营。商品管理掌握在品牌商手中,对消费数据的获取缺乏有效手段,对品牌店铺的管控力很弱。 第三、广告投放误打误撞,延用传统广告粗放型营销,顾客转化率低,且无法进行跟踪。 面对“外部竞争激烈,内部管理粗放“的现状,商业综合体的管理实际是两眼一抹黑,内心很焦虑。 商业综合体,出路在哪里? 此次首次亮相的“综合体数字化转型与数据创新解决方案”中,给出了答案。 刘莹在演讲中告知,首先综合体自身要觉醒,角色上要从单纯的收租,转变成精细化运营服务者。其次,人铺场「三位一体」数字化全面协作,全链路的进行数字化技术升级,并在数据生产、数据互通、数据反哺的关键环节实现突破,从而寻求综合体的新价值点,开辟与新价值所匹配的创新盈利模式。 数据战略源头在于数据生产 据国家公布的相关数据显示,虽然线上消费行为越来越多,但是总体消费中所占的比例仍不足20%,而线下大数据每年平均能够占到88%左右的份额。 但线下实体经济和数字经济之间,差了一层数据的基础。对于线下商业而言,数据的生产是核心,尤其是人的数据。 出于对数据的生产和应用思考,奇点云研发了奇点魔镜、奇点识客、魔镜小票机等为矩阵的智能终端,其互动娱乐性为线下购物中心的场景营销开辟了新的思路。目前在亲橙里、正佳广场、银泰百货、恒隆广场等全国各地的综合体可见使用。除其娱乐性之外,智能终端尽可能的引导消费者互动并生产数据,及采集场内全域数据,这其中包括主动和被动采集两种模式的结合。 以某大型综合体客户使用奇点识客为例: 通过奇点识客—线下人脸采集&智能分析系统,Face ID结合Re-ID技术进行数据采集,实现到场客流统计、人流动线、热力分布、停留时长等。借助数据中台处理能力,利用会员的消费数据+行为数据,精准会员贴标、实现AI促销引擎推荐,最终达到会员“一对一”的营销目的,实现购物中心的价值转换。 以峰会现场全新亮相的魔镜小票机为例: 将消费后积分变为强触点,引导消费者自助通过魔镜小票机积分和兑换。通过人脸识别、OCR识别等技术,为商业综合体采集会员Face ID、性别、年龄及消费明细,结合AI娱乐互动,为场内各品牌、业态引流,实现二次营销。 数据的存通用,通很重要 商业综合体的商家由每一个独立的品牌构成,品牌之间无法实现信息交互、积分共享,这对于综合体来说,大数据运用打破壁垒是关键,所以迫切需要构建大数据平台,助力提升购物中心精细化运营能力。 借助阿里云大数据平台,统一汇集线下+线上数据,将以往碎片化的会员数据如:交易、年龄、性别、喜好等集中管控,基于One-ID体系建模分析,构建每一个会员精准画像,实现精准营销。 数据智能应用最终反哺消费者 数据智能究其本质还是综合体在运营过程中的不断演进,提升服务和价值。目前大数据技术的成熟使得深耕客群,挖掘附加价值变得唾手可得,可从“精准营销、智能投放、人效管理、推荐引擎、AI招商”等几个方面应用。 比如奇点云之前服务过的一个购物中心,在前期招商时,定义为青春时尚型。后来启用奇点识客系统,结合AI算法,发现消费者年龄层的数据显示多半为40~50岁。这说明实际的呈现和盲目的定义之间存在一些差异。所以,我们建议在基于消费者行为数据之上,构建消费者的流量和热力图,提供AI招商建议。 此次奇点云x阿里云的联合发布,积极探索商业综合体消费领域潜在的升级空间和巨大市场,构建共赢生态。
继《服装零售企业数字化升级要做到「心中有数」》的文章来看,服装零售企业的数字化升级转型是一个系统性的工程,他可能涉及到硬件的部署、软件的更迭、技术的升级、组织的调整、业务方式的改变等诸多方面的变化。但另一方面,由于企业现状之间的巨大差异,它似乎又是一个比较分散的流程。那么对于每个服装零售企业而言,究竟“我的”数字化升级之路应该如何开启呢? 新的变革可以来自于顶层设计的自上而下,也可能来自于底层业务自下而上。服装零售企业的数字化转型升级也无外乎此。自上而下是由面到点,自下而上是由点到面,最终都是殊途同归实现企业在组织、流程、应用、工具、技术等方面的全面升级。但哪种方式更适用,取决于每家企业各自的现状。 一般来说,如果企业的高层管理者对数字化转型升级的重要性有比较清晰的认知和战略上的高度认同,那么我们更乐于建议企业以自上而下的方式来开启企业的数字化转型之路,并且可以依照现状评估—目标定义—差距量化—团队组建—项目规划—项目实施—现状再评估的螺旋式上升路径来进行。 首先是现状评估。企业可以适当借助外部力量的方式对企业进行一次全面的数字化现状咨询诊断,用例如以奇点云SKOTT模型为指导的企业数字化转型五要素分析法,对企业在战略、KPI、组织、技术、人才等方面进行全面深度的评估,从而从宏观层面定义企业当前所处的数字化水平阶段。 我们将其定义为三个阶段:1.0阶段 数字化跟随者;2.0 数字化转型者;3.0 数字化变革者。在每一个阶段中,我们又能以数据总体架构、数据上云、数据资产化、数据智能应用等八大维度和三十多个子维度来深度评估从组织到业务的数字化现状水平,从而形成一张完整而深度的企业数字化现状地图。其中,数字化KPI的设定能力是非常深刻的维度,它的背后反映了企业对数字化现状和数字技术赋能业务经营潜力的认知。 第二步工作,就是根据业务改善目标来设定未来的数字化改善目标。这将是一个全员参与的过程,通过和所有关键干系人和组织的共同探讨,我们尽可能把所有的宏观目标都下钻和拆分到最基础的业务目标,并且以业务的提升来作为最终衡量改善是否成功的KPI。一方面这样做可以使行动目标更加清晰有力,直接和业务相关的KPI有利于项目推进中的全员参与积极性,另一方它也可以使我们筛选掉那些实质上可能不能对业务提升有所作用的“虚”目标,从而让数字化转型变得“实”。 接下来,我们需要评估现状与目标的差距。这个过程实际上是可以帮助我们定义行动优先级和重要性的过程。同时,它也考虑到各个维度之间的关联性和前提依赖,最终的产出,是一个定性的行动方向,即在下一个阶段内我们的数字化转型着重从哪些方面优先开展。 有了清楚的行动方向,我们就需要一个有力的组织来领导行动,保证行动的过程和结果。因此,一个专门的数字化转型委员会是十分有必要的。这个委员会将会对接下来一段时间内的数字化转型工作进行全面的引领和管理。这个委员会的人员除了IT和信息部门的管理者和专家,更需要各业务部门人员的参与,这是十分关键的。同时,企业高层管理者的直接参与也非常必要。 后面的工作就是持续一个阶段的数字化转型项目规划、实施交付和再评估的过程。在此我们不进行展开,但可以预见的是,随着企业数字化的深入,中台战略成为企业转型的加速器。中台强有力的作用,使得零售企业能够比消费者快半步,能更好地满足消费者需求。 然而,面对新的时代趋势,大多数的人和企业在起初都往往很难下坚定的决心去做全方面的变革和应对。相较于“因为相信所以看见”,先“看见”再“相信”确实是从心理体验上风险更低的选择(事实上,过于谨慎也可能会使得企业丧失发展机遇和相对竞争优势)。因此,IT信息部门通常作为企业数字化转型的推动者,也可以采取自下而上,由点到面的方式来引领最终的全面数字化转型。在起步阶段,让公司全员,尤其是业务部门和企业高层管理者能够“看到”数字化的力量并一步步相信就十分重要。我们在一些技术交流活动上,时常听到业务部门的人员问IT部门的人员“数据上云和我们有什么关系?或者“上数据中台需要我们做什么?”之类的问题,而很多时候IT部门人员的回答是”暂时和你们没什么关系,主要是IT的工作。”这往往不是一个好的开端。 这种情况下,好的开端应该是数字化转型的推动者和业务部门的人员共同探讨出双方认同的改善方向,并相互配合,快速开展并见效。技术方需要充分地向业务部门阐述数字化技术的能力和潜力,而业务部门则需要审视现状并大胆提出当前需要急切改善的业务方向或是“如果......就更好”的畅想,然后双方共同评估数据技术能否解决该问题。有趣的是,在现实的操作中,往往即使双方都有了些好的想法,但推进的瓶颈却卡在了“谁出钱”的问题上。在此我们很难提出一个标准的答案,因为预算所有权和技术投入归属的问题在不同的企业中都有不同的情况。但是我们可以建议的是: 第一、选取的改善点要对业务部门有足够的吸引力,要么是痛点足够痛,要么是ROI足够清晰和有吸引力。 第二、选取的改善点要尽可能具体和投入可控,这样双方无论谁都不会太有压力,甚至共同额外向公司申请一笔临时预算也是比较容易实现的。 从服务服饰零售行业的实践中,我们从管理层、商品运营、供应链管理、人力资源管理和市场营销管理几个方面沉淀出了相应的标准化产品可以供相关企业和人员参考: 智能管理驾驶舱主要面向企业的各级管理者,它可以作为企业运营管理的智能诊断器。服饰零售行业产业链条长,业务模式复杂,数据维度多,尤其是随着企业零售规模的扩大,企业面临在传统IOE IT架构下BI速度慢、数据分析成本高、BI体系分散、数据分析功能弱、数据指标混乱、数据结果不准等典型痛点,因此需要有性能更好,成本更低,更统一、更智能和更准确的企业运营管理数据监测、分析和分析可视化工具。 奇点云智能管理驾驶舱全面整合升级服饰零售企业零散BI和报表系统。全面提升数据报表速度,满足实时、准实时、T+1级需求。全面深度数据治理,统一数据管理、统一业务视角、统一数据口径。自动化、多维度、可逐层下钻的业务监测、分析和诊断平台。可灵活配置不同业务部门和管理层级的关注指标和管理权限并且满足移动端和PC端使用需求。 智能定价主要面向企业的商品管理、零售管理、和市场营销部门。在服装商品不同的生命周期阶段,商品的价格会随之变化,什么款、什么时间、什么力度、什么颗粒度、调价达到什么样的目的、调价后的目标有没有实现、调价对总体销量和利润以及其他商品的营销等等都十分值得研究,传统的决策和分析方式存在巨大的提升空间。 智能定价模型基于业界领先的多维AI混合销量预测模型和针对服饰零售行业特性打造的价格规划算法,可以有效地对促销定价问题展开分析、洞察、预测和智能建议。 智能配补调主要面向商品管理部门和供应链部门,服装零售的产品企划(配货)— 补货(补)— 平行调货(调)过程是供应链的核心环节,直接决定门店中的可售卖商品和销售业绩。但是传统的ERP商品管理系统完全依赖人工决策,耗费大量人工时间,并且严重依赖人工经验,导致调补货工作的时效性差,灵活度差,准确率低,门店断货、库存挤压、库存不均衡和波动性大时有发生。因此,更加自动化、智能化和更准确的配补调系统可以给服装零售企业带来巨大的商业价值提升。 智能配补调数据产品,充分沉淀人工企划和配货经验的配货算法模型,可基于单店精准需求预测模型的补货量计算模型。充分考虑业务规则和库存、物流等条件约束的补货策略。综合考虑商品生命周期特点,门店类型和物流路径最优的。自动算法推荐系统可以与订单业务系统无缝衔接并具有人工审核和干预机制。对现有业务流程侵入度低。 智能人效管理主要面向人力资源管理部门,财务部门和零售运营部门。服装零售门店的导购人员人力成本是零售运营成本中的重要部分,人效是反映企业员工生产力的核心指标。但是由于线下门店所处位置、环境、店铺规模、所售商品等等诸多方面的差异性,企业运营管理部门难以用人工方法和统一的衡量标准去衡量不同门店的人效发挥水平,也难以做出有针对性的精细化改善。因此,有效的人效分析管理系统对零售门店降本增效具有重大价值。 人效管理系统具有完整的服装零售门店人效深度分析方法论,可实施调研—分析—洞察—建议指导—效果追踪的完整闭环。大数据分析技术与服饰零售行业资深数据分析师经验相结合,层层下钻定位问题,提出解决思路并内化为管理应用。 智能CDP顾客数据平台主要面向市场营销部门或会员运营部门。线下服装零售企业传统的用户运营的颗粒度粗,营销手段简单粗暴,导致存在大量的无效营销投放,并且营销效果难以追踪和衡量。因此,以消费者个体为中心的个性化精准运营、服务和营销可以有效提升营销转化效果,提升顾客忠诚度,优化市场营销费用。 奇点云CDP提供灵活开放的接入与清洗方式,帮助企业IT人员将孤立分布于各系统中的用户数据以库、表的形式开放给CDP,并支持用户对特定业务域进行可视化ETL。借助我们独有的ID—MAPPING算法,企业开发人员还可对不同来源、且缺乏主键关联的顾客数据进行识别匹配,并定义统一顾客身份(One-ID)。客群圈选模块提供了简洁易用的人群与属性标签管理界面,以帮助用户业务人员根据业务需要,快速圈选所需客群。 除此之外还可提供以预置业务模型为核心的人群洞察分析功能,帮助企业用户更加精准地细分客群,从而量身定制营销策略。以大数据AI驱动的数据洞察方法往往有着更强的场景针对性与业务指导性。在实施针对细分客群的商业策略后,营销部门往往需要对其进行有效性评估与复盘。针对这一业务场景,我们纳入消费决策路径模型,智能门店IOT的引入也可进一步帮助营销部门找出导致顾客流失的环节并加以改善。 以上产品中的底层算法模型和其中的功能都可以单独拆分,从而在项目的不同阶段,根据需求和预算约束,灵活地服务于不同需求深度的企业。 另外,数字智能化对智能门店的驱动力越来越强。数据,让原本无形的消费者,变得看得见摸得着。但需要注意的是,过去几年来尽管零售业智能门店的探索此起彼伏,但真正将科技转化为持续生产力者寥寥,其中最主要的原因就是没有将IOT数据采集和业务数据、业务需求真正融合形成有效商业闭环,在此我们不深入展开探讨。值得一提的是,我们所提供的AI+IOT+大数据的智能门店整体解决方案则可以更好地贴近业务,提升消费者体验和直接赋能门店经营,提升转化率和连带率。 数字化转型升级是不可逆转的行业趋势。没有数据中台,数字化转型只能是海市蜃楼!因此搭建一个适用的、好用的、跟随未来数据智能需求不断进化的数据中台才是赢得未来的“定海神针”。最后,祝所有的服装零售企业都能够在AI和数字化的浪潮下乘风破浪,打开一片新天地。
继「数据中台技术汇」栏目推出以来,获得了不少技术极客的喜爱。作为AI驱动的数据中台创导者,深度关注核心算法技术的自研创新、融合探索,故推出全新AI算法栏目「StartDT_AI_Lab」,主要介绍算法团队所承担的角色与工作。本文先回顾这些年大数据之路,帮大家理解在奇点云发展过程中,人工智能技术是如何由业务需求孵化并成长为产品一部分的,同时为今后的分享内容做一个宏观概述。 2013年,一本《大数据》成了不少技术人案头必备的读物。它像是一盏照灯,将数字世界的完整尺度突然照亮,这时大家才意识到原来数字世界已经长如此大了。 从彼时起,大数据成了之后几年最热门的话题。随之而出的各类概念,如“DT时代”、“云计算”、 “DMP”等等,层出不穷。而其中的核心要素就是 “数据” ,数据两字似乎已成为技术界的圭臬。很多人将这次由大数据而带起的技术革新浪潮誉为“第四次工业革命”,而将数据比喻为本次工业革命的 “石油”。恍惚间,颇有 “得之则生,弗得则死”之意。随后几年,各家公司都掀起了“囤数据”运动,凡是能存入硬盘的,绝不删除。“不管现在有用没用,先存着,未来一定有用”的观念,成了各家公司CIO、CDO们的指导思想。 然而,在“囤数据”运动方兴未艾,正推着硬盘价格也一路上涨的发展进程中,却有一个声音如幽灵般飘来,并日渐响亮:数据无用!这声音来自于这一运动中“出师未捷身先死”的烈士们,他们曾是“大数据”最忠实的拥趸,却在数据价值的追寻中日趋迷茫,最终被“囤数据”、“开采数据”所带来的成本飙涨压垮。 数据有用还是无用,成了一个可以讨论的辩题。双方各执一词,谁也说服不了谁,共同在这DT时代吐出了这样一句饱含憧憬却无奈的叹息: 如果你爱他,请给他数据,因为数据为王。 如果你恨他,请给他数据,因为数据为亡。 那么数据到底有没有用呢?不妨从奇点云多年积累的数据经验视角,我们一起来认真审视一下。 如果只是裸数据本身,可能确实是用处不大,正如汽车无法通过灌注原油驱动一样。 所以从数据中提取的信息才有用是吗?也不尽然,因为提取出来的信息大都支离破碎,并无法直接洞察商业情报。那么从信息中组合分析得出的商业情报才是价值点?还不够,因为情报本身如果不能转化为决策去执行,再多的情报也无法带来收益。 那以情报为依据,通过业务经验分析判断进行决策,是否就是DT时代的智能商业呢?还不完整,因为同一业务问题,解法是多元的,决策还需有效评估与优化迭代才能补全数据回环。 现在,一幅比较完整的数据转化利用的回环已经形成,而这也是我们的使命「让商业更智能」背后的方法论。 有了这一方法论为依归,整体建设思路也就基本明晰了。目前大家在已有的文章中,已知道我们的Simba和数据中台,其在商业智能化回环中的位置如下图所示: 显然,这一产品架构并没有覆盖整条商业智能化回环。尤其,从我们的愿景出发,帮助实体商家拥有淘宝一样的数据化运营能力,其中很重要的一点是帮助实体商家把线下非数字化、非结构化的各类商业场景数字化、结构化并上云,否则商业智能化回环将无法覆盖实体商家的主要商业场景,所谓的商业效益的提升也就无从谈起了。这其中缺失的便是本文介绍的重点,也是「StartDT_AI_Lab」的主体工作。为了实现覆盖实体商家全面商业场景的完整商业智能化回环而特别研发的三大智能化引擎。其在产品架构中的位置如下: 现在简单为大家介绍一下这三大引擎。 视觉智能引擎,作为数据入口,显然是重中之重。其肩负着为数字世界开疆拓土的重任,有点石成金,化水为油之魔力。 在对其进行产品定义时,我们主要从三个必然和两个凡是对其进行了概念描述: 在战略意义层面: 达成公司愿景的必然前提。 ·将实体商家线下场景进行数字化并上线。 线下场景在数字化改造中对于实施成本,部署难度,复制性,易用性等方面要求下的必然要求。 信息革命浪潮中的必然途径。 ·拓展互联网,万物互联,全部在线。 在产品定义层面: 凡是实体商家数字化场景需要的。 凡是计算机视觉技术可以发挥比较优势的。 在产品功能定义方面: 可回溯实时多级标签策略 ·基础单元->单元属性->行业行为属性->情报摘要,例如人为一级标签,穿着衣饰为二级,是否 试穿某服装为三级,当天这件服装试穿客户的画像分析是四级; ·有业务分析需求反向要求线下数字化; 视频检索 可以回溯视频检索,例如要抽取二级标签相关的信息,只需要根据一级标签的时序、位置信息进行结构化升级和搜索即可; Vision AI + X:从行业中来的特异性视觉模型 比如“双偷模型”这样的特异模型; 而关于商业洞察引擎和业务决策引擎,在之前的中台栏目中已做过相关介绍,在此不再赘述,只做一点补充。在两个引擎中广泛使用的大数据分析和预测模型得益于视觉智能引擎提供的线下场景数字化后的结构数据,形成了一系列紧贴实体商家实际商业逻辑和经验的特有的大数据模型。 从今日起,本栏目将围绕这三大引擎,自下而上逐一介绍其建构中用到的各类型算法技术和背后的故事,敬请期待!
移动生产力和传统企业困境 纵观历次生产力革命,都是从生产者的技术革新开始,最后波及到消费者。几次工业革命中,能源和制造工艺的升级极大地提高了生产效率,并且创造了大量的新工种,最终提升了消费者的生活质量,促进一轮又一轮的消费升级。最近的信息技术革命,互联网最先使用在国外的大型工业产业,之后普及到社会生活中,才带来了无数次的生产力提升的机会和挑战。 然而,移动互联网生产力的产生和发展却不同,它产生于消费端而不是生产端。移动互联网生产力带来了两个核心能力: 分布式,去中心化 缩短信息传播路径 在消费端,移动互联网连接起海量的消费实体,通过一种自发的组织方式,实现了去中心化。消除了之前的生产力单点瓶颈,使得消费规模呈指数级增长。分布式的组织形式同时提供了消息传递的极短路径,使得销售活动可以非常高效地组织起来,同时增加了消费链路的透明化,推动消费力极大提升。 受互联网发展的影响,消费端的需求逐渐提升,给生产端带来越来越大的产能压力。生产端产能升级迫切需要,生产力的再平衡如箭在弦上,不得不发。如何利用移动互联网的技术优势和越来越丰富的人工智能算法能力,在生产端发力,提升生产效率,成为了一个越来越重要的命题。同时生产关系随着消费者和生产者的效率升级,也需要重构,而线下的很多传统企业多年打造的复杂系统,面临着巨大的挑战。 基于这个命题,奇点云提供了数据化智能解决方案。在很多行业不断打磨、沉淀,深度尝试移动互联网技术和AI算法,形成了前沿的创新型算法模型,大幅度提升线下生产力效能,重构生产关系。新的商业模式,一切为了效率。 数据质量这么差,企业如何数字化升级? 在过去的10年,移动生产力通过对人货场的信息流改造,极大地提高了线上消费场景的效率。但是线下,却看不到信息流全面覆盖。大量的传统行业还是停留在原始的人工运营为主的情况,少数建立了孤立信息系统。在大数据时代,传统企业,仍然摆脱不了缺乏数据的魔咒。这种数据的欠缺主要表现在两个方面: 1.线下运营和管理的数据存在独立的MIS系统中,且深度耦合业务,数据孤岛很难打通。2.线下的用户行为单一,目前还没有完善的收集跟踪用户在线下交易的完整行为链路,对于用户的偏好和厌恶很有具有说服力的数据来支撑。 基于这样单薄稀疏的数据,在人货场的任何场景都很难有大幅度的效率提升,只能自动化最基础的工作,和线上的智能化、数据化相去甚远。 针对这些问题,奇点云的数据中台服务通过整合数据孤岛,并结合行业知识,设计行业数据模型,打通不同部门的数据,同时也打通了不同部门的业务。结合我们的能力,企业就可以完全实现:从无数据,到能自主地生产数据。生产是动态的、源源不断的,这也是企业未来数字化转型的数据基础之一。 但是,线下用户稀疏而单一的行为数据,仍然是目前AI落地传统行业的重大障碍。 为了解决数据的问题,主要有两个方向,丰富线下的端和提高一方数据的利用效率: 1.我们开发的智能魔柜、魔镜、识客系统是很好的用户线下行为的采集终端。同时,随AI时代来临带来的更强大的算法模型,被用来更加高效的处理线下稀疏的数据。 2.企业的一方数据主要是销售数据和会员数据等。这些原始数据维度单一、低周转的商品还存在稀疏的问题。经过在大量项目的实践,针对这两个问题我们总结了可靠的方法论: (1)维度单一:我们可以通过增加模型对相关联特征的衍生挖掘,补充更多维度的特征; (2)数据稀疏:我们可以通过解耦和建立子模型的方式,通过简单模型融合、跨任务融合的方式,提高模型效果。并结合深度神经网络的结构化数据挖掘优势,线下数据的诸多问题都被弱化,甚至基本解决。 实战打磨,AI助力企业智能升级 目前我们积累了大量的实践项目,帮助传统企业更好地使用自己数据,挖掘线下数据的价值。销售数据是线下用户行为的最主要来源,但类比线上的数据:点击、购买、收藏、加购,显得单一且稀疏。而且线下数据缺乏负样本的支持,使得传统的监督学习在使用到线下数据场景上尤为困难。奇点云大数据算法团队目前有两把尖刀,在真实的线下数据场景中取得了不错的效果。 无监督画像:通过建立经验概率模型,结合行业中实体关系,建模实体概率模型并求解。从POS单中挖掘了人-货-场多个维度的画像。通过聚类分析和人工解释,洞察出了各个维度画像之间隐藏的可解释关系。一方面,可以提供商家更加丰富灵活的运营手段;另一方面,可以作为特征加入模型,解决稀疏数据的泛化性问题,在智能调补货、智能排班、智能定价模型中,对于需求预测的准确率提高效果显著。 需求预测和分析:线下场景的一个重要应用就是用户需求预测,需求预测可以提升供应链效率、提升企业内管理效率、提升运营质量。基于数据中台的需求预测可以辅助企业的决策层做出更加合理的经营决策。所以,需求预测的准确性非常重要,国外制造业的领先公司,都对需求预测投入了大量成本,1%的需求预测准确率提升,会带来10%-20%的净利润提升。 奇点云算法团队通过对不同行业销售数据的深入分析,研究了时间序列、boosting、深度模型等多种方法,全面对比了不同方法在不同场景下的效果。发现其实销售数据只是表象,根本的是背后的业务逻辑,不同销售属性的产品,其数据的分布有巨大区别,数据之间的勾稽关系更是天壤之别,适用的算法也决然不同。我们从“分”到“合”提出了解决方案: 1.从“分”的角度,我们结合行业的不同情况,对需求预测问题分解,针对同一个行业中不同的行为,对需求预测再次分解。 2.从“合”的角度,我们合并行业间的通用问题,合并问题间的通用解决方案。形成了零售、鞋服、综合体等多个领域的需求预测解决方案。 需求预测不是一个简单的预测问题,还涉及到业务交互和理解。奇点云需求预测平台:支持业务可理解的需求解耦、需求重塑。提供给运营人员和企业高层对业务更加深入的洞察角度,和制定经营计划的精准打击武器。 商业战场,瞬息万变,我们的算法工具,不能呼风唤雨,却可以预测未来。成败之间,细节为王。借助数据中台、数据分析、移动互联网算法技术,奇点云算法平台希望能成为企业的核心王牌,帮助侧重线下场景的企业能笑到最后。
人工智能正在驱动新一轮的商业变革,而算法技术则是推动核心底层技术的重要力量。算法崛起时代,技术浪潮可谓一日千里,算法工程师也只有不断精进自身技术,才能与时俱进、驭浪前行。近日,奇点云算法工程师三角肌在目标检测算法领域又有新突破。 摘要 卷积神经网络对目标检测的精度有着显著的提升,并且随着卷积神经网络的深度加深,对目标检测精度提升也越大,但是也需要更多的浮点计算。许多研究者通过知识蒸馏的方法,通过把一个更深更大的教师网络中的知识转移到一个小的学生网络中,以提高学生网络在目标检测中的效果。而大部分知识蒸馏的方法都需要设计复杂的代价函数,并且多数针对两步目标检测算法,本文针对一步目标检测算法提出一个干净有效的知识蒸馏方案。将教师网络生成的特征层作为真实样本,学生网络生成的特征层做为假样本,并对两者做生成对抗训练,以提高学生网络在一步目标检测中的表现。 1 Introduction 近些年来,随着目标检测算法的发展,研究者们发现利用更深更大的卷积神经网络作为骨架,对目标检测算法的精度提升越大。并且随着目标检测算法的检测精度提升,使视觉检测算法逐渐从非关键性领域,走向关键性领域(比如无人驾驶和医疗等领域)。但是为了保证检测精度,不得不使用更大的卷积神经网络作为骨架,造成检测速度下降,计算设备成本增加。因此许多研究者在确保检测精度的前提下,提高检测速度提出了很多方法和总结,如通过深度分离卷积 [1,2],或者通过点群卷积(pointwise group convolution)和通道混洗(channel shuffle)[3, 4] 来降低卷积神经网络浮点运算次数的方法,在保证骨架网络精度和容量的情况下减少计算量。虽然获得可观的提速效果,但是这些方法需要精心设计和调整骨架网络。很多研究者认为更深的骨架网络虽然有着更大的网络容量,因此在图像分类、目标检测等任务上有着更优秀的表现。但是一些特定的任务并不需要这么大的容量,所以在保证卷积神经网络精度的情况和下,对卷积神经网络做压缩、量化、通道减枝等[5, 6, 7, 8, 9]。 另一方面,有关于知识蒸馏的工作表明[10, 11, 12, 13],使用一个更深更大的模型,并且在充分训练完毕后作为teacher net,然后再选取一个比较浅的模型作为student net,最后使用teacher net输出的结果或者中间结果作为soft label结合真实样本的true label同时训练student net,可以极大的提升student net在特定任务上的表现。但是大部分这些方法都需要设计非常复杂的代价函数和训练方式,并且这些方法多用于图像分类和两步目标检测等,极少用于一步目标检测。因此,我们需要一个更加简单而有效,并且可以适用于一步目标检测的知识蒸馏方式。本文提出一种简单而有效知识蒸馏神经网络架构,并且可以明显的提升student net在一步目标检测网络的表现。和常规的知识蒸馏方式不同的是,我们参考对抗生成的神经网络架构[14],将重型目标检测神经网络和轻型目标检测神经网络的骨架分别拆分出来作为teacher net和student net,然后把teacher net 生成的feature map作为真实样本,而student net则作为生成器,并把student net生成的feature map作为假样本,最后根据真实样本和假样本设计一个神经网络作为判别器,做生成对抗训练。 我们的贡献主要有两点: 1 提出一种不需要设计复杂的代价函数的网络架构,并且可以适用于一步目标检测。 2 利用对抗生成网络架构,避免复杂的知识迁移设计,让student net自动的从teacher net中获取暗知识。 2 Related Works 深度学习目标检测算法架构主要分为两种,一种是一步检测,比如Liu W等人提出的SSD[15],直接通过通过卷积神经网络回归出物体的位置和类别,另一种是二步检测,如girshick等人提出的fast rcnn[16],以及后来Faster-RCNN [17] and R-FCN [18]等,首先通过卷积神经网络回归候选框,最后根据候选框再次识别每个候选框的类别,并回归出正确的位置。 网络裁剪,许多研究者认为深度神经网络被过度参数化,并且有很多冗余的神经元和连接,He Y等人认为[8],cnn每层神经元都是稀疏的,利用lasso regression回归找出cnn每层最有代表性的神经元重构该层的输出。Zhuang Z等人[9]认为layer-by-layer进行通道剪枝会影响cnn的鉴别能力,所以通过在fine-tune和剪枝阶段加入辅助loss,来保留cnn每层的鉴别能力。 网络量化, Wu J等人[20]通过k-means聚类算法加速和压缩模型的卷积层和全连接层,通过减小每层输出响应的估计误差可实现更好的量化结果,并提出一种有效的训练方案抑制量化后的多层累积误差 。Jacob B[21]等人提出将weights和inputs量化为uint8 bias量化为unit32同时训练期间前向时候采用量化,反向修正误差不量化,以确保cnn表现的情况下提高inference速度。 知识蒸馏是一种压缩模型并确保准确的一种方法。hinton 等人提出[2]将teacher net输出的结果作为soft label,并提倡使用温度交叉熵而不是L2损失。romero 等人[19]认为需要更多的unlabeled data让student net去mimic才能使student net经可能的接近teacher net,Chen G[12]等人在优化2步目标检测网络分别将teacher net的中间feature map 以及rpn/rcnn的暗知识提取出来让student net去mimic。其他研究者也有将teacher net的attention信息给student网络,如Zagoruyko S[22]等人提出spatial-attention,将teacher net的热力信息传递给student net。Yim J等人[23]将teacher net层与层之间的关系作为student网络mimic的目标。但是他们设计的的知识蒸馏都是要设计非常复杂的loss function,和复杂的暗知识的提取方式,并且这些方法多是在两步目标检测算法中很少用于一步目标检测中。为了能用一个简单有效的知识蒸馏的方式,我们参考生成对抗网络的架构方式[14]将教师网络生成的特征层作为真实样本,学生网络生成的特征层做为假样本,并对两者做生成对抗训练,以提高学生网络在一步目标检测中的表现。 3 Method 在本文中,我们采用一步目标检测算法SSD[15]作为我们的目标检测算法,SSD目标检测算法结构主要分成两部分,1)骨架网络,作为特征提取器。2)Head,在骨架网络提取的特征上,检测出目标的类别和位置。为了能获取更好的知识蒸馏效果,合理利用这个两个部分至关重要。 3.1 Overall Structure fig 1为我们算法模型的整体结构,我们首先使用一个容量更大的SSD模型,在充分训练后将该SSD模型拆分成骨架网络和SSD-Head,其中骨架网络作为teacher net,然后再挑选一个容量较小的CNN作为student net。我们把teacher net生成的多个feature map作为true sample,而student net生成的多个feature map作为fake sample,并且将true sample和fake sample送入D Net中相对应的每个判别网络(fig 2)中,同时把fake sample输入到SSD-Head中。 3.2 Training Process (1) 公式1中的N代表batchsize的大小,D代表判别网络,Teacher和Student分别代表teacher net和student net, θt、θs、θd分别代表teacher net、student net 和D Net模块中每个判别网络的weights。Lconf表示SSD中分类的损失函数,Lloc表示SSD中边界框的损失函数。 4 Experiment 在本章节,我们将在PASCAL VOC中做实验来验证我们的方法,包含20个类别。并且我们的方法训练的硬件为two NVIDIA GTX 1080Ti GPUs。训练所用的软件框架为gluoncv。 4.1 Training and testing data 由于时间的关系,我们训练使用的数据集Pascal Voc 2012trainval和Pascal Voc 2007 trainval sets,测试数据集为Pascal Voc 2007 test sets。该数据集包含检测物体的类别和位置信息。评估标准按照Pascal Voc竞赛所约定的,通过iou=0.5时的mAP来评估模型检测精度。而coco数据集上,使用coco 2017 trainset作为训练集,coco 2017 test作为测试集。 4.2 Results 我们将原生的SSD和在不同的Teacher net下知识蒸馏的SSD做比较,最高可以提升student net 2.8mAP。不过有趣的是,当teacher net为ResNet101,student net为ResNet18时,提升的效果反而不如ResNet50。而在coco上使用resnet50作为teacher net,moblinet作为student net,提升Moblient-SSD 4个mAP。 Table 1. Different student nets are not used GAN-knowledge distillation and the use of a GAN-knowledge distillation in different teacher net test results. 目前已经将该方法使用在faster rcnn上,考虑到时间,目前仅仅在pascal voc 2007上进行测试,coco正在训练。 Table 2. moblienetv1 use GAN-knowledge distillation in coco. Table 3. Teacher net为骨架网络为ResNet101的faster rcnn,且使用Pascal Voc 2007 trainval作为训练集,在Pascal Voc 2007 test测试集上mAP为74.8+。第一行和第二行使用GAN Knowledge Distillation[1]方法,第三行为cvpr2019的 Distilling Object Detectors with Fine-grained Feature Imitation[2]的方法效果。
你是否有过这样的念头:如果能立刻马上看到我想要的数据,我就能更好地决策? 市场变化越来越快,企业对于数据及时性的需求,也越来越大,另一方面,当下数据容量呈几何倍暴增,数据的价值在其产生之后,也将随着时间的流逝,逐渐降低。 因此,我们最好在事件发生之后,迅速对其进行有效处理,实时,快速地处理新产生的数据,帮助企业快速地进行异常管理和有效决策,而不是待数据存储在一起之后,再进行批量处理。 一:sparkStreaming+hbase整合应用,助力企业实时运营监控 对于不作更新的数据,可以通过datax将数据从业务系统数据库同步到hive中,进行离线计算;但对于有大量更新的数据,就不能采用以上的做法了,因为hive不能很好的支持实时更新操作。我们的做法是使用sparkStreaming+HBase做数据存储与去重,然后以封装的HBase工具类为支撑,进行数据的实时监控。 实现原理: Apache Spark是专为大规模数据处理而设计的分布式内存计算引擎,特点是灵活快速。 HBase是一个分布式的、面向列的开源数据库,适用于海量数据的存储与实时写入。HBase工具类是奇点云大数据团队针对Spark与HBase自研的高性能HBase读写工具,它是在HBase官方API基础上依据奇点云特有的需求场景进行了二次开发,内部提供了诸多与Spark紧密结合的API,它的诞生极大地提高了Spark对Hbase的读写速度。经测试,比Spark原生的HBase API性能提高3倍以上,平均开发效率提升10倍以上。正因为HBase工具类的诞生,才促进了Spark与HBase在奇点云的大规模应用。 整体架构: 通过mysql的Canal(canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费)将数据实时投递到kafka中,交由Spark Streaming分批实时消费处理,经过数据清洗、处理与转换,使用HBase工具类将数据逐批写入到HBase中,完成数据的实时同步与更新。 应用场景: Spark与HBase广泛应用于实时数据写入、统计抽取、历史数据归档、海量数据的实时判断等方面。 ·实时数据写入 Spark作为分布式实时计算的佼佼者,擅长海量数据的实时计算。我们通过Spark Streaming将消费到的含有大量更新操作的数据进行清洗、分析与计算,最终以事先设计好的规则实时写入到HBase中,HBase会自动维护重复的数据(rowKey设计原则)。 ·海量数据实时判断 在某些场景下,我们需要对历史(一个月以前)的数据进行实时的判断、对比与更新。由于数据量大,且实时性较高,redis或传统的关系型数据库并不能很好的满足要求。对于这种需求,我们对Spark Streaming程序架构进行了梳理,并对HBase相关的API进行了二次开发,最终满足了以上的需求。 某大型商业综合体客户案例 客户背景: 客户为国内某核心商业综合体公司,主营城市核心商业购物中心,对于大型商业购物中心而言,如何实时采集当前进出客流人数、行走动线及热力轨迹、实现数据拉通能力是大型商业购物中心进行业务数字化运营,用户洞察与体验优化的基础。 奇点云的解决方案帮助客户实现了: 1: 实时数据从无到有 (原来并不具备实时数据采集能力) 2: t+0实时数据采集 (原来仅具有少量离线数据的T+1以上的事后追溯分析能力) 3: 实时客流监控 (今日客流人数,当前在场人数,今日到场次数,平均逗留时长,店铺客流热度,顾客性别与年龄占比,商场黑名单实时预警,客流热力分析,客流动线分析……) 4: 经过实时处理,获得有价值的信息帮助商场快速的做出决策能力 (从滞后的经验型追溯分析,到基于现场监控数据的实时运营决策) 二:sparkStreaming+kudu+impala整合应用,助力企业实时多维分析 在Kudu出现之前,Hadoop生态环境中的储存主要依赖HDFS和HBase, 追求高吞吐批处理的用例中使用HDFS,追求低延时随机读取用例下用HBase,而Kudu正好能兼顾这两者: •Kudu的设计使它与众不同: • 快速处理OLAP(Online Analytical Processing)任务; • 集成MapReduce、Spark和其他Hadoop环境组件; • 与Impala高度集成,使得这成为一种高效访问交互HDFS的方法; • 在执行同时连续随机访问时表现优异; • 高可用性,tablet server和master利用Raft Consensus算法保证节点的可用。 •常见的应用场景: • 刚刚到达的数据就马上要被终端用户使用访问到; • 同时支持在大量历史数据中做访问查询和某些特定实体中需要非常快响应的颗粒查询; • 基于历史数据使用预测模型来做实时的决定和刷新; • 要求几乎实时的流输入处理。 整体架构: 将数据实时投递到kafka中,交由Spark Streaming分批实时消费处理,经过数据清洗、处理与转换,使用kudu工具类将数据逐批写入到kudu中,完成数据的实时同步与更新。 某服饰客户案例 客户背景: 客户为国内某大型服饰品牌,以直营为主,数据情况较好,每天的业务订单量及多张维表数据量不断攀升, 原来的oracle数据库已支持不起庞大业务数据的多条件实时查询,在奇点云介入服务后,企业迫不及待提出了多维度即席查询的需求。 奇点云的解决方案帮助客户实现了: 1: 实时数据从oracle切换到kudu ; 2: t+0实时数据采集 (从原来的T+1的离线计算到现在的实时计算); 3: 实时订单多维分析 (从原来的多张表关联及30个条件多维度查询,查询不出来到现在的1分钟内出结果); 4: 经过实时分析 (多维度即席查询),获得有价值的信息帮助领导层快速的做出决策力。 流计算秉承一个基本理念,当事件出现时就应该立即进行处理,而不是缓存起来进行批量处理。不同于现有的离线计算, 流计算全链路整体上更加强调数据的实时性 ,包括数据实时采集、数据实时计算、数据实时集成。
随着移动互联网、云计算、物联网和大数据技术的广泛应用,现代社会已经迈入全新的大数据时代。数据的爆炸式增长以及价值的扩大化,将对企业未来的发展产生深远的影响,数据将成为企业的核心资产。如何处理大数据,挖掘大数据的价值,让大数据为企业的发展保驾护航,将是未来信息技术发展道路上关注的重点。 传统的数据处理方式通常是将数据导入至专门的数据分析工具中,这样会面临两个问题:1、如果源数据非常大时,往往数据的移动就要花费较长时间。2、传统的数据处理工具往往是单机模型,面对海量数据时,数据处理的时间也是一个很大的问题。通常我们对数据的实时性要求并没有那么高,但是对数据能不能及时产出却是有强烈要求的。 因此产生了一系列的基于大数据技术的计算引擎,来满足日渐增长的数据量以及复杂的业务场景。下面主要介绍下DataSimba支持的一些计算引擎以及DataSimba是如何选择相应的计算引擎去解决不同的业务场景。 计 算 引 擎 计算引擎最主要的应用场景就是传统的ETL过程,如电信领域的KPI、KQI的计算。单据经过探针采集上来后,按照一定的规则转换成原始单据,根据业务需求,按周期(分钟、小时、天)等粒度计算成业务单据。以前的这一过程通常使用数据库来计算,但是随着数据量越来越多,传统的数据库技术遇到了瓶颈,就出现了分布式的计算引擎技术。 一般来说目前的计算引擎大致分为两大类:基于磁盘的计算技术、基于内存的计算技术。基于磁盘的典型代表是Hive,基于内存的代表为Spark。还有其它的例如Impala、Presto、Druid、Kylin等计算引擎,都是大数据在不同应用场景下解决不同的问题而产生的。 DataSimba数据中台采用了多种计算引擎以适应各种应用场景的需要,并且专门为数据开发定制了数据开发平台,降低开发难度,使数据开发、分析师可以很方便的根据不同的场景使用与之对应的计算引擎。总体架构图如下所示: 磁盘计算 就目前来说,基于磁盘的计算引擎仍然是大数据处理过程中很重要的一种,其主要特点是稳定、分布式、多副本、可处理的数据量非常庞大。基于此,通常大数据的数仓会采取此种计算引擎,而这种计算引擎的典型代表就是Hive。 Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL简称Hive SQL,使不熟悉MapReduce的用户很方便的利用SQL语言查询、汇总、分析数据。而MapReduce开发人员可以把自己写的Mapper 和Reducer 作为插件来支持Hive做更复杂的数据分析。 Hive是构建DataSimba数据中台过程中非常重要的一种计算引擎,它能帮助用户快速的搭建数仓模型、ETL数据清洗、数据开发调式等,目前已经在多个项目中得到了实施验证。 内存计算 由于Hive计算框架是基于磁盘的,因此势必会涉及到频繁的读写磁盘,导致Hive计算框架的计算速度很慢,不适用于实时性要求相对高一点的场景。如今内存容量的增加和成本的降低,促进了基于内存的计算框架的出现,让离线计算在性能上有了极大的提升。 Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的场合。需要反复操作的次数越多,需要读取的数据量越大,性能提升就越大;同时也非常的适合数据量不是特别大,但是要求实时统计分析的场景。 RDD是Spark的最基本抽象,是对分布式内存的抽象使用,以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的内容,它表示了已被分区、不可变的、能够被并行操作的数据集,不同的数据集格式对应不同的RDD实现。RDD必须是可以序列化的。RDD可以缓存到内存中,每次对RDD数据集的操作结果都可以存放到内存中,下一个操作可以直接从内存中获取数据,省略了大量的磁盘I/O操作,大大的提高了离线计算的速度。 DataSimba数据中台采取了Hive和Spark互补的双批处理引擎,针对不同的应用场景采取不同的引擎。例如我们在项目上采用了Hive去搭建数仓模型,用Spark去做一些准实时场景的离线开发。 即席查询 在数据仓库领域有一个概念叫Adhoc Query,中文也叫“即席查询”。即席查询是指用户在使用系统时,根据自己当时的需求定义的查询,一般的应用场景为实时数据分析、在线查询等。因为是查询应用,所以通常具有几个特点:延时低、查询条件复杂、查询范围大、返回结果小、并发要求高、需要SQL化。 传统上,常常使用关系型数据库来承担Adhoc Query的职责,但是随着数据量的日益变大,数据库已经无法承受这样的压力,基于内存模型的分布式查询引擎成为了必然的选择。 DataSimba采用了Impala作为即席查询引擎,它提供SQL语义,能查询存储在Hdfs中的PB级大数据,并且计算的时候不需要把中间结果写入磁盘,省掉了大量的I/O开销,完全抛弃了批处理这个不太适合做SQL查询的范式,借鉴了MPP并行数据库的思想,从而省掉不必要的shuffle、sort等开销,大大的提高了查询速度。 多维度分析 在数据仓库里面有两种联机查询:联机事务查询OLTP和联机分析查询OLAP。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,需要对各种维度和度量进行上卷、下钻、切片和切块分析,侧重决策支持,并且提供直观易懂的查询结果。随着目前数据规模的急剧膨胀,从传统的单表千万级到现在的单表百亿、万亿级,维度也从传统的几十维到现在的一些互联网企业可能存在的万维,而且因为交互对象是人,如此大的数据量查询响应延迟要求仍为秒级,OLTP正在逐步的被OALP所替换。 DataSimba底层使用了Druid作为OLAP查询引擎。Druid主要运用了四大关键技术来解决大规模数据量的实时查询:预聚合、列式存储、字段编码、位图索引。首先通过数据的预聚合,可以减少大量不必要数据的存储以及避免查询时很多不必要的计算;并且因为OLAP的分析场景大多只关心某个列或者某几个列的指标计算,列式存储可以很好的满足这个场景;最后在列式存储的基础之上,再加上字段编码,能够有效的提升数据的压缩率,然后位图索引让很多查询最终直接转化成计算机层面的位计算,提升查询效率。 目前市场上开源的计算引擎很多,如何选择适合业务场景的计算引擎,是一个比较令人头疼的问题。DataSimba后续会在统一引擎方面投入一定的资源去做研究,屏蔽计算引擎底层、降低用户使用门槛,无需再去学习各引擎使用方法和优缺点,无需手动选择执行引擎、通过SQL画像智能选取合适的计算引擎、收集SQL执行数据,通过决策树,Logistic回归,SVM等分类算法实现引擎的智能路由。
5月23-24日,亚太地区最具商业价值的B2B交流平台,Smart Retail 2019智慧零售数字化转型峰会在上海召开。会议聚焦如何帮助零售商和品牌商通过数字化革命驱动销售收入、ROI增长以及消费者体验提升,超过300位来自大中小型零售商和品牌商的高层代表出席。 本次会议,奇点云创始人兼CEO张金银(行在)带来关于“企业中台战略”的演讲。从阿里大数据的进化之路,聚焦如何构建新时代下的中台技术架构,以奇点云服务的实战案例,探讨中台在企业服务的应用。 (行在Smart Retail演讲现场 ) 以下是演讲全文: 各位现场的嘉宾上午好! 我是曾在阿里扎根12年的老技术人,04年以“数据仓库专家”的身份加入阿里,16年从阿里出来创立了奇点云。12年实际上是一个很长的职业生涯,我做的技术都是和人工智能、大数据相关。总结起来,我也就做了三件“重要”的事。为什么要定义为重要?因为这侧面可以看到阿里巴巴大数据的发展路径。 「第一件事,负责搭建阿里巴巴的第一个数据仓库。」 最早以前没有数据中台的概念,只有数仓的概念。04年淘宝刚成立,当时淘宝网站这样的业务系统是偏后台的,数据这块偏弱,因为没有成熟的数仓,没有成熟的大数据平台,阿里的同事熬了一个通宵从前端的业务系统里把马总想要的数据抽出来写成一个脚本,然后放到业务的数据库里,这个过程是十分煎熬和耗时。其实For业务系统的和For分析系统的是两回事。因为他的底层设计的架构不太一样,一个要保证高并发 一个要保证跑批的效率 ,于是04年的时候负责搭建阿里巴巴的第一个数据仓库,那时候就让阿里前台业务系统和后台数据系统分开,这样在跑报表的时候,不会影响淘宝网站、聚划算、天猫等业务系统的稳定性。 「第二件事,做了TCIF(淘宝消费者信息库)。」 这是一件很重要的事情,就是把阿里所有的消费者信息整合打通,现在TCIF是整个阿里巴巴数据应用的基础设施,例如广告、推荐、个性化,这些都是基于TCIF之上做的。 阿里从最早以前的单个业务发展到200多个BU ,每个BU就是一个子公司, 例如淘宝、天猫都叫一个BU ,阿里最早B2B,后来2C ,每个BU都有消费者的一些相关信息,以前各个BU都是烟囱式的建设,消费者的信息是不通的,后来我们就起个很大的项目就是TCIF,200多个BU的消费者信息能够打通、沉淀、融合在一起。 由于各个BU各自为战,而业务当时需要把这些分散的人的数据集中起来,进行人群画像。比如说数据的标签化,背后就有投入产出比的考量:通过标签,广告主可以非常方便快捷地去建立自己的人群包,实现精准营销,同时投放的ROI也是可见的、透明的,广告主可以自己去评估数据资产的使用情况。道理很明白,人群画像越清晰,服务就会越精准。 再说我们是怎么做的。 ·首先,定义埋点规范,同一个人就用同一个标识,ID打通,也就是所谓的One ID; ·其次,还会碰上一家人使用一个登录帐号的问题,那么就需要建立同人的数据模型,通过一些方式,比如,IP网段是不是一样,来分辨出具体的那个人,建立AID(Alibaba ID); ·再次,每个人还有各种网络行为,要如何把这些行为结构化,装到各种框架里面?这个特别难,我们当时主要是跟人类学家合作,一起把行为的分类树做出来。这个分类树非常细,甚至能够把一个人的发质都结构化了。接下来,就需要通过算法模型,把所有的标签都贴回到人上面。 ·最后,比如阿里妈妈的达摩盘就会把这些标签提供给广告主,让广告主能够通过标签去建立人群画像,进行人群细分,以及建立投放用的人群包。 「第三个事,在阿里云数加内部创业,负责基础平台的外化。」 这也算是一次创业,只不过是在阿里内部,将阿里整个大数据平台做了个外化,让阿里的客户也能很好使用。 2009年对阿里巴巴是一个很重要的时刻,因为确认了一个重大的愿景:未来,阿里这家公司是一个数据公司,也就是现在的阿里云。但当时马总召集大家开会宣布时,我们听的都很懵逼,因为觉得我们的电商业务如日中天,为什么是一家数据公司? 好在阿里执行力特别强,虽然不懂也会去执行,所以在09年成立了阿里云。 2015年数加创业小组在云栖小镇成立,因为淘宝商城和淘宝完全独立,除了会员数据之外,所有的系统都是独立的,包括商品、交易、积分、商品管理甚至还有论坛全部是独立的两套体系。在淘宝上注册一个账号,在淘宝商城上还需另外注册一个,面对消费者的体验很不友好。后来起了个叫五彩石的项目,五彩石的项目最重要的就是解决两个问题,把烟囱式的建设变成平台式的建设,统一由一个平台部门来建,然后大家连到上面就可以,一个能够支持前面的会员用一个账号去登录,另一个更重要的就是把会员的信息打通,还有一个最关键的就是让前面的业务创新,变得更加容易。 2014年到2015年,因为有两套技术体系并立,所以阿里内部做了一个决定就是将整个技术体系进行统一,所以启动了“登月”计划。现在MaxCompute开始对内支撑所有的业务,并且也开始对外提供服务。多集群扩展到超过万台,并且开始全球化的部署。 经历了阿里巴巴的大数据之路后,2016年底离职阿里,当时大数据和AI领域有很有大的机会,在云计算和大数据领域拥有非常深厚的技术积淀和实战积累,这么好的机会应该出来创业,毕竟没有创过业的人生是不完整的,所以就自己出来创立了奇点云,进入到自己大数据生涯的第三个阶段。 考察了很多实体经济后,我们认为在线下做大数据和AI,除了做“云”还必须做“端”,主要是想先解决“数据有无”,再解决“数据使用更优”的问题。所以头一年我们研发了很多智能端,弥补线下数据采集的空白。采用了视觉计算获取线下人货场数据,而且我认为,未来90%的数据都来自于视图声(视频、图像、声音)的非结构化数据,这些数据需要视觉计算技术、图像解析的引擎+视频解析的引擎+音频解析的引擎来转换成结构化数据。而奇点云的视觉算法,可通过智能终端自动化采集数据,并用视图声解析引擎将这些非结构化数据转换成高价值的结构化数据,让数据更全面。所以,所有视觉计算的AI公司都应该是大数据公司。 现在市场上号称做数据中台的服务商都只是给客户提供一个工具平台,但是并不能真正解决客户的痛点。我们坚信未来DT架构,就应该是两云一端。最底层包含人脸识别、智能IOT、互联网技术等,基于这些技术之上,支持客户去建设他的业务中台和数据中台,这样的话就能够让前面这一个“端”跑得更快。那这个端可以是任何一个可以和用户发生连接的触点,比如小程序、APP、 网站、门店pos、或者一个呼叫中心、甚至是每一个你面前的智能硬件。这是符合未来趋势的技术架构,能够很快的响应前端快速去创新,并且端上的数据能够沉淀到云上,然后能够去丰富这个云,云再把这些结果赋能到端上去,能够让这个端变得越来越智能。 举个例子,以前消费者去转账,他需要到银行去排队,现在他习惯了就在手机上转账 。但这两个发生的行为,实际上对整个技术的架构,要求是完全不一样的。银行转账,从技术的角度它的并发是可控。因为银行的窗口操办业务,一分钟处理多少笔交易是可控的,而在网上,在手机端、在APP上、在小程序上做转账,这个对我们来说就完全不可控。因为不知道有多少人同时会去做这件事情,所以你必须要把从传统的IOE的架构变成一个分布式的架构。 还有很多人会问中台和传统软件的关系,企业级管理系统比如ERP、CRM等,实际上它更多的是解决企业内部管理效率的问题,中台解决的是前台创新的问题,中台就是为了前台而生的,所以你一定要把这些中台建起来,这样才能够让你的前端业务更好的创新。 我讲两个奇点云曾经服务过的案例,有一个服饰行业内有名的企业找到我们,他有2000家门店,每个门店大概能容纳200个sku,而它工厂有2000个sku,那么问题来了, 我到底哪一家门店摆哪200款sku呢?这个从2000款怎么来挑呢?这实际上在我看来也是一个算法和技术的问题,我们就要把他的门店和他的货品以及进入这个门店周围的消费者做一个画像,把他的货品做个画像,然后把它做精准的去做匹配,就是能够直接帮他们的营收提升这个1—2个点,现在我们还是在不停的去优化这个模型。 另外的一个客户,是亲橙里一家线下服饰淘品牌,为了采集线下门店的数据,我们在这家店布置了多个智能硬件,比如无感的摄像头、奇点魔柜、奇点魔镜……这样会产生一个什么结果呢?就如我刚刚说的,智能硬件能够把店内所有数据像线上一样把它完全“画”出来,知道多少人来了这家店,知道多少人成为会员,然后多少人是新客,多少人是老客,然后这些人最终购买多少,所以整条链路都可以画出来,这样的数据呈现到商家面前,他们才知道应该在什么地方去改进,改进哪个环节。所以它就会变成一个闭环,变成一个可以优化的东西。 基于以上,企业中台战略我建议三步走:第一,战略共识,首先中台是高层应有的共识,这个很重要。这事一定是CEO的工程,而不是一个CTO或CIO工程;第二,组织变革,它的组织一定要变成一个“大中台,小前台”的结构,这样能够支撑前台的端更好的创新;第三、两云一端的技术架构改造,通过底层的技术支撑,我们一定要让中台建起来,并且让前台端能够通过智能硬件,做好数据的回流,做好数据的采集,这样能够端丰富云,云赋能端。因为中台它不仅仅是一个技术,其实更多的是一个业务,如果中台只讲技术,不讲业务,都是大忽悠。 最后,我强调一个观点,我觉得没有数字化和智能化的企业是没有未来的,消费者在变,商业在变,需要有一个足够支撑业务系统的技术架构(两云一端),这样你的企业才能跑的足够快。好,谢谢大家聆听。
继上期数据中台技术汇栏目发布DataSimba——企业级一站式大数据智能服务平台,本期介绍DataSimba的数据采集平台。 DataSimba采集平台属于DataSimba的数据计算及服务平台的一部分, 负责数据的导入, 从而支持上层的数据处理。 DataSimba的定位是面向企业私有化部署,决定了采集平台面临要解决的问题和传统的互联网公司不太一样: 1、企业使用的数据库类型多且杂, 包括很多非主流的数据库; 2、企业的数据管理水平参差不齐, 依赖数据规范(如:维护列modify_time判断记录是否修改)的导入方式推行困难; 3、需要支持的场景比较复杂, 包括:流处理、增量处理、批处理; 4、企业的数据平台规模一般较小,资源有限, 需要更好的平衡计算成本与效率。 采集平台总体架构 整个采集平台核心为DataX与DataS两个采集组件: DataX: ·阿里开源的数据集成组件,通过jdbc,以查询的方式支持通用的关系行数据库导入; ·DataSimba 同时支持向导模式和脚本模式。 ·可扩展支持NoSQL、FTP等。 DataS: 奇点云针对复杂的企业数据环境开发的, 基于数据库日志(类似binlog)同步数据的工具, 主要特征如下: ·配置简单: 整库导入配置只需要一分钟, 支持实时抽取、增量落盘、全量合并; ·基于数据库Log采集, 以减少对企业现有系统的侵入。 目前支持Mysql, Sqlserver, Oracle, Postgres, MongoDB; ·支持多种业务场景, 包括:实时计算, 增量计算(10m~1h), 全量批处理(>1h); ·高效的数据合并性能, 节省计算资源; ·schema自动同步; DataX vs DataS:·DataX通过查询(即Select)方式, 而DataS通过解析数据库日志; ·DataX 支持数据源更广, DataS支持数据源较少(见下表); ·DataX 对数据源压力较大, 而DataS对数据源压力较小; ·DataX 需要数据源有较大的空闲时间窗口, 用于抽取数据。 而DataS不需要; ·DataX 需要维护类似modify_time字段做增量抽取, 而DataS不需要; ·DataX 无法跟踪记录变更过程, DataS可以跟踪; ·DataX 不支持实时数据采集, DataS支持秒级的数据采集; DataSimba在采集数据时优先使用DataS的方式。 为什么要做DataS 早期的Simba使用DataX导入数据, 在企业部署过程中遇到很多问题, 如: ·某快消企业, 数据库本身的压力就比较大, 且没有大段的空闲窗口用于数据采集, 采用DataX抽取难度较大。 ·某企业, 数据库每日增量较少(~10GB), 但全量数据较大(>20T), 导致增量与全量合并的效率较低, 消耗资源比较多。 ·某金融企业, 需要在数仓中跟踪账户余额的每一次变动, 又要不侵入现有的业务, 采用DataX的方式无法做到。 ·某企业大屏, 需按小时刷新, 统计数据量较大, 采用流式计算成本较高, 实现比较复杂。 采用DataX又无法做到小时以内的采集频率。 以上只是在simba部署过程中碰到的一部分内容。 为了解决碰到的种种问题, 我们最终决定开发一套新的采集工具: DataS。 DataS 技术方案 DataS 的目标是: 配置维护简单, 支持多种数据源, 支持多种应用场景, 尽可能高效。 与cannal/maxwell等binlog采集工具相比, DataS支持更多的数据库类型: 实时采集数据流程 实时采集的主要流程如下: 1、 数据源端创建访问账号, 设置权限和日志配置项 2、 simba平台上配置数据源 3、 simba平台上创建导入任务, 选择导入的库和表, 确定是否合并 4、 发布导入任务 5、 DSExtracter从数据库源拉取全量快照, 作为初始化导入数据 6、 DSExtracter实时解析数据库日志, 以增量的方式解析新增数据到kafka 7、 DSLoader 按照设定的周期(通常是10分钟)将新增数据落盘到增量数据层(INC) 8、 DSMerger 定期(通常是30分钟)将新增数据与全量数据合并到ODS 9、 后续的计算以增量或者全量的方式从ODS层消费数据 技术亮点 一、高效的合并方案 DataS同时保留了增量的日志数据和全量的快照数据, 以支持复杂的企业业务场景。 同时DataS提供了高效的快照合并方案。 以下是DataS合并与基于HBase方案合并的性能比较测试。对于1T以上的数据表增量和全量merge时, DataS有12 ~24 倍的性能提升。 与传统的利用HiveSQL 或者HBase 做merge的方式不同, DataS采用了二级映射的方式, 使最终的合并转化为一个RDD或者一个Map中就可完成的小文件合并, 并避免了不需要合并的文件读取, 如图所示: DataS合并逻辑如下: 1、 DataS会将新增数据划分到不同的hive分区中, 分区可以根据业务自定义; 2、 在一个分区内, DataS利用布隆过滤(Bloom Filter)将数据映射到不同的文件; 3、 新增数据和单一存储文件做局部合并; 将整个合并最终划分为小文件的合并, 从而大幅提高了合并的效率。 二. 近实时的数据时延 DataS提供两种合并方式: 写时拷贝(CopyOnWrite)和 读时合并(MergeOnRead) 写时拷贝是指每次增量数据与文件合并时, 都是拷贝两边的数据生成新的全量数据文件。 此种方式合并时性能稍差, 但读数据(统计查询)时性能好一些, 过程如下: 读时合并是指合并时只将增量数据写入日志文件, 读时(查询统计)再合并重复数据。 同时会定期全量合并。 此种方式的合并效率很高, 数据时延可以达到秒级~分钟级, 但查询时性能稍差, 如图所示: 两种方式使用与不同的业务场景: 注重读性能或者注重合并性能。 Datas支持丰富的场景应用 按照数据要求的时延和数据要求的完整性, 计算场景大致可分为三类: 其中: ·实时计算: 很多数据时延要求在 毫秒级 ~ 10分钟的场景, 通常采用flink或者spark等计算引擎。 如:监控告警、实时特征等等。 ·增量计算:时延要求在10分钟~小时级别, 数据要求增量处理的场景。 如企业大屏、活动效果分析、当日uv等统计数据展示。 ·全量批处理: 主要针对各种T+1的报表统计, Simba目前采用Hive引擎。 目前市场上对于实时计算和全量批处理都有成熟的方案, 但对于夹缝中的增量计算支持的都不太好。增量计算无论是采用流式实时处理, 还是采用全量批处理, 都比较浪费资源, 且效果不理想。 DataS可以支持增量的采集、合并、计算, 以较低的计算成本支持了此类场景。 此外, DataS能很好的支持秒级以上的实时计算和批处理任务。 附-DataSimba数据采集支持的多种数据源 DataSimba的采集平台支持丰富的数据源, 包括:
⼈脸识别是线下零售数字化升级的核心抓手,再怎么强调也不为过,⼈脸算法的升级和智能硬件的普及将真正把Mall的数字化从概念走进现实。抓住她的脸,记住她的路线, 走进她的心田,Mall的运营数字化才能真正登堂入室,请记住一点,有想法做好线下Mall生态的朋友,你要谨慎的不是万达,不是吾悦广场,是BAT等互联网巨头! 近些年,虽然线上零售对线下零售造成很大的冲击,但在零售总额实际比例中,线下零售占比高达90%,而线上零售只占10%。展望未来,线下零售依然会占零售的重要地位。消费者对吃喝玩乐、生活服务在线上是无法切身体验到的,这种体验式零售业态的典型代表就是购物中心。 1、购物中心发展三阶段国内购物中心的发展,大致经历了三个阶段:摸索——发展——成熟。 摸索阶段:2000年前的整个20年(1980年——2000年),中国购物中心基本处于萌芽状态,百货成为市场主流,但在营运管理上用百货的运作模式或纯地产思维来管理,往往弱化信息化的建设。 发展阶段:2000年后的10年里面(2000年——2010年),购物中心管理者在思路上逐渐清晰化“统一经营、分散管理”、“百货购物中心化,购物中心百货化”的思维已经深入骨髓,对信息化的要求提出了更高的要求,强调招商、租约、会员及营运的管理。 成熟阶段:2010年开始的近10年(2010年——至今),购物中心进入相对成熟阶段,类型千差万别。购物中心从业者思想从“经营人到经营物”的角度在思考发展变革,全渠道思路已逐步运用于实践,进入“百花齐放、百家争鸣”的阶段。 2、购物中心发展的困局购物中心经历了多年的高速发展,受到业态饱和度、经济下行、市场疲软、品牌及商场布局同质化等因素影响,购物中心从业者面临巨大的挑战:招商难:待开发的购物中心数量猛增、竞争激烈、分流严重,导致购物中心招商、营运困境越来越突出;而对已开业的购物中心,由于缺乏数据,无法用数据来指导招商,商场的定位和顾客呈现的数据往往存在巨大差异。 规划难:多数商业地产商过多关注品牌规划而忽略背后的租金规划,找不到合适的信息化手段对业态规划进行有效监控,商场铺位布局由于没有用数据“说话”,造成商铺间的联动效应不强。 营运管理难:业态持续调整,是购物中心租金提升的重要保障,业态调整要考虑租户满意度和顾客满意度,而购物中心租赁为主的业态模式往往缺乏这些数据抓手,从“开业大吉”变成“开业大急”。 3、突破数据掣肘,跨越管理鸿沟线下购物中心与线上平台最大的区别在于:场景化、多触点。场景化营销是购物中心中最容易理解的着力点,相应的技术难度也较高,需要全触点的数据采集能力,经过标签处理、分析引擎、营销引擎等找到合适的消费者,在合适的时间对他们做适合他们的触发。 运营好购物中心必须要掌握好用户体系、交易体系等,要以数据为驱动、消费者为核心,同时也要不断创新,通过新的触达消费者的方式去适应消费者新的消费习惯。购物中心以消费者大数据驱动精细化运营,这里的消费者大数据包含了消费者的属性、偏好、行为以及各个触点交互产生的数据等数据的采集、加工和整合,购物中心将经营思维从商品出发转变到消费者身上。 目前购物中心销售数据的采集,主要还是以下几种模式:数据填报、接口模式、DATAHUB、微信端录入及数据盒子,这些模式的数据采集无疑都是对数据收集的补充,但是存在的问题也非常突出:成本高、运维重、商户谈判难、易出错、商户扣留小票、易盗刷积分等等,体现的采集模式还是以被动采集为主;对于会员的拓新手段乏力:会费入会、购物入会、邀请加入、合作伙伴入会等等,都缺乏顾客的参与感、互动性及体验性,限制了会员主动入会的热情;由于传统客流技术的局限性(例如红外线客流、WIFI客流),建立不了Face-Id和会员Id的联系,对会员的行为数据根本无法做到准确收集。怎样才能改变传统模式对于数据采集中遇到的问题,同时又能提高顾客体验?建立一个精细化的数据采集体系尤为必要,借助顾客主动留下消费数据、会员数据,结合后台大数据的技术处理能力,实现对顾客营销的赋能,这无疑是购物中心数据采集技术上的一项巨大提升。 例如上海某购物中心,经过多年连锁化发展经营,会员数据、小票数据、顾客行为等数据采集一直都不理想,对会员的行为数据分析、贴标、AI营销推荐更是无从谈起。 然而购物中心大数据之路的核心难题是数据采集,伴随着AI和大数据愈发成熟,数据采集可基于AI智能终端的互动体验来实现,通过人脸识别和IOT技术打造的多功能魔镜及识客系统多端触达购物中心的消费者,不断沉淀线下可运营数据资产,这些数据资产与该购物中心的数据打通,形成基于 Face ID 的消费品质、消费层级、网购偏好等多维度顾客画像。同时洞察顾客从进入购物中心到离开的每一个行为。借助数据中台处理能力,利用会员的消费数据+行为数据,精准会员贴标、实现AI促销引擎推荐,最终达到会员“一对一”的营销目的,实现购物中心的价值转换。4、数据采集让资源体现最大价值购物中心对数据的收集,为后续大数据分析打下了坚实基础,是实现购物中心高效、高质、统一管理和经营的巨大助力,完善的数据采集对购物中心从业者在后续招商、租约、会员、营销、分析无疑有巨大的指导意义。完整的数据采集是大数据分析的基础,也是营收的重要体现;以数据为基础,实现招商的优化、租户的调整及汰换;提升对租户服务能力及广告投放;深度洞察会员,数据化会员的获得率、保持率、贡献率、满意率及流失率,标签化会员,实现会员的数字化营销;监控客单价、客户群组及顾客流向、寻迹等,可以及时调整营销方案和力度。 在消费者体验经济的大趋势下,大数据会帮助购物中心做出更好的决策,提高运营效率,挖掘更多的流量变现能力。
戳链接观看精彩视频从阿里巴巴大数据之路看企业中台战略 视频导读: 提到阿里巴巴,我们首先想到的是一家电商互联网企业,淘宝、天猫、支付宝等一系列平台和产品已经彻底改变了我们的生活。当大数据开启一个时代时,拥有海量交易数据的阿里巴巴就已经认识到这是一座大的金矿,并在众多的电商企业中率先开始了淘金之旅,大数据平台也在其中扮演了非常重要的角色。 本视频是行在(奇点云创始人兼CEO)关于《从阿里巴巴大数据之路看企业中台战略》的分享。他以亲身经历讲述了阿里大数据的演变,大数据部门从组织架构到系统架构所发生的变化,以及怎样利用大数据技术构建企业级大数据平台,进而推进企业中台战略的落地执行,让中台成为企业的发动机。用最深入浅出,清晰化的讲述逻辑,讲明白了「中台战略」和企业之间的关系,具有非常强的实用性,献给专业或非专业技术背景,但是需要了解行业的你。 (行在——数加平台创业期间) 干货荟萃: 阿里的“传奇”履历,12年只做3件事 在阿里巴巴的12年技术生涯(从业经历)让行在实现了职业生涯中的三个重大跨越。第一,作为伤痕累累的践行者,在阿里实践数据化战略。第二,阿里基础平台外化阶段,在阿里云数加内部创业。第三,数字化转型在行业里的应用,创立了奇点云。 回忆起在阿里的岁月,行在说“12年实际上是一个很长的职业生涯,我也就做了三件事情”:第一件事情就是阿里巴巴的第一个数据仓库是我搭的。因为最早以前没有数据中台的概念,只有数仓的概念。第二件事情就是我在里面做了个淘宝消费者信息库。就是把阿里所有的消费者信息能够去做打通的一件事。第三个是我在15年的时候 ,在阿里负责把整个大数据平台做了个外化的工作。外化就是把内部的经验也能够给外部使用。 阿里大数据之路,技术突围和挑战 阿里大数据井喷式爆发,阿里沉淀了包括了交易、金融、SNS、地图、生活服务等多种类型的数据。在数据服务和数据产品方面有着极大的挑战。数据作为一个生态级的平台企业最直接的沉淀,亦是最基本的再生产资料。 行在对阿里大数据演变的总结: Time line: 09年:数据公司,成立阿里云 12年:解决存通用的问题,成立数据平台部 14年:马总提出,用DT建立更开放、透明、责任的新经济体 认知线:从成本到资源 Data1.0:BI为主,“看” Data2.0:数据化运营,“用” Data3.0:运营数据,“赋能” 业务线:从成本中心到利润中心,80%的机器for数据,而非业务系统 BI业务:2012年前,对存储和计算的消耗最大 广告业务:2012年-2015年,大数据支撑DMP、广告变现 推荐业务:2015年底,推荐是最重要的数据业务 技术人对大数据的敬仰,创立奇点云 参与阿里数据仓库搭建的完整生命周期,见证了阿里云从起步、上升、灵魂深处的改进、巅峰的波澜壮阔历程,行在带着老技术人的情怀,选择进入大数据生涯的第三个阶段:成立奇点云。 当处在中国企业数字化转型加速的大背景下,中国企业面临“数字化转型”的黄金时代。奇点云思考更多的是如何专注企业适应新时代下的中台技术架构,于是自研打造了“两云一端”。以业务的角度看待问题,践行数据平台不仅提供强大的技术支撑能力,还要为所有业务赋能,让“数据资源”成为“数据资产” ,更具商业掌握能力。 当中台成为共识,行在建议企业中台战略三步走: 战略共识:中台的重要性 组织变革:大中台,小前台 技术支撑:两云一端的技术架构改造
随着企业信息化程度越来越高,企业掌握的数据量从原来的TB级发展到PB级,再到EB级甚至往ZB级别发展。数据形式也在从原来的结构化数据为主转变为以日志、视频、图片、语音等非结构化数据为主。 然而,数据存储和计算、数据组织的运行都是有成本的。当数据消耗成本较小时,企业通过设立独立预算的大数据项目即可应对。但是随着越来越多的数据产生且被应用,数据成本急剧增加,发展数据业务就必须被提升到企业数字化转型的高度,之前的应对策略便不足以应对。毋庸置疑,接下来,数据部门将作为一个业务部门长期存在,这就需要数据部门需要有尽量清晰的业务边界,有可控的投入产出。 2013年,当数据应用不再以BI(看数据)为主,而是为核心业务(数据支撑广告投放更精准)服务时,存储优化和计算优化,以及整体有序的大数据业务规划便成为了当务之急。 过去三年,在帮助企业构建数据中台的实践中,我们提炼了企业数字化转型最主要的三大挑战(业务挑战、技术挑战、组织挑战),或者说企业必然会面临的三大困境,看看数据中台如何为企业发挥价值。 业务挑战:如何以大数据赋能,反哺业务精耕? 越是成功的企业,业务发展的痛点越难以单点解决,需要整体思考、科学决策、集体行动,在业务的创新中解决这些痛点。 比如,如何做好会员精细化运营?如何为门店挑选合适的商品且控制好库存?如何动态打折以至不损伤毛利等等,是摆在企业前面的一个个难题,直接影响到企业的规模扩展或者利润提升,也是企业迫切需要解决的问题。 这就需要构建数据中台,通过大数据赋能业务。 相比传统数据业务,大数据业务的优势在于,通过整体规划智能化的数据应用,来推动业务创新。这就是企业数字化转型的业务内涵。这些数据智能应用需要将业务经验和解决方法论、全域的数据模型,与算法模型相结合,我们称之为“业务智能模型”,它的价值在于“降本增效”。 在过去三年的数据中台实践中,我们发现这些业务智能模型遍布在整个零售产业上下游。比如通过全方位的数据反馈并指导买手做好选品;又如通过商品的聚类,发现某类特征的商品,可以优化打折速度和幅度,以此提高整体的折扣率从而增加毛利等。再比如,通过门店和商品数据,通过最优算法,解决“什么样的店铺类型应该铺什么商品”,以提升门店的顾客进店转化率,从而提升效益。 业务智能模型需要数据和业务系统深度结合,在运营工作中直接产生效果,让业务能够自动化、高效地运转起来。 技术挑战:如何高效的数据治理,远离数据“黑洞“? 要做好有价值的业务智能模型,离不开高质量、高可用的、全域的数据中台,数据治理就显得非常重要。“数据治理”是企业数字化转型中典型的大数据技术问题。 数据治理,解决的是“业务越来越复杂而数据现状的脏乱差”带来的挑战。如何合理规划数据结构?如何规范定义数据?如何有效管理数据资产?如何安全分发使用数据?这都需要一套完善的数据治理体系,驱动企业数据化运营转型。 数据治理是基础,也制约了企业的数据智能化方向的发展,难以做到数据创新。从理念上来看,“治”不应只在事后,更应在事前,“理”考验的是业务与技术能力的结合。从实际内容上来看,数据治理是一套方法体系+工具集,旨在帮助企业合理的架构数据、规范的定义与加工数据、清晰的管理数据、安全的应用数据,促使数据从成本中心变成价值中心,驱动企业数字化转型。 我们总结了“数据治理的七个要素”如下: 1、数据的标准定义:数据维度及指标需要清晰的、统一的、标准的定义,如“最近一天门店在线上渠道的下单金额”。 2、数据模型的标准设计:按业务领域拆解业务过程,根据业务过程设计数据模型,好的模型标准是高内聚低耦合,能支撑未来扩展。 3、数据的规范开发与测试:在一定的编码规则下开发,确保代码质量的稳定性。 4、元数据的合理管理:数据的存储是需要成本的,需要合理的生命周期管理。 5、数据质量的保障:数据的可用性、可信度,均需数据质量保障,数据质量从上游采集、中间的数据加工,下游的数据服务都需要一套质量检测工具来保障准确性、完整性。 6、数据的安全管控:数据是企业的核心资产,数据安全上升为企业安全。数据安全包含数据的分级、敏感数据脱敏、分行列控制、高危访问实时告警、事后的安全审计等。 7、数据的合规使用:企业成立数据安全委员会,为数据的合规使用制定规范,必须在合规范围内安全使用数据。 组织挑战:如何深挖数据红利,成为业务创新“能手“? 从解决业务挑战和技术挑战出发,企业必须把数字化转型定义为战略问题,从而推动“数据中台”的落地,这也给企业带来了组织上的挑战。 一般来讲,传统的数仓解决方式有两大问题:一方面从业务系统直接计算数据,非解耦架构对业务系统影响极大。一方面基于DB构建的数据仓库,计算及查询效率难以满足业务数据膨胀的大趋势要求。解决这些问题,已经不是藏在“IT部门”的数据小分队这一组织形式所能够解决的。 2018年7月,阿里云总结了过去的成功经验,在业界大力推出“数据中台”解决方案,很好地解决了这些问题。奇点云提出的数据中台架构与设计,其出发点是支撑复杂的、多系统的、数量巨大的、多应用场景的业务形态。在组织层面理顺以下部门或团队关系,来解决企业在组织落地战略上的困惑: 1.与传统IT业务之间的关系:业务和计算分离,业务和数据分离 ·大数据业务应与业务系统解耦,采用T+1离线计算方法产出结果数据,不直接在业务系统上进行数据计算,实现了业务和计算的分离、业务和数据的分离。 ·大数据部门的工作起点是满足多种计算场景的需求。支持大数据计算,结合了多种计算引擎,针对不同的场景使用不同的计算引擎,如离线计算引擎、实时计算引擎、多维分析引擎、即席查询引擎、实时搜索引擎。 2.与业务部门的关系:站在企业视角打通数据,支撑业务部门用数据 ·支持各种异构数据源打通,提供了一套基于reader和writer的抽象化数据抽取插件,除了提供系统自带的插件外,还支持自定义实现reader和writer插件,通过公共的管道,实现结构化和非结构化数据的互相传输,统一技术框架。 ·支持业务部门的高并发多场景的实时查询,数据中台集成了基于分布式的KV查询框架,可以支持海量级别的查询请求,并且响应时间可以控制在毫秒级别。 ·支持多场景的数据服务,灵活快速支撑业务需求,向导和自定义双模式快速生成API,实时监控API调用情况。 ·面向业务部门,为业务部门的数据分析、开发提供培训和技术支持。 3.与合作伙伴的关系:找到数据部门的核心能力 ·应该深入业务,影响业务效率。数据模型融合离散的业务数据,可借助数据中台快速构建数据模型,建立全方位的数据视角,消灭信息孤岛和数据差异,灵活支撑业务的变动。 ·不应该在大数据平台建设、在很难培养的团队能力上下功夫(比如算法能力),尽量借用外脑。 某服饰K案例: 客户背景:想要通过数据智能化应用,提升管理效率,从集团CEO到各部门经理到一线店长,经营效率需提升,运营过程需要数据支撑,一方面是数据产出速度,一方面是缓冲的精准度。以及优化当前的人员排班,避免客流不大时过于饱和人效较低,高峰期时人员不够导致订单损失。 数据中台解决方案:构建集团/销售总经理/门店店长三层驾驶舱,拉通数据中台的建设,顺势统一指标标准、数据采集标准、建数据模型标准,驱动企业的数据上一个台阶,为后续的创新打下基础。 统一管理:企业管理行为落地KPI体系,KPI数据反映管理与经营的效率; 统一视角:一站式数据服务,从集团总裁,到分公司总经理,甚至到门店店长,都在一个系统中透视KPI、逐层从上到下穿透,直至发现问题。 统一口径:所有指标及维度必须标准化,包括命名规范、口径统一、数据模型统一,从而为指标解读有据可依。 智能排班:通过计算每人的绩效,结合到门店计算人效,聚类区分几类人效人群,得出中等人效即可服务号一般门店。同时预测门店未来的订单量,拟合中等人效水平,计算未来一周内门店各时间段需要的人力情况。结合门店和人员的区域化情况,从而实现了智能排班系统。 实施效果:上线后第一个月开始,集团高管月会,开始使用管理驾驶舱梳理盘点诊断业务;数据中台支撑的仓库单据从原来的10分钟降低到5秒,缓冲补货时间从30分钟降低到5分钟以下;上线3个月,离线的Excel模版报表,从500个降低到250以下;基于数据中台创新了智能排班系统、店铺前台商品推荐系统;技术人员从传统的Oracle存储过程过度到大数据平台,成长了数据模型研发与算法能力。智能排班上线,整体人员下降了10%(自然淘汰人效最低的人员),从而为公司每年带来大几千万的利润。 某母婴M案例: 客户背景:在企业运营效率低下,无标准数据体系及系统支持的情况下,企业所运营的APP千人一面,所有运营活动需要手工调整,几乎没有数据化运营。基本靠经验,影响用户体验,老客户复购率低。 数据中台解决方案:该项目分两期实施,一期规范采集,打通日志、交易、售后等数据,构建统一数据中台,建立标准指标体系,构建业务分析BI系统及一系列运营报表,支撑运营日常数据工作效率提升,快速洞察业务,驱动高效运营决策;二期构建会员、商品、店铺标签体系,增加实时日志采集,在购物主链路四个环节(首页-搜索-购物车-支付)做千人千面推荐引擎,提升用户发现感兴趣和可能需要的商品,提升新客户的转化率与老会员的复购率。 实施效果:上线了平台运营中心,支撑了所有运营日常数据工作;购物主链路个性化推荐,提升了新客户50%的转化率,提升了老客户80%的复购率; 我们认为,在AI驱动下的数据中台大有可为。所有的数据一定是基于数据中台形成一个业务闭环,把数据赋能给新零售前端的应用,可以帮企业真真正正实现自身的数字化转型。
中国服装零售产业在近二十年来走过了极具中国特色的发展历程,站在当前的时间节点上,对如何适应新的形式取得新的突破,行业已经基本形成了共识。那就是融合渠道,全面建立以用户为中心的数字化运营能力。 服装零售业求转型,背后的发展轨迹是什么 回顾历史,中国的服装零售行业发展大致可以从渠道和经营模式的演进划分为如下几个阶段: 80年代— 2000年以前的批发零售阶段。服装产业链完成原始积累,业务模式以批发为主。一批最早的本土传统服装品牌在批发模式中逐步成形,但整体上是以产定销,广铺渠道的发展模式,渠道成为了品牌的核心竞争力。 2000年— 2010年的初级零售阶段。传统品牌的加盟代理和分级渠道建设走向成熟,许多品牌有意识开始适应和跟随市场需求变化,规范供应链管理和商品管理,投资信息化基础设施建设。零售ERP等软件系统得到了较为广泛的应用。国际品牌规模化进入中国市场也带动了市场成长和消费者的成熟。 2010年— 2014年是中国电商快速崛起和线下渠道动荡的阶段。伴随着线上零售的大发展,服装在短短几年间也成为了最主要的电商零售类目。越来越多的传统服装品牌开始触电。一方面电商成为了品牌必争的增量渠道,另一方面电商又对线下零售产生了强大的冲击。这使得许多企业感到十分矛盾。也因此,许多企业选择组建完全不同的团队独立运营电商,甚至开发完全不同的商品来规避线上与线下的冲突。与此同时,优秀的国外品牌在中国高速发展,他们的直营经验也逐步被中国传统品牌所借鉴,大量本土品牌开始加力试水直营模式和进行线下传统渠道整合。 2014年—2016年期间,线上与线下可以说经历了冰火两重天。服装线上零售继续高歌猛进,强力冲击着线下渠道。新的流量玩法层出不穷的同时,一批优秀的电商品牌也得到了迅猛的发展。而与之相伴随的线上流量成本开始也快速的增长,这为电商蒙上了一层对未来发展的隐忧。与此同时,传统线下为主的服装品牌却在2014—2015年左右经历了历史低潮,直到2016年以后开始有所回暖。期间有许多传统品牌淡出消费视野,也有不少品牌涅槃重生。这一方面和宏观经济走势有关,另一方面也是由于一些传统线下品牌真正开放拥抱线上和积极寻求向以消费者为中心转型的结果。 2017年至今,市场有了新的变化。2017年新零售概念的提出进一步刺激了零售产业的神经,服装零售企业也不例外。全渠道融合的理念被广为认知。当线上流量成本已经十分高昂,线上品牌开始大力走向线下实体,线下品牌也重新认识了线下门店的重要性,尝试用各种新科技来武装线下。消费者们可以非常明显的感受到线下门店体验的快速变化。然而,线下零售经营的难度往往被电商品牌所低估。而新鲜的玩法和技术手段如果不能和品牌、商品、运营有机融合,那么它们所能带来的线下流量和转化也难以持久。于是,在一波积极探索的热潮之后,线上品牌开始在谨慎中于线下前行,而传统线下为主的品牌也在用更加冷静的视角来思考未来的可持续发展。 站在当前的时间节点上,整个行业已经基本形成了一个共识,那就是传统零售应当从电商的大发展中汲取经验和方法。而线上成功的最大经验和优势,就是以用户为中心的数字化运营。因此,数字化转型成为了当前服饰零售行业,也是整个零售行业发展最关注的话题。那么应当如何开展数字化转型呢? 服装零售行业如何跨越“数字化鸿沟” 我们认为,服饰零售企业的数字化转型应当以消费者为中心展开,以全域数据为资产发挥价值,以技术(互联网,IOT,AI,大数据,云计算,虚拟现实等)为工具,以战略与组织变革为保障,主要探索包括如下六个维度的发展内容: 1.全渠道零售企业应采取尽可能丰富和灵活的零售方式,整合商品渠道、销售渠道、供应链渠道和消费者。协同线上、线下,跨平台、跨渠道,打造以消费者为中心的全渠道销售闭环。通过数据引导各渠道间的库存调配,商品信息共享,消费者信息共享,实现人、货、场的全渠道整合。 2.全域营销实现全链路、全媒体、全数据、全渠道的数字化智能营销。不局限于空间和时间,在细化消费者群体画像的基础上,在购物全过程中更精准、友好地增加品牌和消费者的触点,延伸售前和售后的运营,发掘多场景推广和营销手段,提高精准的品牌认知匹配,提升用户转化率和增加老客户的留存率。 3.供应链整合升级构建以精准消费者需求洞察为核心的供应链网络,力求达到更短的产品供应周期、更轻的库存压力和更灵活的快速市场响应。 4.门店智慧升级实现线下门店的智能化升级,通过友好有趣的技术手段提升消费者体验,刺激消费需求,提升流量和转化率。通过采集和分析“人、货、场”的数据提升店铺运营管理水平和效率,降本增效。 5.数据驱动品牌创新和研发创新通过对消费者的精准画像、需求洞察、流行趋势分析、用户体验反馈等数据,更精准和敏锐地定位品牌。洞察消费者需求、捕捉关键流行元素,助力设计师精准化研发、打造爆款。 6.数据引导业务创新通过对数据资产的价值挖掘产生新的业务模式和价值增量。比如有不少人在关注的C2M就是这样的情形。虽然真正理想中的C2M可能短时间内受制于整个产业链上游的生产技术和流程等方面的限制离大规模实施还有一定距离,但是我们已经看到有不少企业在版型精细化设计分类方面做出不少有益尝试。 数据资产、数据能力才是核心竞争力 我们不难发现,如果服装零售企业要从以上这六个方向转变升级,那么都离不开一个核心的生产资料。那就是数据。而数据的采集、管理、加工、分析、挖据和应用能力也成为零售企业数字化转型的最关键之所在。如果说十年前的中国服装品牌立足是以渠道为王,那么在下一个十年里数据资产和数据能力将是他们最重要的核心竞争力。 ps:本文主要总结了中国服装行业发展历史阶段和数字化转型的渊源动因,至于服装行业具体如何转型,后续会有连载,用案例和实际落地经验来讨论,敬请期待~
2020年09月
2020年08月