上海的朋友对于上汽应该不太陌生。上汽从去年开始连续两年进入全球50强,也是中国汽车最大的汽车商业企业,是销量最大的汽车企业,也是上海市国资委下面最大的制造型企业。
上汽集团IT建设简述
我们一直在信息化、互联网化,数据化、智能化几个方面努力。在汽车产品上,电动化是主要的发展趋势。上汽是国内唯一一家既在燃料电池,又在混合动力,还在纯电动三种新能源技术上全部布局的企业。同时,我们也在互联网化上有做很多工作,去年7月份我们发布了收款互联网汽车——RX5。上汽和阿里巴巴合资的斑马公司所开发的斑马系统,到现在为止已经装备了超过25万辆。中国自主品牌的互联网汽车一上市就月销量过万,这是一个奇迹。不仅有斑马,上个月我们在泰国发布了互联网汽车,其中使用的系统是由上汽自己研发的。12月18号,上汽红岩也发布了互联网重卡。
共享服务方面,中国最大的分时租赁公司EVCard是上汽旗下企业,大家开的汽车10辆其中有3辆是我们的安吉物流在运输,上汽的车享家目前已有超过1000多家售后门店。
在智能化方面,大家都在谈AI,提数字化转型。这当中有一个过程,怎么样让现在信息化的东西变成数字化,没有数字化的闭环怎么做?首先我和大家聊聊数据应用这件事情。很多企业,包括我去交流的企业,包括上汽下属的几十家企业,信息部门、业务部门对于数据应用到底是什么很模糊。我喜欢拿这两张图做对比,左边的图很炫,有900辆RX5在上海市区域的行程情况,右边是我们做的应用,上面有一些路径分析的算法,右边有一个区域的统计,这上面可以任意选取任意区域圈选你想用的内容。大家都认为右边会很像数据应用,实际上这两类都是数据应用,关键问题在于三点:第一有没有数据,这两类应用背后有没有数据,是靠手工填报还是信息系统自动产生的。第二有没有算法,不是人工智能一定要有知识产权的、有人工智能的算法叫做算法,IT程序也是算法。最后,前面几位嘉宾一直在提算法,联想和SAP也都提了应用场景、应用案例。应用场景串联是非常重要的,左边的场景是用在一些数据科学家和业务部门探究某些特征的,比如哪些用户出发点相同,哪些用户开的时间长短,哪些区域行驶有潮汐现象。右边是做进一步数据挖掘的,如:知道哪个小区适合装充电桩。这都是案例应用。那么,怎么把这么多数据汇集起来?
企业数据应用的瓶颈及解决方法
今天的主题是讲:怎么突破一个瓶颈期。首先要定义瓶颈在哪里。我们定义的时候把数据平台建设分成四个阶段,或者说企业做数据应用的四个阶段。第一阶段是蛮荒期,传统的数据仓库,现在还有很多企业处于蛮荒期甚至还没有到。第二阶段想到用大数据了,有些应用开始和数据平台有交互,首先典型的物联网应用,讲到物联网应用就觉得应该用大数据,很多非物联网应用也需要大数据。下面,大数据平台成为默认配置,整个企业应用,你的应用业务全部以大数据平台为基础,数据平台本身最后变成了基础设施,数据平台本身变成了云的一部分,而不是独立平台。但这个阶段,一些应用系统还是靠“插管子”的方式插到数据平台。第四阶段数据平台不再是“插管子”,而是应用就是人工智能的原生应用。瓶颈就在这里,我走访过下属的很多企业,之前IT部门也请了供应商、国内大数据的服务商,帮他们安装。结果我们去看,里面除了几条测试数据,什么企业的数据都没有。甚至一个企业,想把报表转化到大数据里面去算,结果做导入大数据这个事情,而且要实时的导入,供应商将近做了一年。两周前数据业务部帮这家企业解决了这个问题,大概花了一个月不到的时间。
剖析一下问题,从上到下大家看到的是表面现象,再下面还是表面现象。在上汽里面如果跟领导汇报这三条,领导直接说“不要跟我说客观理由,我不听客观理由,什么是根本原因”。底下有三个根本的难题,新技术门槛,传统IT、传统IT人员的技能没有得到更新怎么办?在新的时代,业务部门可以找到更多的新兴技术来帮助做原来只有IT做事情,对于IT的依赖度会降低,这是一个趋势。业务部门的IT技能在提高,怎么在新的环境下和业务互动?第三是企业领导观念问题,虽然是客观现实,但是别忘记做信息化工作的这些人,做数据的人,本身就是要去影响整个企业,影响整个企业的领导层,让他们改变,才可以让企业改变。
先剖析一下第一个问题,我们做实践的时候发现,IT工程师、业务分析人员、数据科学家,这三类人对于数据平台的需求是不一样的。IT人员想的是最好数据全进去,比较实时,不要出错,原数据库怎么样,那边数据库怎么样,保证运维安全。业务人员不是这样想的:我要方便,要像excel一样去用,要临时可以把很多数据混合起来,能用起来。数据科学家要求更高了,要有一个很独立的工作环境。我下面有十多个做数据算法的博士。曾经有一个博士在面试的时候说,我能不能有一个比较独立的GPU环境,能不能在我的环境里面拿到企业的数据做训练?这是他的一种诉求,他需要在这些算法工作上有一定的独立性。
这些问题抛出来以后,怎么办?只能靠一些新的技术工具解决,(“上汽Data Lake”)这件事情今年做了一年的时间,调动了不少资源。12月27号,上汽集团数据平台的2.0版会上线在上汽云计算中心里面,会基于这个技术产品。其中,我们解决了5方面的事情。对于企业IT来说,只要把数据库主机的一个用户账号,什么用户账号按照安全要求来定,给平台,平台会自动探索你企业里面的数据库并连接。目前,可以支持数据库包括DB2、ORACLE、MySQL和SQL Server。连好以后,你在下面选择任何一个表,点一下同步,这个表就立马同步到数据平台。数据库的改动,两边同步时间小于5秒,每秒钟可同步30万条以上(这只是在四台节点服务器的基础上)。
我们把OGG的Handle改写了,把Hadoop上的Hbase利用扩展接口增强了,没有改底层,保证上层的东西可以在开源基础版本上进行使用和升级。此外,上汽集团下面有金融企业,有等保三的要求,所以整条传输链路,全部进行加密。存储方面我们申请了一个专利,存储的时候比如1000万条,选择同步过程当中,改变加密的方法,可能前面10万条是AES的加密,后面20万条就变成另外一个加密算法,再过多少天我们又有一个密码进行循环。这些都是在底层技术上实现,对于IT和技术人员完全透明,不需要关心那么多,只需要知道单元格的权限如何配置。
对于业务人员,今年下半年,我们会开发一个新的项目,在数据平台集中存储基础上,把计算节点和存储节点完全剥离,计算节点变成一个虚拟的Hadoop或者spark的集群,既可以满足数据科学家需要一个独立集群,也可以满足业务人员想把excel文件导进去的需求。现在我们正在开发:excel拷贝到一个文件目录,这个excel就变成大数据平台里面的一张表,可以和别的东西进行混合。我们的目标是开发很多工具,让用户用得越简单越好,把复杂留在数据平台工具内部。
讲到业务,有一个问题,一直在谈数据应用与业务,业务产生新的数据,价值体现在业务运营上面。这当中好像断了一个东西——同一个数据平台。如果每家企业或者每个业务部门,单独建一个平台,跟现在的IT系统有什么区别?这是非常重要的。产生这个闭环,这是在同一个数据平台上做应用。之前一个下属企业有一个很严重的品牌舆论曝光,当然网络爬虫是主要的,后台还有NLP的算法,从这个事件结合行业经验的NLP算法,这是为了解决当时的业务问题。过了几个月之后,这些负面的舆情已经可控而且可监控了,后面一个需求来了,我们怎么挖掘出正向循环?汽车到底应该改一些什么东西?到底哪几项是弱项,这就产生了数据闭环的正循环,从业务痛点变成了推动业务发展的一项动力,当然所有基础都是在同一数据平台上。
上汽集团的文化观念
最后一点讲文化观念的问题。这是Gartner报告里面讲十大基本原则,我把几大重要的放大了。企业必须要有愿景,必须知道未来数字化是干什么的。对上汽来说绝对不是多卖几辆车。到现在为止,11月底销量已经超过了600万了,但是有一个问题,上汽现在制造业收入占比90%,我们目标是把服务业和其他领域的占比提高到30%,把制造业贡献度降到70%以下,这才是我们的目标和数字化的革新。
还有就是招募人才,HR和IT之间建立良好的关系。今年一年的工作里面,除了业务部门,我打交道的就是HR。HR里面有两位同事曾经跟我说,他们觉得现在是HR里面最懂IT和数据的人。要不断与HR互动,这是我们的经验。上汽集团数据业务部是上汽集团总部的部门,而且是唯一在总部里面把薪资结构放开的部门,也有各种各样的培训。各个企业和互联网来的人,都有文化,怎么灌输文化、让技术人员更懂业务、让业务人员更懂数据和管理,多元化的人才队伍确实重要。和互联网和科技企业抢人,这个决定也很重要,不抢是没有办法发展的,所有的事情都是靠人做出来的。
最后给大家一些建议。第一点,企业要有制度,很多国有企业以财务管控为主,既然数据是数字化时代的资产,为什么不把数据当资产管理?上汽集团是中国制造业里面少有的有一整套数据管理制度的企业。上汽集团总部有完整的数据管理制度,现在我们也在推行在各个子公司里面建立自己的数据管理制度。第二点要明确定位。集团数据部门还有集团的人工智能发展的职责所在,跟下属企业的数据部门和IT部门之间是什么分工,数据技术和数据管理、数据应用之间一层层叠加的关系是什么样的,必须要有分工。如果没有分工容易产生冲突,站在什么利益上做什么事情。对于上汽集团总部的业务数据来说,我们是做集团的制度,推动各个企业制度的建设,是做集团的数据平台和技术工具,不是去做具体的业务运营,业务运营的分析还是各个企业自己来做。同时在做项目过程当中,会去找到各个企业的共同点。比如刚刚举的舆情的例子,下面每一家整车厂都需要,他们就不需要重复投资,由集团以SaaS的方式直接提供。
最后,除了上汽汽车品牌以外,我们还有右边这些服务品牌,在充电,分时租赁和售后服务等领域,希望大家记住,谢谢大家!