本节书摘来自华章出版社《企业大数据系统构建实战:技术、架构、实施与应用》一 书中的第1章,第1.1节,作者:吕兆星 郑传峰 宋天龙 杨晓鹏,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1.1 宏观
大数据定义多种多样,其中较为典型的有:
研究机构Gartner给出了这样的定义:需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
笔者认为:大数据是指无法用常规数据工具软件进行获取、存储、计算和管理的数据集合,是需要新IT技术才能使其具备更好的洞察发现力、流程优化能力,并提供智能决策力,以此来适应大量、高增长、多样化和有价值的信息资产。
大数据具有如下特征:
容量(Volume):传统数据库容量一般以MB和GB为计量单位,而大数据是以GB、TB和PB为计量单位。
种类(Variety):数据类型多种多样,包含结构化、半结构化和非结构化,例如文本、日志、图片、音频和视频等。
速度(Velocity):指数据的响应速度,包括数据获取速度和数据输出速度都要优于传统数据库。
真实性(Veracity):大数据存在噪声较多,需要经过筛选、填充和删除的过程,确保数据的真实性和有效性。
复杂性(Complexity):数据量巨大,来源多渠道,包括自有数据、网络数据、合作伙伴数据,同时数据质量和类型又加深了大数据的复杂性。
价值(Value):大数据蕴藏着既定的价值,价值程度取决于应用数据的对象,通过合理的商业目标即可挖掘出数据潜藏的金矿。
大数据平台技术与传统数据库的差异如表1-1所示。
大数据具有很多传统数据库不具备的优点,那么大数据可以解决哪些问题?
连接数据孤岛:将企业各个孤立的信息孤岛进行连接,实现数据信息正向和反向的查询,由原来的单一信息查阅,变为全景式的鸟瞰企业数据内容。
整合信息资源:通过虚拟化技术,整合IT信息资源,有效地展现软硬件和网络资源的使用和计算情况,更加合理地规划和使用IT资源。
内部效率提升:通过信息孤岛的连接,缩短了往常数据提取、存储、整合和计算的时间,根据业务需求的难易程度,通过合理分配离线和实时计算,能够大幅度提高内部效率。
供应链优化:数据连接不是局限于企业内部,而是延伸到企业的上下游,为合作伙伴提供数据共享平台,有利于提升供应链上下游的协同合作,进一步提升供应链效率和效果。
企业业绩增长:大数据的模型算法包含有指导和无指导两种类型,有指导的算法能够帮助企业优化现有的业务流程,从中找到业务规律,更有效地帮助业绩增长,而无指导的算法结合全景式的数据,可以帮助企业找到业务增长或创新点,更好地帮助企业拓宽业务范畴。
用户体验提升:用户包含内部和外部,内部指企业自有的管理人员以及员工,而外部则包含企业面对的客户,以及供应链上下游的合作伙伴,通过大数据全景式的数据集市,为企业用户提供更加完善和流畅的服务,有助于提升整体的体验。
产业服务全景化:企业除了纵向地与上下游伙伴进行数据共享,还有另一种状态,即通过横向与其他伙伴进行数据连接,从而实现全产业的全景数据化。因为大数据最重要的理念是开放、共享和协作,只有连接更多有效有价值的数据才能使企业甚至整个产业屹立不倒。
了解了大数据能够解决的问题,那么企业的大数据战略应该是什么样子的,应该如何对企业大数据战略进行定位?我们需要考虑以下问题,如图1-1所示。
企业大数据战略定位可以自下而上或者自上而下地来进行确定,两种方式各有利弊,自下而上容易造成总体战略不明确,从而导致整体战略定位的失败,但自下而上的方式通常是更容易落地执行的办法;自上而下则相反,根据企业在市场中所处的地位、竞争对手情况、宏观经济环境、供应链状态和市场用户的实际需求,大数据的总体目标更能符合企业总体发展战略,但如果战略没能贯彻到底或者在没有获得认可的情况下,这个战略最后是很难落地执行的。因此通常是以自上而下为主,通过自下而上的办法来修正总体大数据战略定位的方式。不论企业最终以哪种方式来确定大数据的战略定位,以下内容都是必须在制定战略时考虑的:
(1)考虑企业有什么数据
数据分为三种类型,第一方数据(企业自有数据)、第二方数据(合作伙伴数据)和第三方数据(互联网数据),企业需要评估自身具备的数据条件(包括数据来源渠道可靠性、数据更新及时性、数据质量有效性、数据内容完整性等),来考虑或者设计规划总体大数据的战略定位,正所谓巧妇难为无米之炊,数据是大数据战略的根本,不清楚数据源的情况,就无法确定整体的大数据战略定位。
(2)通过哪些技术实现
大数据的处理技术多种多样,有硬件虚拟化技术、数据存储技术、数据检索技术、数据计算技术、数据挖掘技术和分布式协调技术等,同时每种技术中也包括各种不同功能的组件,企业应该根据自身的实际需求来选择,盲目贪多,容易导致架构不清晰,甚至影响整体的运行效率,拖累企业大数据战略进程。
(3)如何保证大数据顺利完成
有了数据源和实现技术,企业还需要考虑如何保证大数据战略定位的有效落地,因此,需要加入监督体系,主要是从应用需求的角度出发,明确应用需求的管理模式、管理职能和管理流程,监督体系还应该包含奖惩机制,有效的奖惩机制能够促进整体战略更加快速的推进。因此,通过相应的监督管理机制才能确保整体战略执行的有效性、持续性、稳定性和高效性,同时也可避免技术资源和人力资源的分散所导致的整体战略执行效率低下等问题。
(4)企业大数据的应用策略有哪些
企业大数据的应用策略是与各个职能部门相关的内容,应用策略需要从各职能部门中发起,同时又需要符合企业总体的大数据战略定位,应用策略的把控一般是通过PMO(项目管理办公室)来实现,而PMO需要对企业总体战略以及大数据战略定位非常清晰,这样才能有效地把控各个职能部门的应用策略能够在遵循总体方针的前提下,有效地执行下去,让大数据的应用战略真正地为企业带来效率和效益提升。