云计算是基于互联网的相关服务的增加、使用和交付模式,这种模式提供可用的、便捷的、按需的网络访问, 进入可配置的计算资源共享池,这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。云是网络、互联网的一种比喻说法。
大数据的对数据进行专业化处理的过程离不开云计算的支持。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要框架来向数十、数百或甚至数千的电脑分配工作。并且,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
简而言之,云计算作为计算资源的底层,支撑着上层的大数据处理。本质上讲,云计算强调的是计算能力;而大数据强调的是处理、计算的对象。二者并不是孤立存在的,而是相互关联的。
云计算中的重要组成部分既是基础设施还是存储设备;大数据提供给用户的服务需要对数据进行处理,主要落脚在对数据的加工上。因此,云计算与大数据两者密不可分。
对于大数据初学者而言,很容易简单地将大数据理解成为“大量的数据”,但是大数据的内涵不止于此.在维基百科中,将大数据定义为无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。IBM提出了大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。下面会在1.3详细解释5V的含义。
理解大数据概念意义在于能够准确地在合适的条件下使用大数据处理方式进行有效处理,而不是在无需使用大数据技术的情况下使用,或者在必须使用大数据技术的情况下遗忘,这都有可能造成数据处理效率的低下。
一般而言,我们会根据大数据的5V特点来判断该数据是否适合于使用大数据技术来处理,并且,这5V中对于Volume(大量)的要求是必要的,这里的大量不仅仅是指当前所需处理的大量,也包含对未来数据量的预期。
通常情况下,当数据的量级达到TB,或者当这批数据会在未来一段时间内不断增长且会增长到PB量级时,即可将其定义为Volume(大量)。
在数据满足Volume(大量)特征的前提下,剩下的4V匹配零条到多条时,就可将这批数据定义为大数据。其中,Velocity(高速)代表对数据处理时效性的要求,理论上而言,在不考虑时间的前提下,我们可以使用单节点的处理方式处理任何量级的数据,但是效率会非常低下,在大多数场景下,超过24小时的处理时间就不再剧有时效性了,因此我们需要采用大数据的处理方式。
Variety(多样)表现在数据形式的多样性。例如当我们需要将web系统json格式的日志数据,关系型数据库中的业务数据,windows文件系统中的文件数据进行汇总分析的时候,我们可以使用大数据技术进行统一存储,再经过一定处理后进行分析。这是其他单一处理方式所不具备的处理手段。
Value(低价值密度)和Veracity(真实性)更加偏向于对数据是否属于大数据的验证和描述,一般不用来进行大数据的判断。例如在1TB的交易数据中,我们想分析买A品牌鞋子的年龄段,那么其中有价值的年龄数据可能只占了这1TB数据的千万分之一,但是在另一个场景下,比如我们想分析某种行为下的性别特征,那又是另外千万分之一的数据拥有了价值。
从当前社会生产生活的角度而言,大数据的应用场景几乎涵盖方方面面,包括金融、汽车、餐饮、电信、能源、体能和娱乐等在内的社会各行各业都已经融入了大数据的印迹。
制造业,利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。
金融行业,大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。
汽车行业,利用大数据和物联网技术的无人驾驶汽车,在不远的未来将走入我们的日常生活。
互联网行业,借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。
电信行业,利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。
能源行业,随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。
物流行业,利用大数据优化物流网络,提高物流效率,降低物流成本。
城市管理,可以利用大数据实现智能交通、环保监测、城市规划和智能安防。
生物医学,大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。
体育娱乐,大数据可以帮助我们训练球队,决定投拍哪种题财的影视作品,以及预测比赛结果。
安全领域,政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。
个人生活,大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。
大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了社会生产和生活,未来也必将产生重大而深远的影响。