加速企业级大数据方案落地 IBM聚力发挥Spark优势-阿里云开发者社区

加速企业级大数据方案落地 IBM聚力发挥Spark优势

2017-07-03 1606

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

大数据技术在近些年得到了长足发展，大数据软件框架Hadoop的快速兴起引领了大数据的行业潮流。作为一种类Hadoop的新计算框架，Spark自2014年从Apache中孵化出来后，在短短两年的时间中为大数据技术赋予了新的活力，这一基于内存的分布式计算框架已经在众多行业得到应用。

随着2.0版本的新近发布，Spark向大数据市场展现了其性能提升空间，其在Streaming概念上的进一步强化为实时流处理及查询加载了更强的保障。在大数据领域，Spark逐渐成熟，正在走向更多行业、更多企业。

面对这一逐渐强大的数据计算架构，IBM着力发展Spark项目，将其定位于数据分析的操作系统，并基于Spark构建IBM数据分析产品的整个体系。IBM对Spark的“押宝”，可以从社区贡献、产品搭建、人才教育、创新应用四个维度予以解读。

贡献社区、搭建产品 IBM与Spark互利共进

2015年，IBM成立了Spark技术中心(STC，Spark Technology Center)，专注于Spark解决方案的提升及技术交流，针对Spark内核、Spark Streaming、SparkML和SparkR打造集合专家、提交者和贡献者的社区。在短短的1年时间里，IBM通过这一技术中心为Spark社区贡献约800个JIRA，并提供了Spark认证，进一步鼓励基于Spark的开发。目前，IBM在Spark社区致力于推进Spark SQL、SparkML，Benchmark及 Swift对象存储。此外，IBM将其机器学习框架SystemML贡献于Apache社区，使其作为 Apache的孵化器项目，为机器学习用户快速优化算法和模型。

开源领域新兴成果层出不穷，然而从技术代码到企业级应用、从开发成果到企业级产品的历程，仍然存在着一段距离。除贡献于Spark社区，IBM同时基于Spark构建自身的产品及服务，辅助企业将开源成果转化为其能够良好应用的IT产品和服务，提升企业对开源的应用体验。

基于Spark组件，IBM提供了多方面的大数据解决方案，包括BigInsights、数据科学体验(Data Science Experience)、dashDB数据仓库及Spark即服务(Spark as a Service)等。Spark即服务将Spark产品以云服务的方式直接交付，并在此过程中赋予其更高的安全性、数据存储能力及多租户特性。在IBM自身的解决方案上，IBM基于Spark提供面向分析的数据引擎，将传统的单机核心引擎通过Spark改造成分布式，并在Watson分析等领域以更高的性能、更分布的方式对数据进行分析和处理。在针对Spark的集成方面，IBM将数据直接复制到Spark上开展分析，提供了SPSS建模模块和分析服务器、Cloudant NoSQL数据库、InfoSphere Streams流分析等解决方案。

除在软件和服务层面实现对Spark的支持，IBM在硬件架构层面也利用Power Systems提升Spark的性能。基于内存的Spark采用数据集中式的分析，能够充分利用Power芯片的优势。在实际测试与应用案例中，运行在Power上的Spark性能达到了x86方案的两倍。未来，IBM将以更多Spark相关的产品，服务更多企业客户的大数据分析需求。

培养人才、创新应用 IBM推进大数据的社会利用

大数据领域，人才是最为重要的资产。面向市场对数据科学家、数据分析师、数据工程师、数据架构师等不同角色的大数据人才的需求，IBM成立了数据科学学院，从大数据专业技能、社区互动、联合项目和大数据创业孵化器几个方面推进大数据人才的培养、成长。这一公益组织在IBM发起的“大数据大学”平台上提供免费的课程，通过开设Hadoop、Spark、R、机器学习等课程，提升大数据人才专业技能。大数据大学针对不同的学习目标配备了专门的学习路径，在全球网站和中文网站上提供数据工程、数据分析学习的免费课程。在这一平台上，学习者、数据科学家、数据工程师不仅可以增进自身的理论知识，还可以通过利用R语言、Spark集群，开展数据清洗、分析、可视化操作等实践，以实践检验真理。

此外，在大数据社区中，IBM发起了多样的交互活动，包括大数据峰会、Spark大赛等。以Spark大赛为例，IBM目前正在开展的全球Spark大赛得到了中国区的近20个参赛方案，激发了本地的创新火花。通过免费的方式和合作伙伴、孵化器企业合作，为提供技术支持，从而使得Spark等大数据解决方案在各行各业落地，开展服务。

最近，IBM正在基于Spark开展创新项目，充分发挥Spark的作用。在智能交通领域，IBM通过采集物联网数据，并在Spark Streaming上对大众出行数据进行处理过滤、去噪、数据标准化等，建立了基于Spark的数据模型，实时分析人口聚集、流动情况，以预测交通拥堵情况，为交通管理部门和运维部门采取管制措施提供参考，并进一步提高公众的出行体验。此外，IBM对Spark的创新应用还为天气预测提供了提升的解决方案。未来，IBM将继续结合Spark的大数据能力及多方参与的互动机制，为大数据在企业的应用搭建桥梁。

本文转自d1net（转载）

加速企业级大数据方案落地 IBM聚力发挥Spark优势

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

加速企业级大数据方案落地 IBM聚力发挥Spark优势

热门文章

最新文章

相关课程

相关电子书