加速企业级大数据方案落地 IBM聚力发挥Spark优势

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

大数据技术在近些年得到了长足发展,大数据软件框架Hadoop的快速兴起引领了大数据的行业潮流。作为一种类Hadoop的新计算框架,Spark自2014年从Apache中孵化出来后,在短短两年的时间中为大数据技术赋予了新的活力,这一基于内存的分布式计算框架已经在众多行业得到应用。

随着2.0版本的新近发布,Spark向大数据市场展现了其性能提升空间,其在Streaming概念上的进一步强化为实时流处理及查询加载了更强的保障。在大数据领域,Spark逐渐成熟,正在走向更多行业、更多企业。

面对这一逐渐强大的数据计算架构,IBM着力发展Spark项目,将其定位于数据分析的操作系统,并基于Spark构建IBM数据分析产品的整个体系。IBM对Spark的“押宝”,可以从社区贡献、产品搭建、人才教育、创新应用四个维度予以解读。

贡献社区、搭建产品 IBM与Spark互利共进

2015年,IBM成立了Spark技术中心(STC,Spark Technology Center),专注于Spark解决方案的提升及技术交流,针对Spark内核、Spark Streaming、SparkML和SparkR打造集合专家、提交者和贡献者的社区。在短短的1年时间里,IBM通过这一技术中心为Spark社区贡献约800个JIRA,并提供了Spark认证,进一步鼓励基于Spark的开发。目前,IBM在Spark社区致力于推进Spark SQL、SparkML,Benchmark及 Swift对象存储。此外,IBM将其机器学习框架SystemML贡献于Apache社区,使其作为 Apache的孵化器项目,为机器学习用户快速优化算法和模型。

开源领域新兴成果层出不穷,然而从技术代码到企业级应用、从开发成果到企业级产品的历程,仍然存在着一段距离。除贡献于Spark社区,IBM同时基于Spark构建自身的产品及服务,辅助企业将开源成果转化为其能够良好应用的IT产品和服务,提升企业对开源的应用体验。

基于Spark组件,IBM提供了多方面的大数据解决方案,包括BigInsights、数据科学体验(Data Science Experience)、dashDB数据仓库及Spark即服务(Spark as a Service)等。Spark即服务将Spark产品以云服务的方式直接交付,并在此过程中赋予其更高的安全性、数据存储能力及多租户特性。在IBM自身的解决方案上,IBM基于Spark提供面向分析的数据引擎,将传统的单机核心引擎通过Spark改造成分布式,并在Watson分析等领域以更高的性能、更分布的方式对数据进行分析和处理。在针对Spark的集成方面,IBM将数据直接复制到Spark上开展分析,提供了SPSS建模模块和分析服务器、Cloudant NoSQL数据库、InfoSphere Streams流分析等解决方案。

除在软件和服务层面实现对Spark的支持,IBM在硬件架构层面也利用Power Systems提升Spark的性能。基于内存的Spark采用数据集中式的分析,能够充分利用Power芯片的优势。在实际测试与应用案例中,运行在Power上的Spark性能达到了x86方案的两倍。未来,IBM将以更多Spark相关的产品,服务更多企业客户的大数据分析需求。

培养人才、创新应用 IBM推进大数据的社会利用

大数据领域,人才是最为重要的资产。面向市场对数据科学家、数据分析师、数据工程师、数据架构师等不同角色的大数据人才的需求,IBM成立了数据科学学院,从大数据专业技能、社区互动、联合项目和大数据创业孵化器几个方面推进大数据人才的培养、成长。这一公益组织在IBM发起的“大数据大学”平台上提供免费的课程,通过开设Hadoop、Spark、R、机器学习等课程,提升大数据人才专业技能。大数据大学针对不同的学习目标配备了专门的学习路径,在全球网站和中文网站上提供数据工程、数据分析学习的免费课程。在这一平台上,学习者、数据科学家、数据工程师不仅可以增进自身的理论知识,还可以通过利用R语言、Spark集群,开展数据清洗、分析、可视化操作等实践,以实践检验真理。

此外,在大数据社区中,IBM发起了多样的交互活动,包括大数据峰会、Spark大赛等。以Spark大赛为例,IBM目前正在开展的全球Spark大赛得到了中国区的近20个参赛方案,激发了本地的创新火花。通过免费的方式和合作伙伴、孵化器企业合作,为提供技术支持,从而使得Spark等大数据解决方案在各行各业落地,开展服务。

最近,IBM正在基于Spark开展创新项目,充分发挥Spark的作用。在智能交通领域,IBM通过采集物联网数据,并在Spark Streaming上对大众出行数据进行处理过滤、去噪、数据标准化等,建立了基于Spark的数据模型,实时分析人口聚集、流动情况,以预测交通拥堵情况,为交通管理部门和运维部门采取管制措施提供参考,并进一步提高公众的出行体验。此外,IBM对Spark的创新应用还为天气预测提供了提升的解决方案。未来,IBM将继续结合Spark的大数据能力及多方参与的互动机制,为大数据在企业的应用搭建桥梁。


本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
13天前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
36 0
|
13天前
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
29 0
|
13天前
|
消息中间件 存储 分布式计算
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
43 0
|
2天前
|
分布式计算 大数据 Apache
利用.NET进行大数据处理:Apache Spark与.NET for Apache Spark
【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力,Apache Spark作为高效的大数据处理引擎,广受青睐。然而,.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark,展示如何通过C#和F#等.NET语言,结合Spark的强大功能进行大数据处理,简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作,突显了.NET for Apache Spark的易用性和强大功能。
6 1
|
7天前
|
存储 运维 物联网
长安汽车×云器Lakehouse一体化数据平台,成本降低50%,建立智能互联时代的领先优势
长安汽车智能化研究院致力于汽车智能化技术研究,通过构建基于云器科技Lakehouse一体化数据平台,解决了高并发、大规模车联网数据处理难题,实现了数据实时写入、高效分析和成本优化,助力汽车智能驾驶、网联和交通全面发展。
21 0
长安汽车×云器Lakehouse一体化数据平台,成本降低50%,建立智能互联时代的领先优势
|
11天前
|
消息中间件 分布式计算 Kafka
大数据平台的毕业设计02:Spark与实时计算
大数据平台的毕业设计02:Spark与实时计算
|
13天前
|
存储 分布式计算 算法
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
大数据-105 Spark GraphX 基本概述 与 架构基础 概念详解 核心数据结构
28 0
|
13天前
|
消息中间件 分布式计算 Kafka
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
29 0
|
12天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
13天前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
39 3