IBM卢伟权:大数据下的信息掌握与分析

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

本文讲的是IBM卢伟权:大数据下的信息掌握与分析,当前,行业对于“大数据”的关注疾速攀升,这并不亚于数据本身的增长程度。您是否想过,我们看到的“谈大数据色变”或许只是个表象,走在行业前列的企业早已开始默默挖掘大数据中蕴含的“金矿”,为自己的业务飙升迈出制胜一步。

  作为行业引领者,IBM一直走在新趋势的前沿,对于大数据更是全力融合创新技术与行业经验助力客户梳理大数据概念,选择战略方向,制定方案策略,实现行业落地:今年5月,IBM智慧的分析洞察正式发布,为大数据环境下的企业描绘了一幅宏伟的战略蓝图。在此基础上,IBM全面整合内部资源,搭建了融软件、硬件、服务为一体的大数据平台,为企业提供易执行、低成本、高效率的大数据解决方案。在行业方面,IBM为行业企业量身定制的大数据解决方案优势充分凸显,大数据制胜策略已不再纸上谈兵,实践之花也开遍制造、电信、金融等诸多行业。

  IBM软件集团大中华区信息管理软件总经理卢伟权认为,IBM不仅仅是在大数据里有不同的投入,在不同的数据平台上,我们都有很多配合大数据的开发和产品来做整个大数据的实施和管理。

  卢伟权指出,在IM中其中有一部分是我们这个部门里负责掌控信息,掌控信息的意思就不单只是大数据,还有我们很多客户要做的就是整合的平台,来去把不同来源的数据,不管是大数据,一些非结构化的数据结合在一起,然后产生可以去管理的平台,来去达到管理整个架构的目的,这不单只是大数据,大数据只是整个平台里面的一部分,要整合在他们现有的平台里建设起来,提供这样的服务给我们的客户。我们谈大数据的时候,不要忘掉大数据是整个平台的一部分,所以我们的友商只是谈大数据,而没有说怎么把大数据整合在客户的现有平台,没有说只是做一个大数据的平台,不管现有的平台,在我们IBM来看也是这样,跟整个IT的架构配合起来才有用。如果只是建一个大数据平台,没有连接起来,我们是没有这样的应用的。

IBM卢伟权:大数据下的信息掌握与分析
▲IBM软件集团大中华区信息管理软件总经理卢伟权

  建了大数据以后,可以做的其中一部分,是要洞察未来,因为很多时候我现在做的BI上,我只是做一些过去的分析,过去发生什事情,我知道了,要根据这个过去的事情再去做一些动作才有用。但是我只是记录过去,而没有用过去再去洞察将来,如果没有这样做是没有用的。大家都可以看过去的报表,为什么很多客户说现在要用大数据呢?因为大数据能在给我们客户一个更好的洞察力。举个例子,如果我用一个数据仓库做一些事情,因为数据仓库比较贵,我用一些非结构化的数据不能放在数据仓库里,有一些事情不能做得那么细,比如我们有一个客户在欧洲,他是做风力发电机的生产商,要给一个方案给他的客户,这些风力发电机放在什么地方,过去是用一周的时间才可以产生一个报告。过去的数据不能是放在一个实时的数据库里,因为太大,要调研分析这个地方的天气情况怎么样,过去五六十年风力的情况怎么样,不是一个实时的平台,如果安装一个风力发电机,要回去等一周,再把这个数据做一个调研分析。但是他用了我们的BigInsights之后,他可以把这个数据变成实时的,他可以说这应该放在什么地方,这不单只是说可以把时间缩短,同时可以做一些将来的洞察分析,所以大数据不单只是说把不同类型的数据结合在一起,还有是把做决定的质量提高了很多,这是最主要的一部分,不是说把数据大量的放在里面就可以,而是怎么利用这个大数据提高我做决定的质量。

  随着3个“V“以外还有一点是准确性,刚才也说到在原有的基础上,在有数据仓库和其他的平台,无论是大数据怎么结合起来,再把过去做的分析做的报告给它,不是说独立做出来大数据的平台,而是怎么结合在一起,IBM在这方面我们的DB2和BigInsights有很多整合在一起的地方,陈博士会说一下,我们整个怎么整合在一起的一部分。大数据怎么去展现出来,我有很多数据,做了分析之后怎么展现出来,过去有Cognos,也是我们收购回来的公司再整合到大数据的平台,可以让客户很容易展现这些大数据给他们的分析结果。过去传统的一些分析的办法已经不合适,如果单纯是以前的结构化数据,数据量没有那么大,数据不同的类型没有那么多,数据量没有那么大的话,过去用其他的分析工具可以做得到,现在数据这么大,不同类型的数据这么多,我们有新的和更有效的办法,让我们的客户做开发的工作。在我们的Streams,在我们的BigInsights里面的开发工具就有Text Analytics,以前结构化的数据分析里有不少的,在非结构化的数据可以用到新的工具才可以做到在数据里挖掘要用的东西出来。

IBM卢伟权:大数据下的信息掌握与分析
▲掌控信息 优化组织提升业务

  安全与治理也很重要,当你整合一个大数据平台,怎么去管理它,怎么管理它的生命周期,因为这个数据量每一天都有,数据量很大,不停的增长,不可能永远是放在一个平台不去管理,它有一个生命周期,我过了一个时间怎么把它变成一个归档,或者怎么样做其他的管理,或者是怎么让不同的人才可以看到这些数据,这都是包含在整个大数据的内容里,不只是一个平台的解决方案。

  刚才也说了我们有新的开发管理、管理平台、也有新的分析平台,我们在大数据里,现在在IBM里提供出了一个管理平台和分析平台,不单纯是给你一个开源的Hadoop平台,而是在上面做了很多开发的工作,如果大家熟悉Hadoop的平台的话,它只是一个平台,里面是没有管理工具的,也没有一些功能,比如把不同的数据把它汇总这样的功能,这样的功能是没有的。在这个平台上,IBM是有100个以上的功能,用我们过去三四十年在数据库领域的经验,把数据库在管理的办法也移植到大数据管理的平台上,BigInsights不单是Hadoop平台,而是IBM在数据管理的经验加载到Hadoop平台上,把Hadoop里面没有的功能加载上去,所以BigInsights平台不单只是一个Hadoop开源的工具。如果一个客户只是用Hadoop来做,只是变成一个实验室的工具来做,这个很难的,IBM开发完以后用到Hadoop的平台,这个可用性、可管理性、安全性都提高了很多。

  大数据里面有几个重要的方面,一是以Hadoop为主的BigInsights,刚才我说了BigInsights不单只是Hadoop的一个平台,在上面IBM投入了很多开发的力量去把它优化,最主要是作为静态的大数据分析的工具和平台。当你有很多数据汇总以后,可能要找一个地方来把它放在Hadoop平台上,或者Biginsights的平台上。还有Streams流计算,IBM自己开发的工具,处理什么大数据呢?就是一些动态的大数据?什么是动态的大数据呢?举个例子,刚才也提到电表的数据是不停的发放,这些数据是每一秒钟都会发生的,这些数据过去都没有人去管,没有处理到,我们是可以用到流数据和流计算的技术,把这些数据管理下来,可以做一些分析。我们现在在中国也有好几个项目是用流计算技术来做,其中也关注到天气,如果天气有什么变化,对我的电力供应有什么影响,这些也是可以用很多大数据和数据流这样的应用其中一个应用的案例。

  传统的数据仓库,IBM的DB2为主的数据仓库和Netezza的数据仓库为主的方案。用大数据做完分析以后,还要变成一个结构化的数据的分析方式。这些还要回到传统的数据仓库里记录下来,作为将来的分析可用,不能说做完大数据分析以后,把它放在什么地方,还得有一个数据仓库把它记录下来。同时间也有一些客户说,我建数据仓库的成本太高,数据量不停的增大,IBM有一个技术是DB2和Hadoop是可以连在一起,把DB2的一些数据放到一个便宜的平台,使这个数据仓库的成本降低,效能可以提高,把不经常用的数据放到Hadoop平台,这样可以提升数据仓库的功能,成本也可以降低。


  IBM做了一个很重要的投资,开发两个静态的大数据跟动态的大数据都用同样的技术来去做分析。对客户来说,这就省了很多开发的成本以及维护的成本。

  举个例子,在很多大数据的应用都是用在社交网的分析,在中国像是QQ,在国外像是Facebook,这些都有特定的内容是怎么样,如果每一个客户都自己去开发这个接口,就浪费很多开发的时间,这些都是共用的,IBM就开发了大数据,在11月份,我们第一个推出来的就是社交媒体的大数据,把这些标准的数据以及来源都可以很容易调到大数据里面去。在整个平台上,我们还有信息整合分析,这些数据怎么去管理?怎么去把它的生命周期管理好,将来怎么变成一个归档,然后怎么去管理,不应该看某些数据的人有不能去看,这是在平台里很重要的一部分,这也是其他大数据我们的友商是没有的,他们只是有一个大数据平台,生命周期和管理这一块都是找第三方来做,但是在IBM都是有这样的整套的解决方案。

IBM不仅仅是在大数据里有不同的投入
▲IBM的大数据战略

  Cognos是分析工具,可以用在大数据平台上,上面可以开发分析的应用,不同行业、不同的应用都是在这个平台上去开发的。在大数据来说,在整个信息管理其中的一块,在数据仓库和其他的是连在一起的,怎么样去把大数据这一部分怎么和数据仓库连在一起,当你做分析的时候,还要把数据质量管理起来,如果数据质量没有管理起来,分析出来的东西是垃圾还是没有用的。所以在一个平台上我们是有不同的数据质量管理东西,就是数据管理。还又怎么把数据管理好,以及安全的方面怎么去管理。这是我们信息生命周期的管理我们都是有解决方案给客户来管理它的数据平台。

IBM不仅仅是在大数据里有不同的投入
▲更多报道点击进入专题

  这里不单是管理IBM的部分,如果客户有第三方或者其他友商的平台,我们也可以管起来,包括Oracle我们都可以管起来。我们这是Guardium 的一个版本,我们上个月推出来,是可以管起来大数据,不管是BigInsights数据仓库,还是友商的数据仓库,都可以用Guardium管理它,哪些人可以用,哪些人不可以用,应该去如何调控,在整个平台里IBM的解决方案。将来我们说大数据,不是3个“V”,是4个“V”,就是增值性,大家在互联网都是不同的身份,怎么使这个变成真实性的做法呢?除了这一部分,还有我们的主数据是可以放在一起的。

  刚才说大数据的大数据量、多样性、速度和真实性,这4个“V”,IBM不仅仅是在大数据里有不同的投入,在不同的数据平台上,我们都有很多配合大数据的开发和产品来做整个大数据的实施和管理。

作者: 李伟

来源: IT168

原文标题:IBM卢伟权:大数据下的信息掌握与分析

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
183 2
|
3月前
|
SQL 消息中间件 分布式计算
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
100 5
|
30天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
155 15
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
1月前
|
分布式计算 DataWorks 搜索推荐
用户画像分析(MaxCompute简化版)
通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行数仓开发与分析,并通过案例体验DataWorks数据集成、数据开发和运维中心模块的相关能力。
|
2月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
135 4
|
2月前
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
47 4
|
2月前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
343 5
|
2月前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
298 14
|
2月前
|
存储 机器学习/深度学习 大数据
量子计算与大数据:处理海量信息的新方法
量子计算作为革命性的计算范式,凭借量子比特和量子门的独特优势,展现出在大数据处理中的巨大潜力。本文探讨了量子计算的基本原理、在大数据处理中的应用及面临的挑战与前景,展望了其在金融、医疗和物流等领域的广泛应用。

热门文章

最新文章