IBM卢伟权:大数据下的信息掌握与分析

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

本文讲的是IBM卢伟权:大数据下的信息掌握与分析,当前,行业对于“大数据”的关注疾速攀升,这并不亚于数据本身的增长程度。您是否想过,我们看到的“谈大数据色变”或许只是个表象,走在行业前列的企业早已开始默默挖掘大数据中蕴含的“金矿”,为自己的业务飙升迈出制胜一步。

  作为行业引领者,IBM一直走在新趋势的前沿,对于大数据更是全力融合创新技术与行业经验助力客户梳理大数据概念,选择战略方向,制定方案策略,实现行业落地:今年5月,IBM智慧的分析洞察正式发布,为大数据环境下的企业描绘了一幅宏伟的战略蓝图。在此基础上,IBM全面整合内部资源,搭建了融软件、硬件、服务为一体的大数据平台,为企业提供易执行、低成本、高效率的大数据解决方案。在行业方面,IBM为行业企业量身定制的大数据解决方案优势充分凸显,大数据制胜策略已不再纸上谈兵,实践之花也开遍制造、电信、金融等诸多行业。

  IBM软件集团大中华区信息管理软件总经理卢伟权认为,IBM不仅仅是在大数据里有不同的投入,在不同的数据平台上,我们都有很多配合大数据的开发和产品来做整个大数据的实施和管理。

  卢伟权指出,在IM中其中有一部分是我们这个部门里负责掌控信息,掌控信息的意思就不单只是大数据,还有我们很多客户要做的就是整合的平台,来去把不同来源的数据,不管是大数据,一些非结构化的数据结合在一起,然后产生可以去管理的平台,来去达到管理整个架构的目的,这不单只是大数据,大数据只是整个平台里面的一部分,要整合在他们现有的平台里建设起来,提供这样的服务给我们的客户。我们谈大数据的时候,不要忘掉大数据是整个平台的一部分,所以我们的友商只是谈大数据,而没有说怎么把大数据整合在客户的现有平台,没有说只是做一个大数据的平台,不管现有的平台,在我们IBM来看也是这样,跟整个IT的架构配合起来才有用。如果只是建一个大数据平台,没有连接起来,我们是没有这样的应用的。

IBM卢伟权:大数据下的信息掌握与分析
▲IBM软件集团大中华区信息管理软件总经理卢伟权

  建了大数据以后,可以做的其中一部分,是要洞察未来,因为很多时候我现在做的BI上,我只是做一些过去的分析,过去发生什事情,我知道了,要根据这个过去的事情再去做一些动作才有用。但是我只是记录过去,而没有用过去再去洞察将来,如果没有这样做是没有用的。大家都可以看过去的报表,为什么很多客户说现在要用大数据呢?因为大数据能在给我们客户一个更好的洞察力。举个例子,如果我用一个数据仓库做一些事情,因为数据仓库比较贵,我用一些非结构化的数据不能放在数据仓库里,有一些事情不能做得那么细,比如我们有一个客户在欧洲,他是做风力发电机的生产商,要给一个方案给他的客户,这些风力发电机放在什么地方,过去是用一周的时间才可以产生一个报告。过去的数据不能是放在一个实时的数据库里,因为太大,要调研分析这个地方的天气情况怎么样,过去五六十年风力的情况怎么样,不是一个实时的平台,如果安装一个风力发电机,要回去等一周,再把这个数据做一个调研分析。但是他用了我们的BigInsights之后,他可以把这个数据变成实时的,他可以说这应该放在什么地方,这不单只是说可以把时间缩短,同时可以做一些将来的洞察分析,所以大数据不单只是说把不同类型的数据结合在一起,还有是把做决定的质量提高了很多,这是最主要的一部分,不是说把数据大量的放在里面就可以,而是怎么利用这个大数据提高我做决定的质量。

  随着3个“V“以外还有一点是准确性,刚才也说到在原有的基础上,在有数据仓库和其他的平台,无论是大数据怎么结合起来,再把过去做的分析做的报告给它,不是说独立做出来大数据的平台,而是怎么结合在一起,IBM在这方面我们的DB2和BigInsights有很多整合在一起的地方,陈博士会说一下,我们整个怎么整合在一起的一部分。大数据怎么去展现出来,我有很多数据,做了分析之后怎么展现出来,过去有Cognos,也是我们收购回来的公司再整合到大数据的平台,可以让客户很容易展现这些大数据给他们的分析结果。过去传统的一些分析的办法已经不合适,如果单纯是以前的结构化数据,数据量没有那么大,数据不同的类型没有那么多,数据量没有那么大的话,过去用其他的分析工具可以做得到,现在数据这么大,不同类型的数据这么多,我们有新的和更有效的办法,让我们的客户做开发的工作。在我们的Streams,在我们的BigInsights里面的开发工具就有Text Analytics,以前结构化的数据分析里有不少的,在非结构化的数据可以用到新的工具才可以做到在数据里挖掘要用的东西出来。

IBM卢伟权:大数据下的信息掌握与分析
▲掌控信息 优化组织提升业务

  安全与治理也很重要,当你整合一个大数据平台,怎么去管理它,怎么管理它的生命周期,因为这个数据量每一天都有,数据量很大,不停的增长,不可能永远是放在一个平台不去管理,它有一个生命周期,我过了一个时间怎么把它变成一个归档,或者怎么样做其他的管理,或者是怎么让不同的人才可以看到这些数据,这都是包含在整个大数据的内容里,不只是一个平台的解决方案。

  刚才也说了我们有新的开发管理、管理平台、也有新的分析平台,我们在大数据里,现在在IBM里提供出了一个管理平台和分析平台,不单纯是给你一个开源的Hadoop平台,而是在上面做了很多开发的工作,如果大家熟悉Hadoop的平台的话,它只是一个平台,里面是没有管理工具的,也没有一些功能,比如把不同的数据把它汇总这样的功能,这样的功能是没有的。在这个平台上,IBM是有100个以上的功能,用我们过去三四十年在数据库领域的经验,把数据库在管理的办法也移植到大数据管理的平台上,BigInsights不单是Hadoop平台,而是IBM在数据管理的经验加载到Hadoop平台上,把Hadoop里面没有的功能加载上去,所以BigInsights平台不单只是一个Hadoop开源的工具。如果一个客户只是用Hadoop来做,只是变成一个实验室的工具来做,这个很难的,IBM开发完以后用到Hadoop的平台,这个可用性、可管理性、安全性都提高了很多。

  大数据里面有几个重要的方面,一是以Hadoop为主的BigInsights,刚才我说了BigInsights不单只是Hadoop的一个平台,在上面IBM投入了很多开发的力量去把它优化,最主要是作为静态的大数据分析的工具和平台。当你有很多数据汇总以后,可能要找一个地方来把它放在Hadoop平台上,或者Biginsights的平台上。还有Streams流计算,IBM自己开发的工具,处理什么大数据呢?就是一些动态的大数据?什么是动态的大数据呢?举个例子,刚才也提到电表的数据是不停的发放,这些数据是每一秒钟都会发生的,这些数据过去都没有人去管,没有处理到,我们是可以用到流数据和流计算的技术,把这些数据管理下来,可以做一些分析。我们现在在中国也有好几个项目是用流计算技术来做,其中也关注到天气,如果天气有什么变化,对我的电力供应有什么影响,这些也是可以用很多大数据和数据流这样的应用其中一个应用的案例。

  传统的数据仓库,IBM的DB2为主的数据仓库和Netezza的数据仓库为主的方案。用大数据做完分析以后,还要变成一个结构化的数据的分析方式。这些还要回到传统的数据仓库里记录下来,作为将来的分析可用,不能说做完大数据分析以后,把它放在什么地方,还得有一个数据仓库把它记录下来。同时间也有一些客户说,我建数据仓库的成本太高,数据量不停的增大,IBM有一个技术是DB2和Hadoop是可以连在一起,把DB2的一些数据放到一个便宜的平台,使这个数据仓库的成本降低,效能可以提高,把不经常用的数据放到Hadoop平台,这样可以提升数据仓库的功能,成本也可以降低。


  IBM做了一个很重要的投资,开发两个静态的大数据跟动态的大数据都用同样的技术来去做分析。对客户来说,这就省了很多开发的成本以及维护的成本。

  举个例子,在很多大数据的应用都是用在社交网的分析,在中国像是QQ,在国外像是Facebook,这些都有特定的内容是怎么样,如果每一个客户都自己去开发这个接口,就浪费很多开发的时间,这些都是共用的,IBM就开发了大数据,在11月份,我们第一个推出来的就是社交媒体的大数据,把这些标准的数据以及来源都可以很容易调到大数据里面去。在整个平台上,我们还有信息整合分析,这些数据怎么去管理?怎么去把它的生命周期管理好,将来怎么变成一个归档,然后怎么去管理,不应该看某些数据的人有不能去看,这是在平台里很重要的一部分,这也是其他大数据我们的友商是没有的,他们只是有一个大数据平台,生命周期和管理这一块都是找第三方来做,但是在IBM都是有这样的整套的解决方案。

IBM不仅仅是在大数据里有不同的投入
▲IBM的大数据战略

  Cognos是分析工具,可以用在大数据平台上,上面可以开发分析的应用,不同行业、不同的应用都是在这个平台上去开发的。在大数据来说,在整个信息管理其中的一块,在数据仓库和其他的是连在一起的,怎么样去把大数据这一部分怎么和数据仓库连在一起,当你做分析的时候,还要把数据质量管理起来,如果数据质量没有管理起来,分析出来的东西是垃圾还是没有用的。所以在一个平台上我们是有不同的数据质量管理东西,就是数据管理。还又怎么把数据管理好,以及安全的方面怎么去管理。这是我们信息生命周期的管理我们都是有解决方案给客户来管理它的数据平台。

IBM不仅仅是在大数据里有不同的投入
▲更多报道点击进入专题

  这里不单是管理IBM的部分,如果客户有第三方或者其他友商的平台,我们也可以管起来,包括Oracle我们都可以管起来。我们这是Guardium 的一个版本,我们上个月推出来,是可以管起来大数据,不管是BigInsights数据仓库,还是友商的数据仓库,都可以用Guardium管理它,哪些人可以用,哪些人不可以用,应该去如何调控,在整个平台里IBM的解决方案。将来我们说大数据,不是3个“V”,是4个“V”,就是增值性,大家在互联网都是不同的身份,怎么使这个变成真实性的做法呢?除了这一部分,还有我们的主数据是可以放在一起的。

  刚才说大数据的大数据量、多样性、速度和真实性,这4个“V”,IBM不仅仅是在大数据里有不同的投入,在不同的数据平台上,我们都有很多配合大数据的开发和产品来做整个大数据的实施和管理。

作者: 李伟

来源: IT168

原文标题:IBM卢伟权:大数据下的信息掌握与分析

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
58 4
|
7天前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
34 2
|
1月前
|
SQL 消息中间件 分布式计算
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
大数据-124 - Flink State 01篇 状态原理和原理剖析:状态类型 执行分析
66 5
|
2月前
|
存储 大数据 测试技术
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
在大数据环境中,数据存储格式直接影响查询性能和成本。本文探讨了 Parquet、Avro 和 ORC 三种格式在 Google Cloud Platform (GCP) 上的表现。Parquet 和 ORC 作为列式存储格式,在压缩和读取效率方面表现优异,尤其适合分析工作负载;Avro 则适用于需要快速写入和架构演化的场景。通过对不同查询类型(如 SELECT、过滤、聚合和联接)的基准测试,本文提供了在各种使用案例中选择最优存储格式的建议。研究结果显示,Parquet 和 ORC 在读取密集型任务中更高效,而 Avro 更适合写入密集型任务。正确选择存储格式有助于显著降低成本并提升查询性能。
423 1
用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
|
10天前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
56 14
|
16天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
51 2
|
17天前
|
数据采集 机器学习/深度学习 搜索推荐
大数据与社交媒体:用户行为分析
【10月更文挑战第31天】在数字化时代,社交媒体成为人们生活的重要部分,大数据技术的发展使其用户行为分析成为企业理解用户需求、优化产品设计和提升用户体验的关键手段。本文探讨了大数据在社交媒体用户行为分析中的应用,包括用户画像构建、情感分析、行为路径分析和社交网络分析,以及面临的挑战与机遇。
|
17天前
|
机器学习/深度学习 搜索推荐 大数据
大数据与教育:学生表现分析的工具
【10月更文挑战第31天】在数字化时代,大数据成为改善教育质量的重要工具。本文探讨了大数据在学生表现分析中的应用,介绍学习管理系统、智能评估系统、情感分析技术和学习路径优化等工具,帮助教育者更好地理解学生需求,制定个性化教学策略,提升教学效果。尽管面临数据隐私等挑战,大数据仍为教育创新带来巨大机遇。
|
20天前
|
人工智能 供应链 搜索推荐
大数据分析:解锁商业智能的秘密武器
【10月更文挑战第31天】在信息爆炸时代,大数据分析成为企业解锁商业智能的关键工具。本文探讨了大数据分析在客户洞察、风险管理、供应链优化、产品开发和决策支持等方面的应用,强调了明确分析目标、选择合适工具、培养专业人才和持续优化的重要性,并展望了未来的发展趋势。
|
24天前
|
存储 机器学习/深度学习 大数据
量子计算与大数据:处理海量信息的新方法
【10月更文挑战第31天】量子计算凭借其独特的量子比特和量子门技术,为大数据处理带来了革命性的变革。相比传统计算机,量子计算在计算效率、存储容量及并行处理能力上具有显著优势,能有效应对信息爆炸带来的挑战。本文探讨了量子计算如何通过量子叠加和纠缠等原理,加速数据处理过程,提升计算效率,特别是在金融、医疗和物流等领域中的具体应用案例,同时也指出了量子计算目前面临的挑战及其未来的发展方向。