大数据时代的新生态

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据时代的新生态

image.png

“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”大数据时代的到来,最早由全球知名咨询公司麦肯锡提出。


的确,这是大数据的时代。在纽约市曼哈顿区南部的华尔街,投行根据民众情绪抛售股票;对冲基金依据购物网站的顾客评论,分析企业产品销售状况;就在刚结束不久的巴西世界杯上,谷歌的云计算平台通过对大量球队数据的分析,成功预测了世界杯16强比赛每场比赛的胜利者。


大数据是继云计算、物联网之后,IT行业又一大颠覆性的技术革命,当云计算为数据资产提供保管、访问的场所和渠道时,数据才是真正有价值的资产。无论是企业内部的交易信息,还是互联网世界中的商品物流信息,其数量与实时性将远远超越现有企业IT架构和基础设施的承载能力。


曾经很长一段时间里,大数据只停留在概念层面,而互联网、移动设备的发展则让这个概念落地成为现实。大数据意味着什么?如何盘活这些数据资产,以促进企业业务创新,利润增长?这些都是大数据的核心议题。


大数据价值


从字面理解,大数据首先要足够“大”。


一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……截至2012年,大数据的量级飞速增长,数据量从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)甚至ZB(1024EB=1ZB)级别。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。到2020年,全世界所产生的数据规模将达到今天的44倍。难怪亚马逊前任首席科学家Andreas Weigend说,“数据是新的石油。”


1号店董事长于刚在接受媒体采访时表示,大数据的价值体现分四个阶段。一开始数据是原始和零散的,表面看不出规律,经过过滤和组织后成为信息;再将相关联的信息整合和有效呈现后转化为知识,把对知识的深层领悟升华到理解事物的本质,并可以举一反三成为智慧。所以数据是源头,是决策和价值创造的基石。


而对于不同行业,大数据有着其特有的意义与价值。


在互联网行业,大数据指的是这样一种现象:互联网公司在日常运营中生成、累积的用户网络行为数据。以百度、阿里巴巴、腾讯等巨头为代表的平台型企业汇集了海量用户和商家,聚集成富有张力的生态系统。它们的大数据应用不再仅仅局限于企业本身,而是逐渐成为滋养整个大生态系统的血液。


阿里巴巴数据委员会主席车品觉曾一语道破阿里巴巴的大数据策略。“在数据化运营阶段时,数据就产生价值,你有意识地用它,但却没有关注它。而当你发现数据已经和战略融合后,你认识到要有意识收集它,管理它。”如果将阿里巴巴的大数据比做食材,那么自己用原料做菜,和将食材提供给其他厨师相比,二者对原料的关注度完全不同。


易传媒移动运营研发中心副总裁高照在接受《中国产经新闻》记者采访时表示,对于互联网企业来说,大数据意味着“能带来立刻购买与回报的数据”,即立刻能促进用户购买的数据。


“毫无疑问,互联网企业对于数据非常重视,只不过他们在大数据的层次上稍有不同。这些企业接近最终消费达成的一端,他们本身就是数据制造者,拥有海量的用户消费数据。同时他们拥有处理数据,以及挖掘数据的能力。”高照说道。


硬币的一面是互联网企业对于大数据的娴熟运用,另一面则是传统行业在大数据的语境下被互联网企业彻底颠覆。


传统意义上,金融系统都是基于数据库的,很多金融业务系统已经构建,如BI、信息分析。然而根据科斯定理,基于大数据的直接金融交易或会令金融机构的中介价值消失。假设在互联网支持金融市场完全互联网化,完全是供求方和需求方直接交易的情况下,交易成本会减少很多。


有专家认为,大数据可以提高金融机构的运营效率,降低成本。如果将网上银行、网上保险这些非结构性数据都备植到大数据平台上,则可以在历史数据和新数据增量的背景下,为金融机构提供全面的数据分析与整合。


《互联网金融》杂志副总编、中央民族大学法学院教授邓建鹏对《中国产经新闻》记者表示,对于金融机构来说,大数据的重要性不言而喻。能否很好地运用企业和客户数据,对金融机构挖掘优质借款人,以及识别风险都起着重要作用。


大数据转化


在《大数据时代》一书中提到,未来,数据将会像土地、石油和资本一样,成为经济运行中的根本性资源。数据科学家被认为是下一个十年最热门的职业。


事实上,当你仍然在把微博等社交平台当作抒情或者发表议论的工具时,华尔街的敛财高手们却正在挖掘这些互联网的“数据财富”,先人一步用其预判市场走势,以此取得了不俗的收益。数以PB计的数据因得到了有效转化与利用,重新焕发了其价值。


拥有庞大数据生态的阿里巴巴,已经攒下了超过100PB已处理过的数据,等于104857600GB,相当于4万个西雅图中央图书馆,580亿本藏书。对于阿里金融来说,数据库就是其核心资产。


基于采集到的海量企业数据,阿里前期会搜集包括商家平台认证和注册信息、历史交易记录、信用记录等结构化数据,以及用户评论等非结构化数据,同时还引入外部搜集的用电量、银行信贷等数据,做出放贷与否、放贷额度的精准决策。


对于淘宝卖家,阿里会综合其每月的交易额、发货地址、手机号段、家庭住址、性别等数据,以作为信用评价的维度之一。通过对卖家进行定量分析,借助“淘数据”,“数据魔方”,“聚石塔”等数据产品,阿里巴巴精准转化与利用了平台上的海量数据。


高照认为,企业对于大数据的利用,本质上都是通过数据帮助品牌建立起对消费者的精准洞察。企业可以通过原有数据获得更多新数据,以此提升产品性能,实现产品更新换代。


与此同时,大数据的转化过程也是大数据生态的构建过程。这个生态包括数据生产者、数据记录者、数据处理分析者、甚至数据使用者。


“大数据生态的上下游是千亿量级的产业链。”高照说道。遍布于城市各个角落的智慧照明系统,可以成为城市大数据的一个采集器,就如同智能手环可以给用户提供确实性的健康数据。


海量数据在创造互联网生态的同时,也令互联网与金融的边界越来越模糊,由数据挖掘产生的金融创新,正在深刻改变着传统金融机构的运作模式。作为数据密集型的行业,金融业应如何通过挖掘和分析数据来进行决策,成为当下一个重要的议题。


邓建鹏表示,银行掌握的客户数据比较单一,还有很多数据银行并没有掌握,比如用户每个月的水电煤气费,坐火车飞机的行程单,以及上网购物的足迹等。因此,如果银行能进一步丰富数据范围,全方位开发客户数据,对于银行开发更多的优质借款人,进一步识别风险都有好处。


事实上,面对大数据时代的到来,银行也已开始发力。如民生、中信、光大等多家银行已开展供应链金融服务,实现了从“线下手工处理”到“线上多系统集成”的转变。具体的做法是,在线整合与衔接各方流程,建立商务、资金服务与物流服务衔接的工作通道,让融资在线可得;同时整合与共享银行、核心企业与上下游企业,以及物流伙伴之间割裂的分散信息,让供应链管理与服务清晰可见。


与此同时,银行也开始涉足互联网平台,如建设银行的善融商务,工商银行的电商平台,都意在大数据。


和互联网企业一样,传统金融机构最后也会形成独特的大数据生态。邓建鹏表示,传统金融机构本身拥有数据,如果完全依靠自身的系统去挖掘与转化数据,成本非常高。因此,和互联网巨头合作是很好的方式。银行可以利用互联网企业的数据,开展各项服务,最终达成共赢的生态圈。


“重视”大数据


数据采集得越多,变量越多,由此带来的数据“噪音”也越多。在大数据的海洋中,有相当一部分是无用的数据。有些数据对企业暂时没有用,有些则永远没用。大数据本身良莠不齐,如何才能更好地判别数据价值?


eBay大中华区CEO林奕彰认为,那些现在看起来无效的数据,明后年可能就会随着科技进步被消化,目前只能先把这些数据储存起来。


大数据厂商Teradata天睿公司CTO宝立明表示,不能一昧否定看似无用的数据,它们同样蕴含着价值,它们确切的说法应该是低价值密度数据。企业只是尚未找到其价值体现手段,因此可以用低成本的存储服务器加以保留。例如,当人们通过搜索引擎检索时,会出现一些习惯性的拼写错误。这些错误数据虽然表面上没有意义,但通过收集这些数据却可以发现大量的用户习惯和规律。


“并没有一个通用的大数据法则。每个企业都需要根据自身情况去制定自己的菜谱,从而帮助自己更好地消化这些数据。”高照说道。


高照表示,每个企业需要的数据都不一样。比如,车企需要的数据体量比较小,但单个数据的价值很高,并且这些数据在一段时间内还会进一步发挥价值。相比之下,快销品的用户倾向于持续购买,因此快销行业的大数据系统都在百万千万级别。所以,行业不同,对数据挖掘的周期、维度也不同。


有专家指出,虽然数据是真实的,但是它会有偏向性,不同的分析方式,会有不同的解读,所以它可能并不完全客观。要审慎地用正确的方法处理数据,才能获得正确的信息。


如果说无用数据会带来数据噪音,那么安全问题就是悬在大数据头上的“达摩克利斯之剑”。


基于大数据可以对人们的状态和行为进行预测,未被妥善处理的大数据会对用户隐私造成极大侵害。社交网络研究表明,通过群组特性可以发现用户属性。例如通过分析用户的Twitter信息,可以发现用户的消费习惯以及喜好的球队等。


有专家表示,应该对用户隐私提供一定的保护,例如通过数据加密,只让需要知道数据的人了解、接触或者访问到这些数据。


隐私侵入问题不仅存在于个人用户,也存在于企业。从心脏出血漏洞、携程拖库等事件可以看出,黑客利用大数据分析向企业发起的攻击更为精准。对此高照表示,在大数据层面,企业最重要的是建立自有数据平台。在该平台,只有内部人在一定权限许可下才可以访问和使用。


有专家表示,可靠的数据存储、安全的挖掘分析、严格的运营监管是大数据时代企业安全的刚需,安全产业链协同成为必然趋势。信息安全需要在政府主管部门的统一协调管控之下,由产业链各个环节的企业开放安全数据和技术能力。


“大数据安全是一个永恒的话题,重要的是通过技术手段,降低安全风险。”邓建鹏说道。


现在,大数据带来的信息风暴正在变革我们的生活、工作和思维,开启了一次重大的时代转型。被誉为“大数据商业应用第一人”的维克托·迈尔·舍恩伯格指出,大数据时代最大的转变就是放弃对因果关系的渴求,而取而代之关注相关关系。


的确,大数据已为我们的生活创造出了前所未有的可量化的维度,大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 SQL 分布式计算
大数据技术生态,不懂你捶我
一文了解大数据技术生态。
252 0
大数据技术生态,不懂你捶我
|
机器学习/深度学习 人工智能 大数据
互联网+大数据创新
全国移动互联创新大赛大数据专项赛暨滨州2019大数据和人工智能研讨交流大会主题分享
955 1
互联网+大数据创新
|
新零售 大数据 数据挖掘
|
大数据 物联网 数据可视化
|
大数据 数据挖掘
下一篇
无影云桌面