阿里数据:2020七大数据技术领域趋势展望

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 在“20年代”的第一年,2020年,每一个技术领域,也有自己的一个关键事件回顾或一个关键节点畅想。回望过去,在数据技术领域发生了许多有意义的标志性事件。全球数据量在2019达41ZB,2020年预估到50ZB,这是国际权威机构Statista的统计和预测,这个数据量可以说大得惊人,也对数据技术提出了更高的要求。

在“20年代”的第一年,2020年,每一个技术领域,也有自己的一个关键事件回顾或一个关键节点畅想。回望过去,在数据技术领域发生了许多有意义的标志性事件。全球数据量在2019达41ZB,2020年预估到50ZB,这是国际权威机构Statista的统计和预测,这个数据量可以说大得惊人,也对数据技术提出了更高的要求。

站在新的一个十年,阿里数据各细分领域专家一起来共同回顾各个领域的过去、展望未来,围绕数据生命周期,分别从数据的采集、建设、管理、计算到应用进行了未来数据技术趋势的展望。

数据采集

小程序和IoT采集、采集端计算、采集法律法规建设将会是突破性变化

  • 采集端计算:在5G和IoT时代流量数据还将会爆炸式增长,未来如何在有限的服务器&计算资源的情况下保障数据采集的正常运转将会是一个核心问题。其中的一个探索方向将是端计算,通过将算法模型、数据压缩、数据过滤、反作弊等部署在终端,从而显著降低网络和服务端以及计算集群的压力。
  • 大数据采集法律法规建设:可能需要从3个方面入手:1. 清晰规定可以采集和不可以采集的数据;2. 明确规定不可以使用的采集技术,以及每种采集技术合法使用的量化指标;3. 违法行为的追究范围和标准。

数据建设与管理

基于模型的开发模式将成为主流,流批一体将从引擎层上升到平台层,数据处理的粒度会更加精细。

  • 基于模型的开发模式将成为主流:大数据开发的门槛进一步降低,用户不在需要编写复杂的SQL代码,只需要聚焦在数据模型的开发上。
  • 流批一体将从引擎层上升到平台层:流批一体不在局限于引擎层,而上在平台层有着实际的业务场景支持。
  • 数据处理的粒度会更加精细:数据处理从表粒度升级到字段粒度,极大的降低计算和存储的成本。

数据挖掘

AI民主化、多模态数据、可解释性AI与增强分析、5G、IOT与边缘计算等方向将会是突破性变化

  • AI民主化:随着AutoML技术的发展,数据挖掘的每一个流程都在朝着自动化的方向演变,越来越多的岗位可以运用AI的能力,AI人才不足的问题将在5年之内得到缓解。
  • 多模态数据:未来10年多模态数据的统一挖掘和建模以及互相之间的翻译和转换,将会是一个热点并有可能取得更大的突破。在对话领域,直接基于语音信号进行语义理解和实体识别也在进行。卫星等另类数据价值将被进一步融合与挖掘。
  • 可解释性AI与增强分析:可解释性AI与增强分析的出现,将拉近数据科学与商业之间的距离,为业务提供更加透明、可靠的AI能力。
  • 5G、IOT与边缘计算:中国的5G从2019年开始落地,2020年规模化。虽然当前5G核心应用较少,但伴随的IoT的同步发展,未来10年,将有更多端上数据可被采集和挖掘以及在端上进行边缘计算。

数据计算

无论是流批融合还是TA融合方面,我们都将面临更多的业务场景需求和挑战,而在AI智能计算的自动化和普惠运用,云、端计算融合等领域,也将迎来更多的实际业务落地场景。

BI

云BI将成为市场主流模式;自助数据分析需求持续旺盛;新制造、新金融、新零售、中小企业将成为BI市场中的亮点;数据分析和数据治理、数据资产管理会有更多交集;海量数据处理秒级响应成为标配;AI和BI融合,BI将真正进入智能化时代;移动端、共享、嵌入集成越来越普遍。

  • 云BI将成为市场主流模式:云厂商+BI产品将代替传统私有云解决方案,成为市场主流模式。云BI需要具有平台即服务和分析应用即服务的能力,可以同时在云端和本地部署、使用和管理数据分析报告和数据分析应用。从目前的国际IT市场来看,云端化确实是大势所趋,并逐渐形成规模市场,但国内市场由于数据环境相对封闭,数据安全也有很多挑战,导致企业关键数据仍然大部分存在于私有部署的系统中,云化的发展进度并不如国际市场,中国市场的云BI发光点可能在于业务集中在SAAS云平台系统中的中小型用户,这个有待市场验证。
  • 自助数据分析需求持续旺盛:数据分析的应用场景在不断丰富和扩展,越来越多的业务人员需要通过数据分析来为自己的业务决策提供支撑,而企业需要通过自助数据分析解放IT人员的劳动力,降低企业成本。
  • 新制造、新金融、新零售、中小企业将成为BI市场中的亮点:从社会的发展趋势来看,新制造、新金融、新零售的理念会迎来更大的普及,在这些行业“数据即能源”的理念逐渐成为业界的共识,用BI对数据进行分析、充分挖掘数据价值成为他们的标准配备。中小企业也会成为BI市场的新亮点,他们的应用场景主要集中在数字营销领域,亟需通过数据分析挖掘潜在的商业价值,帮助自身完成业务决策。
  • 数据分析和数据治理、数据资产管理会有更多交集。:接下来的几年将会有越来越多的大型企业实施统一的数据治理、数据资产管理项目,而数据分析是数据资产管理中的重要组成部分,两者的融合会越来越多。元数据管理、主数据管理、数据标签、多维数据分析等需要与BI深度集成,并在此基础上建立相应的分析模型。
  • 海量数据处理秒级响应成为标配:传统关系型数据库无法满足企业的数据发展需求,大数据逐渐成为企业标配,BI产品需要提供强大的数据计算处理引擎,能够降低企业数据查询等待时间成本,提高业务数据分析效率,并且要和企业自身的大数据平台做到无缝集成和对接。
  • AI和BI融合,BI将真正进入智能化时代:为满足企业业务人员自助数据分析和自动挖掘的需求,BI产品需要在现有的数据可视化和数据分析的功能基础上,增强数据自动挖掘能力,用户能够轻松使用平台内置的高级分析功能。
  • 移动端、共享、嵌入集成越来越普遍:随着ERP、OA、MES、HIS等常见业务系统的完善,企业少则数十套IT系统,多则上千套系统,新型自助BI需要能够与多个系统同时融合,全面分析企业的业务数据。大数据BI平台不同用户创建的分析页面,可以方便地分享给其他成员。同时,在企业的分析用户设计仪表板时,可以复用仪表板中的图表、维度、指标等,支持用户分享指定页面进行给其他部门成员,便于互动沟通交流。为满足企业人员实时办公、互通信息的需要。大数据BI平台还需要支持移动端上共享和查看分析结果,支持在移动端对分析结果进行数据层级钻取穿透、联动等。

数据服务

数据服务领域会在四个领域有显著变化:联邦学习促流通,AutoML提效能,高性能在线数据访问,数据云服务化。

  • 联邦学习促流通:数据一直是制约智能服务发展的关键因素,随着联邦学习的兴起,这一问题将会得到有效改善;在保证数据安全的前提下,让数据变为可普惠的能源,无论平行模式还是垂直模式,都有利于数据在不同企业、不同媒介中传播,发挥数据差异性的效果提升。
  • AutoML提效能:数据智能将会逐步走向大众化,AutoML将逐步进步,以达到普通的监督学习任务能够通过可用的方式或尚未完全完善的方法,自信地进行算法选择和超参数优化,AutoML将不再被视为机器学习工具箱的替代品,而是作为其中包含的另一种工具。
  • 高性能在线数据访问: 高性能在线分析诉求十分强烈,查询近似和数据近似技术发展将至关重要。
  • 数据云服务化:kubernetes 有大一统趋势,无论机器学习还是数据应用开发,云原生都是未来,数据服务Cloud Native 后,使得数据工程师聚焦在数据分析领域,植入关键数据逻辑,无需关注服务逻辑DevOps,同时机器学习训练部署预测都可以Cloud Native 化,促进资源高效利用及平台无关性,无论AutoML和还是传统数据服务都将彻底云化。

数据安全

数据安全领域会在四个领域有显著变化:监管合规依然是促进企业数据安全及个人隐私数据保护发展的最大驱动力;以数据为中心的数据安全体系将逐渐被认可;短期不会有一个技术系统可以解决所有的数据安全问题;数据安全的新技术、新模式不断涌现,数据安全产业边界呈现不断拓展和融合的态势。

  • 监管合规依然是促进企业数据安全及个人隐私数据保护发展的最大驱动力:专门的立法及行业标准也会陆续发布,但数据开放利用与数据安全成为“一个硬币的两面”,也是各国政策法律的焦点和难点。
  • 以数据为中心的数据安全体系将逐渐被认可:未来数据安全将成为企业的核心竞争力之一而不是成本,即能者多劳,数据安全做的好,可以获得更多的业务机会。
  • 短期不会有一个技术系统可以解决所有的数据安全问题,而是基于不同的场景下使用不同的技术来解决不同的安全问题:比如sgx和安全多方计算可以解决多方互不相信的数据融合的问题,端上的边缘计算可以解决采集合规的风险,差分隐私可以解决部分个人隐私数据泄露的问题,基于智能算法可以解决数据流通过程中的风险识别和控制问题等。
  • 数据安全产业将迎来重大机遇:数字经济时代的发展,强烈依赖以大数据为生产资料的挖掘和应用,在此过程中需要解决数据孤岛问题,增加数据资源的商业价值和社会价值。
  • 数据权属关系将更为复杂:数据保护需求全面爆发,数据安全的新技术、新模式不断涌现,数据安全产业边界呈现不断拓展和融合的态势。

本文来源:AliData微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
未来互联网发展趋势分析与展望
当我们谈论互联网的未来,往往会聚焦于新技术的应用和发展趋势。然而,除了技术本身的创新,还有许多其他因素也将对未来互联网产生深远的影响。本文将探讨未来互联网发展的几个重要趋势,涉及人工智能、区块链、物联网等领域,并分析其可能带来的社会变革和商业机遇。
56 3
|
分布式计算 数据挖掘 大数据
大数据的发展展望
从数据仓库到数据中台再到数据湖
73 0
|
人工智能 分布式计算 运维
数据中台技术及业务发展史与未来趋势展望
企业需要进行数智化转型,才能更有效地管理数据,更便捷地使用数据。阿里巴巴数据技术及产品部也认识到了数据处理方式必须有所改变,才能满足企业对数据开发效率,数据赋能业务产生价值和数据指导企业运营管理的需求,至此数据中台理念孕育而生。
11107 0
数据中台技术及业务发展史与未来趋势展望
|
存储 数据采集 分布式计算
连载:阿里巴巴大数据实践—实时技术
相对于离线批处理技术,流式实时处理技术作为一个非常重要的技术补充,在阿里巴巴集团内被广泛使用。
4039 0
连载:阿里巴巴大数据实践—实时技术
|
人工智能 边缘计算 数据挖掘
阿里数据:2020七大数据技术领域趋势展望
2020年,每一个技术领域,也有自己的一个关键事件回顾或一个关键节点畅想。回望过去,在数据技术领域发生了许多有意义的标志性事件。全球数据量在2019达41ZB,2020年预估到50ZB,这是国际权威机构Statista的统计和预测,这个数据量可以说大得惊人,也对数据技术提出了更高的要求。
1615 0
阿里数据:2020七大数据技术领域趋势展望
|
大数据 存储 调度
阿里巴巴大数据技术关键进展及展望
2019杭州云栖大会大数据技术专场,由阿里云通用计算平台负责人关涛带来以 “阿里巴巴大数据技术关键进展及展望” 为主题的演讲。本文首先讲解了从阿里巴巴的角度看待大数据领域的客户价值迁移,概览了核心技术的发展点,最后针对如何构建智能化大数据平台的相关工作进行了介绍,从引擎优化到 “自动驾驶”,并列举了几个典型案例。
11905 0
阿里巴巴大数据技术关键进展及展望
|
存储 算法 大数据
大数据学习:带你从多个维度来分析大数据发展趋势
如今“大数据”已不再是单纯描述数据特征的词汇,而是一个多学科交融的热点研究领域,其背后有着复杂和深刻的新理念。
1943 0
|
机器学习/深度学习 人工智能 物联网
|
机器学习/深度学习 人工智能 物联网