在“20年代”的第一年,2020年,每一个技术领域,也有自己的一个关键事件回顾或一个关键节点畅想。回望过去,在数据技术领域发生了许多有意义的标志性事件。全球数据量在2019达41ZB,2020年预估到50ZB,这是国际权威机构Statista的统计和预测,这个数据量可以说大得惊人,也对数据技术提出了更高的要求。
站在新的一个十年,阿里数据各细分领域专家一起来共同回顾各个领域的过去、展望未来,围绕数据生命周期,分别从数据的采集、建设、管理、计算到应用进行了未来数据技术趋势的展望。
数据采集
小程序和IoT采集、采集端计算、采集法律法规建设将会是突破性变化
- 采集端计算:在5G和IoT时代流量数据还将会爆炸式增长,未来如何在有限的服务器&计算资源的情况下保障数据采集的正常运转将会是一个核心问题。其中的一个探索方向将是端计算,通过将算法模型、数据压缩、数据过滤、反作弊等部署在终端,从而显著降低网络和服务端以及计算集群的压力。
- 大数据采集法律法规建设:可能需要从3个方面入手:1. 清晰规定可以采集和不可以采集的数据;2. 明确规定不可以使用的采集技术,以及每种采集技术合法使用的量化指标;3. 违法行为的追究范围和标准。
数据建设与管理
基于模型的开发模式将成为主流,流批一体将从引擎层上升到平台层,数据处理的粒度会更加精细。
- 基于模型的开发模式将成为主流:大数据开发的门槛进一步降低,用户不在需要编写复杂的SQL代码,只需要聚焦在数据模型的开发上。
- 流批一体将从引擎层上升到平台层:流批一体不在局限于引擎层,而上在平台层有着实际的业务场景支持。
- 数据处理的粒度会更加精细:数据处理从表粒度升级到字段粒度,极大的降低计算和存储的成本。
数据挖掘
AI民主化、多模态数据、可解释性AI与增强分析、5G、IOT与边缘计算等方向将会是突破性变化
- AI民主化:随着AutoML技术的发展,数据挖掘的每一个流程都在朝着自动化的方向演变,越来越多的岗位可以运用AI的能力,AI人才不足的问题将在5年之内得到缓解。
- 多模态数据:未来10年多模态数据的统一挖掘和建模以及互相之间的翻译和转换,将会是一个热点并有可能取得更大的突破。在对话领域,直接基于语音信号进行语义理解和实体识别也在进行。卫星等另类数据价值将被进一步融合与挖掘。
- 可解释性AI与增强分析:可解释性AI与增强分析的出现,将拉近数据科学与商业之间的距离,为业务提供更加透明、可靠的AI能力。
- 5G、IOT与边缘计算:中国的5G从2019年开始落地,2020年规模化。虽然当前5G核心应用较少,但伴随的IoT的同步发展,未来10年,将有更多端上数据可被采集和挖掘以及在端上进行边缘计算。
数据计算
无论是流批融合还是TA融合方面,我们都将面临更多的业务场景需求和挑战,而在AI智能计算的自动化和普惠运用,云、端计算融合等领域,也将迎来更多的实际业务落地场景。
BI
云BI将成为市场主流模式;自助数据分析需求持续旺盛;新制造、新金融、新零售、中小企业将成为BI市场中的亮点;数据分析和数据治理、数据资产管理会有更多交集;海量数据处理秒级响应成为标配;AI和BI融合,BI将真正进入智能化时代;移动端、共享、嵌入集成越来越普遍。
- 云BI将成为市场主流模式:云厂商+BI产品将代替传统私有云解决方案,成为市场主流模式。云BI需要具有平台即服务和分析应用即服务的能力,可以同时在云端和本地部署、使用和管理数据分析报告和数据分析应用。从目前的国际IT市场来看,云端化确实是大势所趋,并逐渐形成规模市场,但国内市场由于数据环境相对封闭,数据安全也有很多挑战,导致企业关键数据仍然大部分存在于私有部署的系统中,云化的发展进度并不如国际市场,中国市场的云BI发光点可能在于业务集中在SAAS云平台系统中的中小型用户,这个有待市场验证。
- 自助数据分析需求持续旺盛:数据分析的应用场景在不断丰富和扩展,越来越多的业务人员需要通过数据分析来为自己的业务决策提供支撑,而企业需要通过自助数据分析解放IT人员的劳动力,降低企业成本。
- 新制造、新金融、新零售、中小企业将成为BI市场中的亮点:从社会的发展趋势来看,新制造、新金融、新零售的理念会迎来更大的普及,在这些行业“数据即能源”的理念逐渐成为业界的共识,用BI对数据进行分析、充分挖掘数据价值成为他们的标准配备。中小企业也会成为BI市场的新亮点,他们的应用场景主要集中在数字营销领域,亟需通过数据分析挖掘潜在的商业价值,帮助自身完成业务决策。
- 数据分析和数据治理、数据资产管理会有更多交集。:接下来的几年将会有越来越多的大型企业实施统一的数据治理、数据资产管理项目,而数据分析是数据资产管理中的重要组成部分,两者的融合会越来越多。元数据管理、主数据管理、数据标签、多维数据分析等需要与BI深度集成,并在此基础上建立相应的分析模型。
- 海量数据处理秒级响应成为标配:传统关系型数据库无法满足企业的数据发展需求,大数据逐渐成为企业标配,BI产品需要提供强大的数据计算处理引擎,能够降低企业数据查询等待时间成本,提高业务数据分析效率,并且要和企业自身的大数据平台做到无缝集成和对接。
- AI和BI融合,BI将真正进入智能化时代:为满足企业业务人员自助数据分析和自动挖掘的需求,BI产品需要在现有的数据可视化和数据分析的功能基础上,增强数据自动挖掘能力,用户能够轻松使用平台内置的高级分析功能。
- 移动端、共享、嵌入集成越来越普遍:随着ERP、OA、MES、HIS等常见业务系统的完善,企业少则数十套IT系统,多则上千套系统,新型自助BI需要能够与多个系统同时融合,全面分析企业的业务数据。大数据BI平台不同用户创建的分析页面,可以方便地分享给其他成员。同时,在企业的分析用户设计仪表板时,可以复用仪表板中的图表、维度、指标等,支持用户分享指定页面进行给其他部门成员,便于互动沟通交流。为满足企业人员实时办公、互通信息的需要。大数据BI平台还需要支持移动端上共享和查看分析结果,支持在移动端对分析结果进行数据层级钻取穿透、联动等。
数据服务
数据服务领域会在四个领域有显著变化:联邦学习促流通,AutoML提效能,高性能在线数据访问,数据云服务化。
- 联邦学习促流通:数据一直是制约智能服务发展的关键因素,随着联邦学习的兴起,这一问题将会得到有效改善;在保证数据安全的前提下,让数据变为可普惠的能源,无论平行模式还是垂直模式,都有利于数据在不同企业、不同媒介中传播,发挥数据差异性的效果提升。
- AutoML提效能:数据智能将会逐步走向大众化,AutoML将逐步进步,以达到普通的监督学习任务能够通过可用的方式或尚未完全完善的方法,自信地进行算法选择和超参数优化,AutoML将不再被视为机器学习工具箱的替代品,而是作为其中包含的另一种工具。
- 高性能在线数据访问: 高性能在线分析诉求十分强烈,查询近似和数据近似技术发展将至关重要。
- 数据云服务化:kubernetes 有大一统趋势,无论机器学习还是数据应用开发,云原生都是未来,数据服务Cloud Native 后,使得数据工程师聚焦在数据分析领域,植入关键数据逻辑,无需关注服务逻辑DevOps,同时机器学习训练部署预测都可以Cloud Native 化,促进资源高效利用及平台无关性,无论AutoML和还是传统数据服务都将彻底云化。
数据安全
数据安全领域会在四个领域有显著变化:监管合规依然是促进企业数据安全及个人隐私数据保护发展的最大驱动力;以数据为中心的数据安全体系将逐渐被认可;短期不会有一个技术系统可以解决所有的数据安全问题;数据安全的新技术、新模式不断涌现,数据安全产业边界呈现不断拓展和融合的态势。
- 监管合规依然是促进企业数据安全及个人隐私数据保护发展的最大驱动力:专门的立法及行业标准也会陆续发布,但数据开放利用与数据安全成为“一个硬币的两面”,也是各国政策法律的焦点和难点。
- 以数据为中心的数据安全体系将逐渐被认可:未来数据安全将成为企业的核心竞争力之一而不是成本,即能者多劳,数据安全做的好,可以获得更多的业务机会。
- 短期不会有一个技术系统可以解决所有的数据安全问题,而是基于不同的场景下使用不同的技术来解决不同的安全问题:比如sgx和安全多方计算可以解决多方互不相信的数据融合的问题,端上的边缘计算可以解决采集合规的风险,差分隐私可以解决部分个人隐私数据泄露的问题,基于智能算法可以解决数据流通过程中的风险识别和控制问题等。
- 数据安全产业将迎来重大机遇:数字经济时代的发展,强烈依赖以大数据为生产资料的挖掘和应用,在此过程中需要解决数据孤岛问题,增加数据资源的商业价值和社会价值。
- 数据权属关系将更为复杂:数据保护需求全面爆发,数据安全的新技术、新模式不断涌现,数据安全产业边界呈现不断拓展和融合的态势。
本文来源:AliData微信公众号