科技云报道:野蛮增长时代远去,增强分析开启大数据未来

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 如何打好大数据与机器学习的“组合拳”?

科技云报道原创。

随着野蛮增长的时代远去,精细化和效率将是未来企业竞争的胜负手。

 

图1.jpg

 

作为一座隐形的“金矿”,日益增长的数据规模为企业发展带来了崭新机遇。以数据为驱动的模式正备受企业重视,并且逐步从基本的可视化分析,向更高的智能化分析阶段持续进化。这个过程中,人工智能将全面落地在数据分析决策之中。

“增强分析(Augmented Analytics)”被视为数据分析与人工智能、机器学习结合的产物,这一概念于2017年由Gartner首次提出,并对其进行定义:增强分析是下一代数据和分析范式,它面向广泛的业务用户、运营人员和数据科学家,利用机器学习将数据准备、洞察发现和洞察共享等过程自动化。

这个概念刚开始比较模糊,后来逐渐清晰。直接到2021年,Gartner在发布的《Hype Cycle for ICT in China, 2021》中做了最新的定义:增强数据分析包括机器学习(ML)和人工智能(AI),在统一的平台上提供数据管理和分析能力。它通过将ML和AI应用于现有的操作流程中,使数据管理和分析自动化,从而更有效地进行数据分析。它使更多的用户获得更深入的洞察力,减少了当前依赖IT处理所带来的效率问题和口径偏差。

 

大数据与机器学习的交汇点

大数据时代,基础数据的维度、数量、类型(结构化和非结构化)更大、更分散,企业要分析和探索的数据越来越复杂。另一方面能兼顾专业数据分析和业务洞察的人才少之又少,增强分析正是解决这一矛盾,让数据分析普惠所有业务用户的良药。

简单地说,增强分析可以理解为借助AI技术进行智能化、自动化的数据分析,挖掘数据价值,降低分析门槛,提高分析深度。增强分析的实现过程可以简单概括为:通过培训未知数据和已知问题,最终列出各种可能性和影响因素,帮助用户加快和进行有效的数据分析。

“增强分析”并不是说让用户会写AI或者数据科学背后的一些代码,而是说如何把它封装好、让用户依旧用非常傻瓜、简单易用的形式,比如用拖拽、自然语言的方式,去进行更高级的数据分析。未来,我们将会越来越多地看到增强分析技术,赋能到大数据产业之中,能够让更多人以更低门槛进行更深度的分析。

 图2.jpg


 

增强分析的特点是BI产品开发中最重要、最显著的发展趋势之一。当云生态系统也影响人们做出选择决策时,增强分析能力将成为区别普通分析平台和BI平台之间的关键因素。目前,增强分析正成为用户体验的一个重要部分,其优势包括以下几个方面:

数据准备速度增快。由于增强型数据准备可以更快地将多个数据源整合到一起,因此可以快速检测重复的操作、联接,加速获取见解和提高工作效率,从而生成完全数据自动化和高质量的建议,帮助提供个性化的用户体验。

分析偏差降低。增强型分析支持计算机执行通常用于数据分析工具的分析,通过对更大范围的数据执行操作并仅专注于统计意义因素,可以降低潜在的偏差。

信任度提高。用户和数据进行交互能够为机器学习算法提供线索,随着时间的推移,为用户提供的建议更加相关且准确,这些建议有助于获取用户的信任。

增强数据素养。通过提供对结果的自动化分析,用户可以用最少的工作量轻松地搜索见解和对见解进行可视化,从而增强数据素养。

节省更多时间。业务人员无需再花费时间收集和分析大量数据集,以及从分析结果中提取可行项,这样他们将有更多时间专注于高级业务策略和特殊项目。

 

增强分析三大关键技术能力

从技术角度看,增强分析相关的技术可以分为了三类:增强数据准备、增强数据分析和增强机器学习。

 

图3.png

 

数据准备是数据分析的前提,也是最耗时的工作。数据准备通常包含数据探查、数据质量、数据模型、数据清洗等工作,涵盖了数据管理的各个方面,甚至还包括数据集成和数据仓库的管理。

增强数据准备主要通过两个方面来提升效率,一方面是可视化交互,通过拖拉拽的方式实现可视化的数据配置、数据源的混合以及数据清洗工作,让数据准备变得更加快捷。另一方面是算法辅助,利用ML和AI技术实现部分流程的自动化。例如自动查找数据之间的关系,对数据质量进行评估,推荐用于连接、丰富、清洗数据的最佳方法,还有自动查找元数据和血缘关系等功能。

增强数据分析无需建模和编写代码,帮助用户自动寻找数据规律,将相关结果自动转化为可视化图表,提高分析效率。增强数据分析的典型技术包括自动洞察(Automated Insights)和自动可视化(Automated Visualization)。自动洞察是增强分析的核心功能,但同样也是一个宽泛的概念。如今,大部分主流的BI平台都有自动洞察的相关功能,且方向各有不同,其目标是代替一部分分析师的工作,从数据中发现潜在信息和价值。自动可视化则是根据数据分析结果自动选择可视化的方式进行展示,与自然语言查询(NLQ)、自然语言生成(NLG)等技术配合,大大加快整个分析流程。

增强机器学习更加关注模型,比如特征工程、模型训练、模型部署、模型解释以及最后的模型监控和管理。与增强数据分析相比,增强机器学习面向的更多是数据科学家,通过算法将特征工程、模型选择与超参数优化,以及深度神经网络结构搜索等机器学习过程中的关键步骤自动化,帮助数据科学家更高效地得到满意的模型。

这部分的核心技术就是自动机器学习AutoML。早期的AutoML研究起源于Meta Learning,早在上个世纪八十年代就被提出,数十年间,机器学习领域的相关研究主要集中在超参数优化。近年来随着深度学习的广泛应用,Meta-Leaning领域在学术界又一次升温。同时,自动化特征工程、自动化模型评价等技术的研究和商业化也使得AutoML的概念覆盖到了机器学习的全流程。

 

如何打好大数据与机器学习的“组合拳”?

机器学习技术主要依赖三大因素,分别是算力、算法、数据。大数据技术所提供的能力是机器学习建模所需要的必然基础,同时机器学习为大数据技术提供更高的智能,为商业业务产生价值。大数据技术和机器学习技术本身就是互为因果。

虽然大数据与机器学习的融合看上去应用前景广阔,但目前许多企业客户还没有实现两者的融合。亚马逊云科技大中华区产品部总经理陈晓建认为,主要有三方面的原因。一是大数据和机器学习目前是分而治之的。他们本身技术发展路线是两条不同的路线,在很多企业这两个功能都是属于两个完全不同的团队来负责的,数据当然也放在不同的仓库里。二是数据处理能力不足,很多机器学习的团队不具备处理海量数据规模的能力。三是数据分析人员参与度低。

在大数据与机器学习领域,亚马逊云科技认为,要想帮助客户解决深度数据分析的问题,就要实现大数据和AI从业务上以及用户需求上做深度融合,企业要在云中要打造统一的数据基础底座,实现大数据和机器学习的“双剑合璧”,为企业发展提供创新引擎。为此,亚马逊云科技提供广泛而深入的服务,既能打通两个领域的数据治理底层服务,还能实现大数据与机器学习之间的相互赋能。

近日,亚马逊云科技宣布推出“云、数、智三位一体”的大数据与机器学习融合服务组合,帮助企业推进大数据和机器学习的融合,将机器学习由实验转为规模化落地实践。该服务组合具体涵盖三个方面,分别是:构建云中统一的数据治理底座,为机器学习提供生产级别的数据处理能力,以及赋能给业务人员更加智能的数据分析工具。

亚马逊科技助力机器学习由实验转为实践,为机器学习提供生产级别的数据处理能力,不仅专门构建大数据服务,对复杂的数据进行加工处理,而且针对数据规模的动态变化,及时优化数据质量。Amazon Athena能够对支持多种开源框架的大数据平台,包括Amazon EMR、高性能关系数据库Amazon Aurora、NoSQL数据库服务Amazon DynamoDB、Amazon Redshift等多种数据源,对这些数据源进行联邦查询,快速完成机器学习建模的数据加工。以Amazon Redshift、Amazon MSK和Amazon EMR为代表的无服务器分析能力,可以让客户无需配置、扩展或管理底层基础设施,即可轻松地处理任何规模的数据,为机器学习项目提供兼具性能和成本效益的特征数据准备。

虽然增强分析一定程度上改变了目前的数据分析模式,但并不意味着数据分析师和数据科学家变得不再重要。相反,这对数据科学家的专业能力提出了更高的要求,既要更多地着眼于企业数字化转型过程中数据价值的重新考量,又要追求极致的“精专主义”,毕竟简单的题目别人都会做了,留下来肯定都是硬骨头了。

 

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4天前
|
存储 数据采集 分布式计算
Java中的大数据处理与分析架构
Java中的大数据处理与分析架构
|
13天前
|
机器学习/深度学习 自然语言处理 供应链
深度学习在大数据分析中的应用非常广泛
深度学习在大数据分析中的应用非常广泛
|
16天前
|
机器学习/深度学习 数据采集 分布式计算
如何用Python处理大数据分析?
【6月更文挑战第14天】如何用Python处理大数据分析?
29 4
|
18天前
|
机器学习/深度学习 数据采集 分布式计算
基于spark的大数据分析预测地震受灾情况的系统设计
基于spark的大数据分析预测地震受灾情况的系统设计
|
18天前
|
分布式计算 数据可视化 Python
豆瓣短评大数据分析:探索用户观影趋势与情感倾向
豆瓣短评大数据分析:探索用户观影趋势与情感倾向
|
5天前
|
消息中间件 存储 大数据
深度分析:Apache Kafka及其在大数据处理中的应用
Apache Kafka是高吞吐、低延迟的分布式流处理平台,常用于实时数据流、日志收集和事件驱动架构。与RabbitMQ(吞吐量有限)、Pulsar(多租户支持但生态系统小)和Amazon Kinesis(托管服务,成本高)对比,Kafka在高吞吐和持久化上有优势。适用场景包括实时处理、数据集成、日志收集和消息传递。选型需考虑吞吐延迟、持久化、协议支持等因素,使用时注意资源配置、数据管理、监控及安全性。
|
5天前
|
SQL 运维 druid
深度分析:Apache Doris及其在大数据处理中的应用
Apache Doris是一款开源的高性能实时分析数据库,设计用于低延迟SQL查询和实时数据处理,适合大规模实时分析场景。与Apache Druid、ClickHouse和Greenplum相比,Doris在易用性和实时性上有优势,但其他产品在特定领域如高吞吐、SQL支持或数据处理有特长。选型要考虑查询性能、实时性、SQL需求和运维成本。Doris适用于实时数据分析、BI报表、数据中台和物联网数据处理。使用时注意资源配置、数据模型设计、监控调优和导入策略。
|
5天前
|
消息中间件 分布式计算 Kafka
深度分析:Apache Flink及其在大数据处理中的应用
Apache Flink是低延迟、高吞吐量的流处理框架,以其状态管理和事件时间处理能力脱颖而出。与Apache Spark Streaming相比,Flink在实时性上更强,但Spark生态系统更丰富。Apache Storm在低延迟上有优势,而Kafka Streams适合轻量级流处理。选型考虑延迟、状态管理、生态系统和运维成本。Flink适用于实时数据分析、复杂事件处理等场景,使用时注意资源配置、状态管理和窗口操作的优化。
|
12天前
|
机器学习/深度学习 数据可视化 数据挖掘
数据可视化在大数据分析中的重要作用
数据可视化在大数据分析中的重要作用
23 0
|
12天前
|
存储 资源调度 大数据
云计算在大数据分析中的弹性资源调度策略
云计算在大数据分析中的弹性资源调度策略