科技云报道:野蛮增长时代远去,增强分析开启大数据未来

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 如何打好大数据与机器学习的“组合拳”?

科技云报道原创。

随着野蛮增长的时代远去,精细化和效率将是未来企业竞争的胜负手。

 

图1.jpg

 

作为一座隐形的“金矿”,日益增长的数据规模为企业发展带来了崭新机遇。以数据为驱动的模式正备受企业重视,并且逐步从基本的可视化分析,向更高的智能化分析阶段持续进化。这个过程中,人工智能将全面落地在数据分析决策之中。

“增强分析(Augmented Analytics)”被视为数据分析与人工智能、机器学习结合的产物,这一概念于2017年由Gartner首次提出,并对其进行定义:增强分析是下一代数据和分析范式,它面向广泛的业务用户、运营人员和数据科学家,利用机器学习将数据准备、洞察发现和洞察共享等过程自动化。

这个概念刚开始比较模糊,后来逐渐清晰。直接到2021年,Gartner在发布的《Hype Cycle for ICT in China, 2021》中做了最新的定义:增强数据分析包括机器学习(ML)和人工智能(AI),在统一的平台上提供数据管理和分析能力。它通过将ML和AI应用于现有的操作流程中,使数据管理和分析自动化,从而更有效地进行数据分析。它使更多的用户获得更深入的洞察力,减少了当前依赖IT处理所带来的效率问题和口径偏差。

 

大数据与机器学习的交汇点

大数据时代,基础数据的维度、数量、类型(结构化和非结构化)更大、更分散,企业要分析和探索的数据越来越复杂。另一方面能兼顾专业数据分析和业务洞察的人才少之又少,增强分析正是解决这一矛盾,让数据分析普惠所有业务用户的良药。

简单地说,增强分析可以理解为借助AI技术进行智能化、自动化的数据分析,挖掘数据价值,降低分析门槛,提高分析深度。增强分析的实现过程可以简单概括为:通过培训未知数据和已知问题,最终列出各种可能性和影响因素,帮助用户加快和进行有效的数据分析。

“增强分析”并不是说让用户会写AI或者数据科学背后的一些代码,而是说如何把它封装好、让用户依旧用非常傻瓜、简单易用的形式,比如用拖拽、自然语言的方式,去进行更高级的数据分析。未来,我们将会越来越多地看到增强分析技术,赋能到大数据产业之中,能够让更多人以更低门槛进行更深度的分析。

 图2.jpg


 

增强分析的特点是BI产品开发中最重要、最显著的发展趋势之一。当云生态系统也影响人们做出选择决策时,增强分析能力将成为区别普通分析平台和BI平台之间的关键因素。目前,增强分析正成为用户体验的一个重要部分,其优势包括以下几个方面:

数据准备速度增快。由于增强型数据准备可以更快地将多个数据源整合到一起,因此可以快速检测重复的操作、联接,加速获取见解和提高工作效率,从而生成完全数据自动化和高质量的建议,帮助提供个性化的用户体验。

分析偏差降低。增强型分析支持计算机执行通常用于数据分析工具的分析,通过对更大范围的数据执行操作并仅专注于统计意义因素,可以降低潜在的偏差。

信任度提高。用户和数据进行交互能够为机器学习算法提供线索,随着时间的推移,为用户提供的建议更加相关且准确,这些建议有助于获取用户的信任。

增强数据素养。通过提供对结果的自动化分析,用户可以用最少的工作量轻松地搜索见解和对见解进行可视化,从而增强数据素养。

节省更多时间。业务人员无需再花费时间收集和分析大量数据集,以及从分析结果中提取可行项,这样他们将有更多时间专注于高级业务策略和特殊项目。

 

增强分析三大关键技术能力

从技术角度看,增强分析相关的技术可以分为了三类:增强数据准备、增强数据分析和增强机器学习。

 

图3.png

 

数据准备是数据分析的前提,也是最耗时的工作。数据准备通常包含数据探查、数据质量、数据模型、数据清洗等工作,涵盖了数据管理的各个方面,甚至还包括数据集成和数据仓库的管理。

增强数据准备主要通过两个方面来提升效率,一方面是可视化交互,通过拖拉拽的方式实现可视化的数据配置、数据源的混合以及数据清洗工作,让数据准备变得更加快捷。另一方面是算法辅助,利用ML和AI技术实现部分流程的自动化。例如自动查找数据之间的关系,对数据质量进行评估,推荐用于连接、丰富、清洗数据的最佳方法,还有自动查找元数据和血缘关系等功能。

增强数据分析无需建模和编写代码,帮助用户自动寻找数据规律,将相关结果自动转化为可视化图表,提高分析效率。增强数据分析的典型技术包括自动洞察(Automated Insights)和自动可视化(Automated Visualization)。自动洞察是增强分析的核心功能,但同样也是一个宽泛的概念。如今,大部分主流的BI平台都有自动洞察的相关功能,且方向各有不同,其目标是代替一部分分析师的工作,从数据中发现潜在信息和价值。自动可视化则是根据数据分析结果自动选择可视化的方式进行展示,与自然语言查询(NLQ)、自然语言生成(NLG)等技术配合,大大加快整个分析流程。

增强机器学习更加关注模型,比如特征工程、模型训练、模型部署、模型解释以及最后的模型监控和管理。与增强数据分析相比,增强机器学习面向的更多是数据科学家,通过算法将特征工程、模型选择与超参数优化,以及深度神经网络结构搜索等机器学习过程中的关键步骤自动化,帮助数据科学家更高效地得到满意的模型。

这部分的核心技术就是自动机器学习AutoML。早期的AutoML研究起源于Meta Learning,早在上个世纪八十年代就被提出,数十年间,机器学习领域的相关研究主要集中在超参数优化。近年来随着深度学习的广泛应用,Meta-Leaning领域在学术界又一次升温。同时,自动化特征工程、自动化模型评价等技术的研究和商业化也使得AutoML的概念覆盖到了机器学习的全流程。

 

如何打好大数据与机器学习的“组合拳”?

机器学习技术主要依赖三大因素,分别是算力、算法、数据。大数据技术所提供的能力是机器学习建模所需要的必然基础,同时机器学习为大数据技术提供更高的智能,为商业业务产生价值。大数据技术和机器学习技术本身就是互为因果。

虽然大数据与机器学习的融合看上去应用前景广阔,但目前许多企业客户还没有实现两者的融合。亚马逊云科技大中华区产品部总经理陈晓建认为,主要有三方面的原因。一是大数据和机器学习目前是分而治之的。他们本身技术发展路线是两条不同的路线,在很多企业这两个功能都是属于两个完全不同的团队来负责的,数据当然也放在不同的仓库里。二是数据处理能力不足,很多机器学习的团队不具备处理海量数据规模的能力。三是数据分析人员参与度低。

在大数据与机器学习领域,亚马逊云科技认为,要想帮助客户解决深度数据分析的问题,就要实现大数据和AI从业务上以及用户需求上做深度融合,企业要在云中要打造统一的数据基础底座,实现大数据和机器学习的“双剑合璧”,为企业发展提供创新引擎。为此,亚马逊云科技提供广泛而深入的服务,既能打通两个领域的数据治理底层服务,还能实现大数据与机器学习之间的相互赋能。

近日,亚马逊云科技宣布推出“云、数、智三位一体”的大数据与机器学习融合服务组合,帮助企业推进大数据和机器学习的融合,将机器学习由实验转为规模化落地实践。该服务组合具体涵盖三个方面,分别是:构建云中统一的数据治理底座,为机器学习提供生产级别的数据处理能力,以及赋能给业务人员更加智能的数据分析工具。

亚马逊科技助力机器学习由实验转为实践,为机器学习提供生产级别的数据处理能力,不仅专门构建大数据服务,对复杂的数据进行加工处理,而且针对数据规模的动态变化,及时优化数据质量。Amazon Athena能够对支持多种开源框架的大数据平台,包括Amazon EMR、高性能关系数据库Amazon Aurora、NoSQL数据库服务Amazon DynamoDB、Amazon Redshift等多种数据源,对这些数据源进行联邦查询,快速完成机器学习建模的数据加工。以Amazon Redshift、Amazon MSK和Amazon EMR为代表的无服务器分析能力,可以让客户无需配置、扩展或管理底层基础设施,即可轻松地处理任何规模的数据,为机器学习项目提供兼具性能和成本效益的特征数据准备。

虽然增强分析一定程度上改变了目前的数据分析模式,但并不意味着数据分析师和数据科学家变得不再重要。相反,这对数据科学家的专业能力提出了更高的要求,既要更多地着眼于企业数字化转型过程中数据价值的重新考量,又要追求极致的“精专主义”,毕竟简单的题目别人都会做了,留下来肯定都是硬骨头了。

 

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6天前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
30 2
|
8天前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
49 14
|
14天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
46 2
|
15天前
|
数据采集 机器学习/深度学习 搜索推荐
大数据与社交媒体:用户行为分析
【10月更文挑战第31天】在数字化时代,社交媒体成为人们生活的重要部分,大数据技术的发展使其用户行为分析成为企业理解用户需求、优化产品设计和提升用户体验的关键手段。本文探讨了大数据在社交媒体用户行为分析中的应用,包括用户画像构建、情感分析、行为路径分析和社交网络分析,以及面临的挑战与机遇。
|
15天前
|
机器学习/深度学习 搜索推荐 大数据
大数据与教育:学生表现分析的工具
【10月更文挑战第31天】在数字化时代,大数据成为改善教育质量的重要工具。本文探讨了大数据在学生表现分析中的应用,介绍学习管理系统、智能评估系统、情感分析技术和学习路径优化等工具,帮助教育者更好地理解学生需求,制定个性化教学策略,提升教学效果。尽管面临数据隐私等挑战,大数据仍为教育创新带来巨大机遇。
|
18天前
|
人工智能 供应链 搜索推荐
大数据分析:解锁商业智能的秘密武器
【10月更文挑战第31天】在信息爆炸时代,大数据分析成为企业解锁商业智能的关键工具。本文探讨了大数据分析在客户洞察、风险管理、供应链优化、产品开发和决策支持等方面的应用,强调了明确分析目标、选择合适工具、培养专业人才和持续优化的重要性,并展望了未来的发展趋势。
|
1月前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
67 1
|
1月前
|
消息中间件 分布式计算 druid
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
52 1
|
21天前
|
数据采集 分布式计算 OLAP
最佳实践:AnalyticDB在企业级大数据分析中的应用案例
【10月更文挑战第22天】在数字化转型的大潮中,企业对数据的依赖程度越来越高。如何高效地处理和分析海量数据,从中提取有价值的洞察,成为企业竞争力的关键。作为阿里云推出的一款实时OLAP数据库服务,AnalyticDB(ADB)凭借其强大的数据处理能力和亚秒级的查询响应时间,已经在多个行业和业务场景中得到了广泛应用。本文将从个人的角度出发,分享多个成功案例,展示AnalyticDB如何助力企业在广告投放效果分析、用户行为追踪、财务报表生成等领域实现高效的数据处理与洞察发现。
48 0
|
1月前
|
SQL 分布式计算 大数据
大数据平台的毕业设计01:Hadoop与离线分析
大数据平台的毕业设计01:Hadoop与离线分析
100 0