敏捷大数据与敏捷 AI

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 敏捷大数据智能化的主要目标就是,结合敏捷大数据实施理念,研发灵活的、轻量化的智能模型,并在敏捷大数据平台上对数据流进行实时智能化处理,最终实现一站式的大数据智能分析实践。为实现上述目标,我们对人工智能、机器学习、实时运算等技术,以及相关业务领域知识,乃至产品用户体验都进行了深入的研究与分析,本系列文章将把我们的理念和在上述过程中所获得的一些经验、成果与大家分享。

--------点击屏幕右侧或者屏幕底部“+订阅”,关注我,随时分享机器智能最新行业动态及技术干货------------

前言

人工智能的诞生可以追溯到上世纪 50 年代,在达特茅斯会议上,麦卡锡提出了 AI 的概念,但在初期的热度过后,人工智能的发展经历了多次低谷,直到从 90 年代中末期开始至今的这近二十年的时间里,人工智能才真正迎来了黄金时期。

尤其是在近 10 年来,各方面因素都推动其不断发展:

  • 理论上,机器学习,尤其是统计学习和神经网络理论不断突破,效果显著;
  • 外部环境上,软硬件技术的进步为人工智能模型的实现提供了足够的计算能力;
  • 此外,极为重要的一个因素就是在数据方面,大数据技术的发展使人工智能终于摆脱了数据的桎梏,可以在充足的样本基础上提升模型的能力。

可以说,现在各领域智能模型的研发绝大多数都离不开大数据技术的支持。

反过来看,人工智能对大数据技术同样有着极为重要的作用一方面,对于利用大数据技术收集到的数据需要通过一些智能分析过程才能发现其中的价值;另一方面,通过对已有数据的智能分析,我们可以推导出更多的数据特征,甚至进一步指导数据生产的方向。所以在今天我们谈起大数据的利用,都不可避免地涉及到人工智能、机器学习等概念。

敏捷大数据平台栈作为一个实时数据基础设施平台,是对大数据理论与技术进一步发展的成果,自然也会有对智能化方面的研究与布局。敏捷大数据智能化的主要目标就是,结合敏捷大数据实施理念,研发灵活的、轻量化的智能模型,并在敏捷大数据平台上对数据流进行实时智能化处理,最终实现一站式的大数据智能分析实践。

为实现上述目标,我们对人工智能机器学习实时运算等技术,以及相关业务领域知识,乃至产品用户体验都进行了深入的研究与分析,本系列文章将把我们的理念和在上述过程中所获得的一些经验、成果与大家分享。

实时数据智能处理

如本平台之前一系列文章所述,随着技术的发展,我们能够获得前所未有的海量数据,如果能够快速、高效地对这些数据进行处理,发现其中的高价值信息,无疑可以极大提升企业的应变能力,从而在复杂且易变的业务场景中迅速地做出战术乃至战略上的调整。

因此,实时数据处理已成为未来大数据技术发展的主要方向。数据处理的实时化必然会对与数据紧密相关的智能分析模型造成影响,可以说,为了快速识别、适应外部环境的变化情况,各组织已经开始将数据实时处理能力与 AI 能力相结合,实现智能数据分析业务的快速交付。

实际上,针对实时数据流的智能化处理技术已经在很多行业中得到了先验。例如在互联网直播领域,基于视频流的实时滤镜、实时特效算法已经在快手、抖音等众多 APP 中普遍使用,而国外的 Twitch 等直播网站,也推出了实时游戏数据分析等 AI 插件来增强直播效果;在体育数据领域,基于实时赛况的球队、球员数据统计分析和赛况走势预测也在各体育数据提供商处,如 Opta Sports 等,得到了应用;在交通领域,基于实时交通信息的路况拥堵预测系统也已经开始实施。此类例子不一而足,但都反映了实时 AI 数据处理已经在不同领域、不同业务场景下得到了广泛应用,并且发挥了不可取代的作用。

金融领域的许多场景中,对于实时 AI 数据处理同样存在有众多需求,如实时风控实时数据预测实时异常检测实时用户分析等等。下图为实时产品推荐的一个数据流图,可以用于金融产品推荐场景中,例如网贷、保险、基金、股票等产品。

image.png

该图描述了如下过程:在交互端我们可以通过埋点获得大量的、不同用户的行为数据,这些数据将被企业实时数据平台采集,与用户、产品及其他数据一起提供给计算层的各类模型,如用户兴趣模型、产品画像模型等。这些模型对用户和产品进行特征刻画,最终提供给推荐模型计算、排序、过滤得到最终的推荐列表。

这一过程中我们可以根据采集到的实时用户行为数据流对用户兴趣模型进行更新和校正,从而实现对用户所感兴趣内容的实时追踪。上图没有体现的一个过程是对产品画像模型的实时更新,尽管相对用户的行为数据而言,产品的特征数据相对稳定,但在实际当中还是有不少产品对时效性要求很高,其画像特征也需要我们进行实时的维护,例如证券市场的数据信息等。这些产品数据流可以通过其他渠道汇总进入企业实时数据平台之中,并提供给产品画像模型进行产品特征的重构,最终提供给推荐模型进行产品推荐。

一个好的实时产品推荐系统可以灵敏捕捉用户的需求、响应产品的变化,可以高效地针对用户开展个性化精准营销,提升用户体验度的同时还能够提高获客和关单数量,产生巨大的业务价值。

在上图中企业实时数据平台扮演了为推荐模型提供实时数据的重要任务。在一个敏捷的数据环境中,敏捷大数据就平台可以很好地支持上述工作,一种实现架构如下图所示:

image.png

在该图中,dbus 和 wormhole 可以方便对接多种不同数据源,实时获取数据,将数据 pipeline 源头实时化。另外 wormhole 支持流上处理,很适合接入产品画像模型和用户兴趣模型对产品与用户的特征进行实时刻画,这些特征经过存储后由 moonbox 根据需要进行抽取,输入推荐模型得到需要的推荐列表,最终返回给交互端。

此外,如果加上 davinci 数据 BI 的支持,我们还可以轻松地实现实时业务指标监控,便于我们对推荐效果进行评估。整个过程灵活、便捷地整合了多种不同开源平台以快速搭建实时数据应用,还可以根据需要随时切换开源选型,支持快速迭代试错,结合已有的算法模型就能够迅速支持实现智能用户产品实时推荐这一场景。

敏捷 AI

如前文所述,在实时 AI 数据处理过程中,基于敏捷大数据的各项业务组件,结合第三方的开源构件,通过简单配置即可快速编排、敏捷地实现算法运行的底层支持架构。

这使得整个系统中看起来唯一的麻烦之处在于我们还要事先开发好各种智能模型,这对于一些业务组织来说还是有一定的技术门槛;此外对于某些业务来说,快速推进和成本控制才是首要考虑的因素,那么针对性地定制化开发智能算法模型,并调整调用接口使之可以接入实时数据架构之中,就显得比较笨拙。例如很多数据分析的业务人员,也许不需要太过精准的模型性能,但最好能够保证分析系统实施的便捷性、业务逻辑实现的迅捷性。

我们已经让数据处理变得敏捷,那么如何将数据智能也变得更加敏捷呢?为了解决这一问题,我们提出了敏捷 AI 的实施思路,即在现有敏捷大数据产品的基础之上,基于业务场景设计开发一系列可插拔的实时智能模型算子,这些模型涵盖了业务场景内常见的智能化数据分析需求,具有较强的通用性和复用性,能够无缝接入敏捷大数据平台上的实时数据流并向平台输出分析结果,根据需要实时流入各业务端,最终实现基于实时数据流的智能分析过程。

敏捷大数据产品和敏捷 AI 的支持下,业务人员可以根据业务场景快速构建从实时数据处理平台到实时数据智能分析,再到实时数据展示的整个智能化数据治理流程,并可根据效果灵活调整试错,极大降低实时智能化业务分析的实施成本。

在上述敏捷 AI 的实施思路下,我们着手构建敏捷 AI 算法库,这是一套基于业务领域划分的轻量级通用数据模型集合。其中的每个模型的设计应该遵循以下原则:

  • 轻量级,对模型复杂度进行适当的控制保证数据处理的实时性;
  • 独立性,尽量减少环境依赖或保证环境的部署独立性,避免由模型引入给系统整体带来的环境依赖变动;
  • 单一性,各模型功能尽量单一,保证各模型功能的平行性;
  • 数据普适性,除部分模型存在一些必需的特征外,各模型应保证对接入数据的普遍适应能力,通过一定的配置或映射即可以适应绝大多数的业务场景。

为了实现上述要求,我们在研发模型时将不可避免地在某些方面做出一些取舍,例如模型若想通用必将会导致性能的一定程度下降,如何在这些矛盾中寻求一个合理的折中,也是在设计时需要考虑的问题。目前,我们已经针对一些领域开始研发敏捷 AI 模型,经过实际测试与应用后,不久的将来就将整合进现在的敏捷大数据产品栈中。此外,在未来我们还可以公布相关接口和规约,让用户也有能力将自己的模型加入到库中。

结语

实时数据的智能化分析是未来大数据技术和人工智能技术发展的重要方向之一,如何降低这一实施过程的经济成本、时间成本、技术成本以及变更成本,是敏捷大数据和敏捷 AI 着重解决的关键问题。本文结合敏捷大数据产品提出了一种解决思路,希望我们的产品能够帮助各组织方便、快速、灵活地构建自己的实时大数据智能分析系统。

image.png

原文链接:https://www.infoq.cn/article/NNBszCZjPISI3Zay2Cv7

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
17天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
13天前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
23天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
76 10
|
1月前
|
人工智能 分布式计算 大数据
大数据&AI产品月刊【2024年9月】
大数据& AI 产品技术月刊【2024年9月】,涵盖本月技术速递、2024云栖大会实录、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
2月前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
330 17
|
2月前
|
人工智能 分布式计算 DataWorks
大数据&AI产品月刊【2024年8月】
大数据& AI 产品技术月刊【2024年8月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
3月前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
3月前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
6天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
51 7