敏捷大数据与敏捷 AI

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 敏捷大数据智能化的主要目标就是,结合敏捷大数据实施理念,研发灵活的、轻量化的智能模型,并在敏捷大数据平台上对数据流进行实时智能化处理,最终实现一站式的大数据智能分析实践。为实现上述目标,我们对人工智能、机器学习、实时运算等技术,以及相关业务领域知识,乃至产品用户体验都进行了深入的研究与分析,本系列文章将把我们的理念和在上述过程中所获得的一些经验、成果与大家分享。

--------点击屏幕右侧或者屏幕底部“+订阅”,关注我,随时分享机器智能最新行业动态及技术干货------------

前言

人工智能的诞生可以追溯到上世纪 50 年代,在达特茅斯会议上,麦卡锡提出了 AI 的概念,但在初期的热度过后,人工智能的发展经历了多次低谷,直到从 90 年代中末期开始至今的这近二十年的时间里,人工智能才真正迎来了黄金时期。

尤其是在近 10 年来,各方面因素都推动其不断发展:

  • 理论上,机器学习,尤其是统计学习和神经网络理论不断突破,效果显著;
  • 外部环境上,软硬件技术的进步为人工智能模型的实现提供了足够的计算能力;
  • 此外,极为重要的一个因素就是在数据方面,大数据技术的发展使人工智能终于摆脱了数据的桎梏,可以在充足的样本基础上提升模型的能力。

可以说,现在各领域智能模型的研发绝大多数都离不开大数据技术的支持。

反过来看,人工智能对大数据技术同样有着极为重要的作用一方面,对于利用大数据技术收集到的数据需要通过一些智能分析过程才能发现其中的价值;另一方面,通过对已有数据的智能分析,我们可以推导出更多的数据特征,甚至进一步指导数据生产的方向。所以在今天我们谈起大数据的利用,都不可避免地涉及到人工智能、机器学习等概念。

敏捷大数据平台栈作为一个实时数据基础设施平台,是对大数据理论与技术进一步发展的成果,自然也会有对智能化方面的研究与布局。敏捷大数据智能化的主要目标就是,结合敏捷大数据实施理念,研发灵活的、轻量化的智能模型,并在敏捷大数据平台上对数据流进行实时智能化处理,最终实现一站式的大数据智能分析实践。

为实现上述目标,我们对人工智能机器学习实时运算等技术,以及相关业务领域知识,乃至产品用户体验都进行了深入的研究与分析,本系列文章将把我们的理念和在上述过程中所获得的一些经验、成果与大家分享。

实时数据智能处理

如本平台之前一系列文章所述,随着技术的发展,我们能够获得前所未有的海量数据,如果能够快速、高效地对这些数据进行处理,发现其中的高价值信息,无疑可以极大提升企业的应变能力,从而在复杂且易变的业务场景中迅速地做出战术乃至战略上的调整。

因此,实时数据处理已成为未来大数据技术发展的主要方向。数据处理的实时化必然会对与数据紧密相关的智能分析模型造成影响,可以说,为了快速识别、适应外部环境的变化情况,各组织已经开始将数据实时处理能力与 AI 能力相结合,实现智能数据分析业务的快速交付。

实际上,针对实时数据流的智能化处理技术已经在很多行业中得到了先验。例如在互联网直播领域,基于视频流的实时滤镜、实时特效算法已经在快手、抖音等众多 APP 中普遍使用,而国外的 Twitch 等直播网站,也推出了实时游戏数据分析等 AI 插件来增强直播效果;在体育数据领域,基于实时赛况的球队、球员数据统计分析和赛况走势预测也在各体育数据提供商处,如 Opta Sports 等,得到了应用;在交通领域,基于实时交通信息的路况拥堵预测系统也已经开始实施。此类例子不一而足,但都反映了实时 AI 数据处理已经在不同领域、不同业务场景下得到了广泛应用,并且发挥了不可取代的作用。

金融领域的许多场景中,对于实时 AI 数据处理同样存在有众多需求,如实时风控实时数据预测实时异常检测实时用户分析等等。下图为实时产品推荐的一个数据流图,可以用于金融产品推荐场景中,例如网贷、保险、基金、股票等产品。

image.png

该图描述了如下过程:在交互端我们可以通过埋点获得大量的、不同用户的行为数据,这些数据将被企业实时数据平台采集,与用户、产品及其他数据一起提供给计算层的各类模型,如用户兴趣模型、产品画像模型等。这些模型对用户和产品进行特征刻画,最终提供给推荐模型计算、排序、过滤得到最终的推荐列表。

这一过程中我们可以根据采集到的实时用户行为数据流对用户兴趣模型进行更新和校正,从而实现对用户所感兴趣内容的实时追踪。上图没有体现的一个过程是对产品画像模型的实时更新,尽管相对用户的行为数据而言,产品的特征数据相对稳定,但在实际当中还是有不少产品对时效性要求很高,其画像特征也需要我们进行实时的维护,例如证券市场的数据信息等。这些产品数据流可以通过其他渠道汇总进入企业实时数据平台之中,并提供给产品画像模型进行产品特征的重构,最终提供给推荐模型进行产品推荐。

一个好的实时产品推荐系统可以灵敏捕捉用户的需求、响应产品的变化,可以高效地针对用户开展个性化精准营销,提升用户体验度的同时还能够提高获客和关单数量,产生巨大的业务价值。

在上图中企业实时数据平台扮演了为推荐模型提供实时数据的重要任务。在一个敏捷的数据环境中,敏捷大数据就平台可以很好地支持上述工作,一种实现架构如下图所示:

image.png

在该图中,dbus 和 wormhole 可以方便对接多种不同数据源,实时获取数据,将数据 pipeline 源头实时化。另外 wormhole 支持流上处理,很适合接入产品画像模型和用户兴趣模型对产品与用户的特征进行实时刻画,这些特征经过存储后由 moonbox 根据需要进行抽取,输入推荐模型得到需要的推荐列表,最终返回给交互端。

此外,如果加上 davinci 数据 BI 的支持,我们还可以轻松地实现实时业务指标监控,便于我们对推荐效果进行评估。整个过程灵活、便捷地整合了多种不同开源平台以快速搭建实时数据应用,还可以根据需要随时切换开源选型,支持快速迭代试错,结合已有的算法模型就能够迅速支持实现智能用户产品实时推荐这一场景。

敏捷 AI

如前文所述,在实时 AI 数据处理过程中,基于敏捷大数据的各项业务组件,结合第三方的开源构件,通过简单配置即可快速编排、敏捷地实现算法运行的底层支持架构。

这使得整个系统中看起来唯一的麻烦之处在于我们还要事先开发好各种智能模型,这对于一些业务组织来说还是有一定的技术门槛;此外对于某些业务来说,快速推进和成本控制才是首要考虑的因素,那么针对性地定制化开发智能算法模型,并调整调用接口使之可以接入实时数据架构之中,就显得比较笨拙。例如很多数据分析的业务人员,也许不需要太过精准的模型性能,但最好能够保证分析系统实施的便捷性、业务逻辑实现的迅捷性。

我们已经让数据处理变得敏捷,那么如何将数据智能也变得更加敏捷呢?为了解决这一问题,我们提出了敏捷 AI 的实施思路,即在现有敏捷大数据产品的基础之上,基于业务场景设计开发一系列可插拔的实时智能模型算子,这些模型涵盖了业务场景内常见的智能化数据分析需求,具有较强的通用性和复用性,能够无缝接入敏捷大数据平台上的实时数据流并向平台输出分析结果,根据需要实时流入各业务端,最终实现基于实时数据流的智能分析过程。

敏捷大数据产品和敏捷 AI 的支持下,业务人员可以根据业务场景快速构建从实时数据处理平台到实时数据智能分析,再到实时数据展示的整个智能化数据治理流程,并可根据效果灵活调整试错,极大降低实时智能化业务分析的实施成本。

在上述敏捷 AI 的实施思路下,我们着手构建敏捷 AI 算法库,这是一套基于业务领域划分的轻量级通用数据模型集合。其中的每个模型的设计应该遵循以下原则:

  • 轻量级,对模型复杂度进行适当的控制保证数据处理的实时性;
  • 独立性,尽量减少环境依赖或保证环境的部署独立性,避免由模型引入给系统整体带来的环境依赖变动;
  • 单一性,各模型功能尽量单一,保证各模型功能的平行性;
  • 数据普适性,除部分模型存在一些必需的特征外,各模型应保证对接入数据的普遍适应能力,通过一定的配置或映射即可以适应绝大多数的业务场景。

为了实现上述要求,我们在研发模型时将不可避免地在某些方面做出一些取舍,例如模型若想通用必将会导致性能的一定程度下降,如何在这些矛盾中寻求一个合理的折中,也是在设计时需要考虑的问题。目前,我们已经针对一些领域开始研发敏捷 AI 模型,经过实际测试与应用后,不久的将来就将整合进现在的敏捷大数据产品栈中。此外,在未来我们还可以公布相关接口和规约,让用户也有能力将自己的模型加入到库中。

结语

实时数据的智能化分析是未来大数据技术和人工智能技术发展的重要方向之一,如何降低这一实施过程的经济成本、时间成本、技术成本以及变更成本,是敏捷大数据和敏捷 AI 着重解决的关键问题。本文结合敏捷大数据产品提出了一种解决思路,希望我们的产品能够帮助各组织方便、快速、灵活地构建自己的实时大数据智能分析系统。

image.png

原文链接:https://www.infoq.cn/article/NNBszCZjPISI3Zay2Cv7

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
21天前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
116 17
|
1月前
|
人工智能 分布式计算 DataWorks
大数据&AI产品月刊【2024年8月】
大数据& AI 产品技术月刊【2024年8月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
2月前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
2月前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
|
2月前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
2月前
|
存储 人工智能 算法
AI与大数据的结合:案例分析与技术探讨
【8月更文挑战第22天】AI与大数据的结合为各行各业带来了前所未有的机遇和挑战。通过具体案例分析可以看出,AI与大数据在电商、智能驾驶、医疗等领域的应用已经取得了显著成效。未来,随着技术的不断进步和应用场景的不断拓展,AI与大数据的结合将继续推动各行业的创新与变革。
|
2月前
|
SQL 人工智能 分布式计算
飞天发布时刻:大数据AI平台产品升级发布
阿里云飞天发布时刻产品发布会围绕阿里云大数据AI平台的新能力和新产品进行详细介绍。人工智能平台PAI、云原生大数据计算服务MaxCompute、开源大数据平台E-MapReduce、实时数仓Hologres、阿里云Elasticsearch、向量检索Milvus等产品均带来了相关发布的深度解读。
|
2月前
|
人工智能 分布式计算 大数据
大数据及AI典型场景实践问题之“开发者藏经阁计划”的定义如何解决
大数据及AI典型场景实践问题之“开发者藏经阁计划”的定义如何解决
|
1月前
|
存储 大数据 数据挖掘
【数据新纪元】Apache Doris:重塑实时分析性能,解锁大数据处理新速度,引爆数据价值潜能!
【9月更文挑战第5天】Apache Doris以其卓越的性能、灵活的架构和高效的数据处理能力,正在重塑实时分析的性能极限,解锁大数据处理的新速度,引爆数据价值的无限潜能。在未来的发展中,我们有理由相信Apache Doris将继续引领数据处理的潮流,为企业提供更快速、更准确、更智能的数据洞察和决策支持。让我们携手并进,共同探索数据新纪元的无限可能!
88 11
|
2月前
|
存储 分布式计算 大数据
MaxCompute 数据分区与生命周期管理
【8月更文第31天】随着大数据分析需求的增长,如何高效地管理和组织数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个专为海量数据设计的计算服务,它提供了丰富的功能来帮助用户管理和优化数据。本文将重点讨论 MaxCompute 中的数据分区策略和生命周期管理方法,并通过具体的代码示例来展示如何实施这些策略。
110 1