大数据&AI产品月刊【2024年9月】

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 大数据& AI 产品技术月刊【2024年9月】,涵盖本月技术速递、2024云栖大会实录、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。


一、产品功能发布

人工智能平台 PAI】新功能/规格 - PAI-DSW 内置通义灵码

PAI-DSW 内置智能编码助手通义灵码(个人版),提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力,用户可免安装免登录直接使用,助力开发者高效、流畅地编码。


人工智能平台 PAI】新地域/新可用区 - PAI 训练服务在中国(香港)、印尼(雅加达)开服

分布式训练服务 PAI-DLC、AI 资源配额(Quota)新增开通中国(香港)、印度尼西亚(雅加达)地域,可以支持客户使用资源配额(Quota)和公共资源(按量付费)的提交训练任务。


【人工智能平台 PAI】新功能/规格 - DSW 轻量版(NotebookLab)发布

Notebook 编写环节轻量化,仅需浏览器即可开发,无需预先启动资源;Notebook 资产化,用户 Notebook 和实例资源解耦,更方便的作为技术文档/代码进行沉淀和分享。


【云原生大数据计算服务 MaxCompute】 功能优化 - 控制台包年包月计算 Quota 管理交互界面升级

MaxCompute 控制台 Quota 管理交互升级,提升管理者操作体验。


【实时数仓 Hologres】新功能/规格 - Dynamic Table 正式发布(增量、全量刷新)

可以自动处理并存储一个或者多个基表对象的数据聚合结果,内置增量和全量的刷新策略,实现数据从基表对象到 Dynamic Table 的自动流转,满足业务统一开发、数据自动流转、处理时效性等诉求。


【大数据开发治理平台 DataWorks】新功能/规格 - 智能数据洞察

DataWorks 数据分析支持面向数据表或 SQL 查询结果进行智能数据洞察,智能数据洞察底层通过 AI 算法提供数据计算和推理服务,能够帮助用户在海量数据中提取和探索数据特征和相关性等关键结论,并通过可视化图表和文本描述来直观表达数据见解。


【大数据开发治理平台 DataWorks】新功能/规格 - 新增资产标签管理能力

可对用户管理的表及任务进行标签标记。用户可根据业务逻辑,以 key:value 形式自由定义标签,如“业务场景:财务报表分析”,“资产等级:A0”等,并可针对同一项目或工作空间下表及任务,基于业务视角标记标签值,精细化分类资产。支持用户在数据地图、运维中心中进行标签筛选和标记,提升资产的可发现性。


【开源大数据平台 E-MapReduce】新功能/规格 - 支持 Spark Thrift Server 服务

EMR Serverless Spark 支持 Spark Thrift Server 服务,允许以 JDBC 协议连接并提交任务。


【开源大数据平台 E-MapReduce】新功能/规格 - Serverless Spark 开启商业化

EMR Serverless Spark 是一款云原生,专为大规模数据处理和分析而设计的全托管 Serverless 产品,于2024年9月14日开启商业化。


【开源大数据平台 E-MapReduce】新功能/规格 - Serverless Spark 支持运行环境管理

Notebook 当前已默认安装 matplotlib、numpy 和 pandas。如果您需要使用其他第三方库,可以创建运行环境。当前支持在 Notebook 会话中使用自定义运行环境,Notebook 会话启动时将根据所选环境预装相关库


【开源大数据平台 E-MapReduce】新功能/规格 - Serverless StarRocks 支持物化视图管理

StarRocks 中的物化视图是一种预计算和存储查询结果的机制,其主要目的是加速复杂查询的响应时间。通过将频繁查询或者计算代价高昂的查询结果事先计算好并存储起来,当相同的查询需求再次发生时,可以直接从物化视图中读取数据,从而大幅提高查询效率。本文为您介绍如何使用 EMR StarRocks Manager 查看物化视图。


【开源大数据平台 E-MapReduce】新功能/规格 - Serverless StarRocks 支持阿里云资源组

资源组会对您拥有的云资源从用途、权限和归属等维度上进行分组,实现企业内部多用户、多项目的资源分级管理。一个云资源只能属于一个资源组,云资源之间的关联关系不会因加入资源组而发生变化。EMR Serverless StarRocks 目前支持资源组的云资源为实例。


【数据湖构建】新功能/规格 - DLF2.0开启公测,发布 Paimon Catalog

支持全托管 Paimon 元数据和数据的存储及管理,Paimon 湖表权限管理、Paimon 湖表存储分析和优化,做到元数据统一、湖表格式统一、数据存储统一。集成到阿里云 OpenLake 解决方案,包括 EMR Serverless Spark、EMR Serverless StarRocks、实时计算 Flink版、MaxCompute、Hologres、DataWorks、PAI、OpenSearch 等产品。


二、2024云栖大会实录

AI Native 平台,跨越 AI 应用从创新到生产的鸿沟

云计算带来的应用创新潮,经历了虚拟机时代和云原生时代,正在全面拥抱以大模型为核心的 AI Native 阶段,并推动大数据与 AI 的工作流前所未有地紧密结合。领先大模型、高效的 AI 计算平台和统一的大数据平台是 AI Native 应用广泛落地背后不可获缺的要素。阿里云副总裁、阿里云计算平台事业部负责人汪军华于2024云栖大会技术主论坛宣布阿里云大数据 AI 平台全面升级为 AI Native 应用大爆发提供坚实的平台支撑。


OpenLake 解决方案重磅发布:多模态数据统一纳管、引擎平权联合计算、数据共享统一读写

2024云栖大会上,阿里云 OpenLake 解决方案正式发布。OpenLake 是基于开放可控数据湖仓构建的大数据、搜索、AI 一体化解决方案,能够实现多模态数据统一纳管、多种计算引擎平权计算、大数据AI一体化开发,助力企业基于数据资产构筑竞争力。


PAI:GenAI 时代 AI Infra 工程技术趋势与平台演进

今年是大模型迅猛发展的一年,GenAI(生成式 AI)的应用领域得到了前所未有的拓展。随之而来,技术挑战也在升级,硬件成本、资源管理、软件硬件之间的配合问题等都是大模型落地必须面对的难题。为了应对这些挑战,阿里云人工智能平台 PAI 持续进行技术创新与优化。2024云栖大会 AI Infra 核心技术专场和人工智能平台年度发布专场上,PAI 团队带来了对 AI Infra 工程技术的趋势解读,以及 PAI 的全新能力发布。


MaxCompute:迈向下一代的智能云数仓

阿里云核心自研云原生大数据计算服务 MaxCompute,通过经典数据仓库能力定义与云数据架构的深刻理解,构建出面向下一代智能云数仓。其核心产品理念为:Data+AI,不断深化数据价值,为企业夯实 AI 时代的大数据基础设施;开放湖仓架构,支撑多样数据的融合处理与分析;推出近实时数仓,实现从离线到近实时的系统性能优化;企业级服务化,提供数据的保密性、完整性、可用性保障,支持 AI 智能化在企业级场景下应用。


Hologres 3.0:一体化实时湖仓平台

Hologres 3.0 通过统一数据平台实现湖仓存储一体、多模式计算一体、分析服务一体、Data+AI 一体,发布 Dynamic Table、External Database、分时弹性、Query Queue、NL2SQL 等众多新的产品能力,实现一份数据、一份计算、一份服务,极大提高数据开发及应用效率。同时,Hologres 的预付费实例年付折扣再降15%,仅需7折,不断帮助企业降低数据管理成本,赋能业务增长。


DataWorks:新一代智能湖仓一体数据开发与治理平台

云栖大会商用大数据计算与分析平台专场上,DataWorks 全新升级和推出新一代智能湖仓一体数据开发与治理平台,为 OpenLake 湖仓一体数据架构提供智能化数据集成、数据开发、数据分析与主动式数据资产治理服务,助力“ Data+AI ”全生命周期的数据管理,致力于为用户构建一个开放的云原生数据开发治理平台。


开源大数据平台升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展

2024云栖大会开源大数据专场带来开源大数据全面升级。实时计算 Flink 推出业界首款向量化流计算引擎- Flash,助力企业在大数据实时化升级的道路上降本增效。开源大数据平台已全面实现了 Serverless 产品化,包括 EMR Serverless Spark、EMR Serverless StarRocks、Serverless 实时计算 Flink 版等。阿里云湖仓架构全面升级,帮助企业快速构建一体化数据分析平台,加速获取 AI 赋能的业务洞察,有效降低数据基础设施与管理成本。


AI 搜索产品:大模型驱动、开源融合

2024年云栖大会- AI 搜索专场带来了 AI 搜索产品的全新升级,一站式 AI 搜索开放平台、高质量开源引擎生态、企业级 AI 搜索应用共同塑造 AI 搜索新纪元。


智能运维:年度重磅发布及大模型实践解读

阿里云大数据运维团队重磅发布云原生大规模集群场景的 GitOps 方案,该方案基于 OAM 云原生模型,促进研发与运维人员协作,同时兼顾变更的过程管理和终态管理,可实现变更的自动化、代码化、透明化。此外,阿里云大数据运维团队分享了大模型在大数据智能运维场景的应用实践,通过引入检索增强生成(RAG)方法和其他优化策略,大幅提高了在智能问答和智能诊断方面知识的关联性和检索精度,并基于多智能体框架建立高效的数据分析和决策支持系统。


三、最新活动

技术沙龙 | 搜索进化论:基于大模型的企业级AI搜索

9月13日,阿里云 AI 搜索团队与阿里云用户组联合举办了“搜索进化论:基于大模型的企业级 AI 搜索”主题沙龙。活动特邀阿里云 AI 搜索研发负责人邢少敏等专家带来技术分享,并与企业客户共同探讨 AI 为搜索带来的机遇与挑战,以及 AI 搜索在各应用场景中的实践经验与思考。


开发者活动 | 使用 PAI ArtLab 生成云栖大会打卡 AIGC 写真,记录下您的 APSARA 时刻!

PAI ArtLab 是人工智能平台 PAI 为设计专业人士打造的 AIGC 智能设计工具。通过 PAI Artlab 的 ComfyUI 界面,仅需简单配置,即可生成云栖大会经典场景合照,定格专属的 APSARA 记忆。


开发者活动 | 使用 PAI ✖ LLaMA Factory 微调 Llama3 模型,搭建“ AI 诸葛亮” 问答机器人

使用 PAI 平台及 LLaMA Factory 训练框架完成模型的中文化与角色扮演微调和评估,搭建专属“ AI 诸葛亮”问答机器人,7×24 小时为你出谋划策!


四、产品快讯

首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!

国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。


Pai-Megatron-Patch:围绕 Megatron-Core 打造大模型训练加速生态

Pai-Megatron-Patch 是阿里云人工智能平台 PAI 研发的围绕 NVIDIA MegatronLM 的大模型开发配套工具,旨在帮助开发者快速上手大模型,完成大模型(LLM)相关的高效分布式训练,有监督指令微调,下游任务评估等大模型开发链路。最近一年来,我们持续打磨 Pai-Megatron-Patch 的性能和扩展功能,围绕 Megatron-Core 进一步打造大模型训练加速技术生态,推出更多的的训练加速、显存优化特性。


TAG:BladeLLM 的纯异步推理架构

大模型推理社区(vLLM,SGLang 等)普遍开始关注框架运行时开销,提出了多步调度、异步输出处理、独立 API Server 进程等工作,来分摊或掩盖部分开销。在实际业务场景中,也观察到高额的框架开销严重限制了系统吞吐,特别是在高并发(>1k)场景下,运行时开销已经接近或高于 GPU 运行时间,导致资源严重浪费和性能下降。为此,BladeLLM 设计并实现了基于 Python 的纯异步 LLM 推理架构 -- TAG (Totally Asynchronous Generator) ,以最大程度提高 GPU 利用率,提升引擎性能。


五、最佳实践

【最佳实践】RAG 效果优化:高质量文档解析详解

本实践详细介绍基于 AI 开放搜索平台如何将非结构化数据(如 PDF 和 Word 文档)转换为结构化数据,以便于 RAG(Retrieval-Augmented Generation)系统使用。


【最佳实践】阿里云 Elasticsearch AI 搜索实践

ES 在 AI 场景核心技术之一是引入了先进的语义理解能力,特别是通过 embedding 向量技术革新搜索引擎。本文详细介绍阿里云 Elasticsearch AI 搜索方案,基于效果更优的 RAG 全链路模型,加强数据预处理及检索增强能力,支持不同场景的业务应用。


【最佳实践】对接开源大模型应用开发平台最佳实践

本文以 Dify 为例介绍如何使用 OpenSearch LLM 智能问答版对接大模型应用开发平台构建 RAG 系统


【客户案例】阿里云 EMR StarRocks 在七猫的应用和实践

七猫是一家深耕文化娱乐行业的互联网企业,本文详细介绍了阿里云 EMR-StarRocks 助力七猫搭建通用人群圈选系统、指标异动自动下钻探查、730天微聚合数据灵活下钻分析等业务应用与实践。


【Paper Reading】结合 NanoFlow 研究,优化大语言模型服务效率的探索

人工智能平台 PAI 团队开发了 BladeLLM ,旨在为用户提供高性能、高稳定、企业级的大模型推理能力。在日常工作中,我们经常需要处理大量的实时请求,确保用户体验的同时,降低系统的计算成本。正因如此,NanoFlow 中提出的一系列优化策略与我们目前的研究方向紧密相关,探索更高效的模型服务方案提供了启示。本文将深入探讨 NanoFlow 的关键思路和核心技术,分析 NanoFlow 与 阿里云人工智能平台 PAI 在实际工作中应用的潜力。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
zdl
|
1月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
155 56
|
4天前
|
数据采集 分布式计算 大数据
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame是阿里云自研的分布式计算框架,专为Python开发者设计。它支持Python接口,充分利用MaxCompute的大数据资源,提升大规模数据分析效率。本文分享了MaxFrame在分布式Pandas处理和大语言模型数据预处理中的最佳实践,展示了其在数据清洗、特征工程等方面的强大能力,并提出了改进建议。
29 13
|
1天前
|
数据采集 人工智能 分布式计算
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
|
4天前
|
机器学习/深度学习 分布式计算 数据处理
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame 产品评测报告
18 4
|
7天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
18天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
27天前
|
人工智能 自然语言处理 算法
【AI问爱答-双十一返场周直播】AI产品专家直播解读重点AI应用场景怎么用?
阿里云【AI问爱答】栏目强势回归,11月25日至28日每晚19:00,连续四天直播,涵盖AI营销、企业办公、社交娱乐及大模型推理调优四大主题,助您深入了解AI应用,解决实际问题。欢迎预约观看!
|
3天前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
34 0
|
1月前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
16天前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年11月】
大数据& AI 产品技术月刊【2024年11月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 下一篇
    DataWorks