大数据&AI产品月刊【2024年9月】

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 大数据& AI 产品技术月刊【2024年9月】,涵盖本月技术速递、2024云栖大会实录、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。


一、产品功能发布

人工智能平台 PAI】新功能/规格 - PAI-DSW 内置通义灵码

PAI-DSW 内置智能编码助手通义灵码(个人版),提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码优化、注释生成、代码解释、研发智能问答、异常报错排查等能力,用户可免安装免登录直接使用,助力开发者高效、流畅地编码。


人工智能平台 PAI】新地域/新可用区 - PAI 训练服务在中国(香港)、印尼(雅加达)开服

分布式训练服务 PAI-DLC、AI 资源配额(Quota)新增开通中国(香港)、印度尼西亚(雅加达)地域,可以支持客户使用资源配额(Quota)和公共资源(按量付费)的提交训练任务。


【人工智能平台 PAI】新功能/规格 - DSW 轻量版(NotebookLab)发布

Notebook 编写环节轻量化,仅需浏览器即可开发,无需预先启动资源;Notebook 资产化,用户 Notebook 和实例资源解耦,更方便的作为技术文档/代码进行沉淀和分享。


【云原生大数据计算服务 MaxCompute】 功能优化 - 控制台包年包月计算 Quota 管理交互界面升级

MaxCompute 控制台 Quota 管理交互升级,提升管理者操作体验。


【实时数仓 Hologres】新功能/规格 - Dynamic Table 正式发布(增量、全量刷新)

可以自动处理并存储一个或者多个基表对象的数据聚合结果,内置增量和全量的刷新策略,实现数据从基表对象到 Dynamic Table 的自动流转,满足业务统一开发、数据自动流转、处理时效性等诉求。


【大数据开发治理平台 DataWorks】新功能/规格 - 智能数据洞察

DataWorks 数据分析支持面向数据表或 SQL 查询结果进行智能数据洞察,智能数据洞察底层通过 AI 算法提供数据计算和推理服务,能够帮助用户在海量数据中提取和探索数据特征和相关性等关键结论,并通过可视化图表和文本描述来直观表达数据见解。


【大数据开发治理平台 DataWorks】新功能/规格 - 新增资产标签管理能力

可对用户管理的表及任务进行标签标记。用户可根据业务逻辑,以 key:value 形式自由定义标签,如“业务场景:财务报表分析”,“资产等级:A0”等,并可针对同一项目或工作空间下表及任务,基于业务视角标记标签值,精细化分类资产。支持用户在数据地图、运维中心中进行标签筛选和标记,提升资产的可发现性。


【开源大数据平台 E-MapReduce】新功能/规格 - 支持 Spark Thrift Server 服务

EMR Serverless Spark 支持 Spark Thrift Server 服务,允许以 JDBC 协议连接并提交任务。


【开源大数据平台 E-MapReduce】新功能/规格 - Serverless Spark 开启商业化

EMR Serverless Spark 是一款云原生,专为大规模数据处理和分析而设计的全托管 Serverless 产品,于2024年9月14日开启商业化。


【开源大数据平台 E-MapReduce】新功能/规格 - Serverless Spark 支持运行环境管理

Notebook 当前已默认安装 matplotlib、numpy 和 pandas。如果您需要使用其他第三方库,可以创建运行环境。当前支持在 Notebook 会话中使用自定义运行环境,Notebook 会话启动时将根据所选环境预装相关库


【开源大数据平台 E-MapReduce】新功能/规格 - Serverless StarRocks 支持物化视图管理

StarRocks 中的物化视图是一种预计算和存储查询结果的机制,其主要目的是加速复杂查询的响应时间。通过将频繁查询或者计算代价高昂的查询结果事先计算好并存储起来,当相同的查询需求再次发生时,可以直接从物化视图中读取数据,从而大幅提高查询效率。本文为您介绍如何使用 EMR StarRocks Manager 查看物化视图。


【开源大数据平台 E-MapReduce】新功能/规格 - Serverless StarRocks 支持阿里云资源组

资源组会对您拥有的云资源从用途、权限和归属等维度上进行分组,实现企业内部多用户、多项目的资源分级管理。一个云资源只能属于一个资源组,云资源之间的关联关系不会因加入资源组而发生变化。EMR Serverless StarRocks 目前支持资源组的云资源为实例。


【数据湖构建】新功能/规格 - DLF2.0开启公测,发布 Paimon Catalog

支持全托管 Paimon 元数据和数据的存储及管理,Paimon 湖表权限管理、Paimon 湖表存储分析和优化,做到元数据统一、湖表格式统一、数据存储统一。集成到阿里云 OpenLake 解决方案,包括 EMR Serverless Spark、EMR Serverless StarRocks、实时计算 Flink版、MaxCompute、Hologres、DataWorks、PAI、OpenSearch 等产品。


二、2024云栖大会实录

AI Native 平台,跨越 AI 应用从创新到生产的鸿沟

云计算带来的应用创新潮,经历了虚拟机时代和云原生时代,正在全面拥抱以大模型为核心的 AI Native 阶段,并推动大数据与 AI 的工作流前所未有地紧密结合。领先大模型、高效的 AI 计算平台和统一的大数据平台是 AI Native 应用广泛落地背后不可获缺的要素。阿里云副总裁、阿里云计算平台事业部负责人汪军华于2024云栖大会技术主论坛宣布阿里云大数据 AI 平台全面升级为 AI Native 应用大爆发提供坚实的平台支撑。


OpenLake 解决方案重磅发布:多模态数据统一纳管、引擎平权联合计算、数据共享统一读写

2024云栖大会上,阿里云 OpenLake 解决方案正式发布。OpenLake 是基于开放可控数据湖仓构建的大数据、搜索、AI 一体化解决方案,能够实现多模态数据统一纳管、多种计算引擎平权计算、大数据AI一体化开发,助力企业基于数据资产构筑竞争力。


PAI:GenAI 时代 AI Infra 工程技术趋势与平台演进

今年是大模型迅猛发展的一年,GenAI(生成式 AI)的应用领域得到了前所未有的拓展。随之而来,技术挑战也在升级,硬件成本、资源管理、软件硬件之间的配合问题等都是大模型落地必须面对的难题。为了应对这些挑战,阿里云人工智能平台 PAI 持续进行技术创新与优化。2024云栖大会 AI Infra 核心技术专场和人工智能平台年度发布专场上,PAI 团队带来了对 AI Infra 工程技术的趋势解读,以及 PAI 的全新能力发布。


MaxCompute:迈向下一代的智能云数仓

阿里云核心自研云原生大数据计算服务 MaxCompute,通过经典数据仓库能力定义与云数据架构的深刻理解,构建出面向下一代智能云数仓。其核心产品理念为:Data+AI,不断深化数据价值,为企业夯实 AI 时代的大数据基础设施;开放湖仓架构,支撑多样数据的融合处理与分析;推出近实时数仓,实现从离线到近实时的系统性能优化;企业级服务化,提供数据的保密性、完整性、可用性保障,支持 AI 智能化在企业级场景下应用。


Hologres 3.0:一体化实时湖仓平台

Hologres 3.0 通过统一数据平台实现湖仓存储一体、多模式计算一体、分析服务一体、Data+AI 一体,发布 Dynamic Table、External Database、分时弹性、Query Queue、NL2SQL 等众多新的产品能力,实现一份数据、一份计算、一份服务,极大提高数据开发及应用效率。同时,Hologres 的预付费实例年付折扣再降15%,仅需7折,不断帮助企业降低数据管理成本,赋能业务增长。


DataWorks:新一代智能湖仓一体数据开发与治理平台

云栖大会商用大数据计算与分析平台专场上,DataWorks 全新升级和推出新一代智能湖仓一体数据开发与治理平台,为 OpenLake 湖仓一体数据架构提供智能化数据集成、数据开发、数据分析与主动式数据资产治理服务,助力“ Data+AI ”全生命周期的数据管理,致力于为用户构建一个开放的云原生数据开发治理平台。


开源大数据平台升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展

2024云栖大会开源大数据专场带来开源大数据全面升级。实时计算 Flink 推出业界首款向量化流计算引擎- Flash,助力企业在大数据实时化升级的道路上降本增效。开源大数据平台已全面实现了 Serverless 产品化,包括 EMR Serverless Spark、EMR Serverless StarRocks、Serverless 实时计算 Flink 版等。阿里云湖仓架构全面升级,帮助企业快速构建一体化数据分析平台,加速获取 AI 赋能的业务洞察,有效降低数据基础设施与管理成本。


AI 搜索产品:大模型驱动、开源融合

2024年云栖大会- AI 搜索专场带来了 AI 搜索产品的全新升级,一站式 AI 搜索开放平台、高质量开源引擎生态、企业级 AI 搜索应用共同塑造 AI 搜索新纪元。


智能运维:年度重磅发布及大模型实践解读

阿里云大数据运维团队重磅发布云原生大规模集群场景的 GitOps 方案,该方案基于 OAM 云原生模型,促进研发与运维人员协作,同时兼顾变更的过程管理和终态管理,可实现变更的自动化、代码化、透明化。此外,阿里云大数据运维团队分享了大模型在大数据智能运维场景的应用实践,通过引入检索增强生成(RAG)方法和其他优化策略,大幅提高了在智能问答和智能诊断方面知识的关联性和检索精度,并基于多智能体框架建立高效的数据分析和决策支持系统。


三、最新活动

技术沙龙 | 搜索进化论:基于大模型的企业级AI搜索

9月13日,阿里云 AI 搜索团队与阿里云用户组联合举办了“搜索进化论:基于大模型的企业级 AI 搜索”主题沙龙。活动特邀阿里云 AI 搜索研发负责人邢少敏等专家带来技术分享,并与企业客户共同探讨 AI 为搜索带来的机遇与挑战,以及 AI 搜索在各应用场景中的实践经验与思考。


开发者活动 | 使用 PAI ArtLab 生成云栖大会打卡 AIGC 写真,记录下您的 APSARA 时刻!

PAI ArtLab 是人工智能平台 PAI 为设计专业人士打造的 AIGC 智能设计工具。通过 PAI Artlab 的 ComfyUI 界面,仅需简单配置,即可生成云栖大会经典场景合照,定格专属的 APSARA 记忆。


开发者活动 | 使用 PAI ✖ LLaMA Factory 微调 Llama3 模型,搭建“ AI 诸葛亮” 问答机器人

使用 PAI 平台及 LLaMA Factory 训练框架完成模型的中文化与角色扮演微调和评估,搭建专属“ AI 诸葛亮”问答机器人,7×24 小时为你出谋划策!


四、产品快讯

首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!

国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。


Pai-Megatron-Patch:围绕 Megatron-Core 打造大模型训练加速生态

Pai-Megatron-Patch 是阿里云人工智能平台 PAI 研发的围绕 NVIDIA MegatronLM 的大模型开发配套工具,旨在帮助开发者快速上手大模型,完成大模型(LLM)相关的高效分布式训练,有监督指令微调,下游任务评估等大模型开发链路。最近一年来,我们持续打磨 Pai-Megatron-Patch 的性能和扩展功能,围绕 Megatron-Core 进一步打造大模型训练加速技术生态,推出更多的的训练加速、显存优化特性。


TAG:BladeLLM 的纯异步推理架构

大模型推理社区(vLLM,SGLang 等)普遍开始关注框架运行时开销,提出了多步调度、异步输出处理、独立 API Server 进程等工作,来分摊或掩盖部分开销。在实际业务场景中,也观察到高额的框架开销严重限制了系统吞吐,特别是在高并发(>1k)场景下,运行时开销已经接近或高于 GPU 运行时间,导致资源严重浪费和性能下降。为此,BladeLLM 设计并实现了基于 Python 的纯异步 LLM 推理架构 -- TAG (Totally Asynchronous Generator) ,以最大程度提高 GPU 利用率,提升引擎性能。


五、最佳实践

【最佳实践】RAG 效果优化:高质量文档解析详解

本实践详细介绍基于 AI 开放搜索平台如何将非结构化数据(如 PDF 和 Word 文档)转换为结构化数据,以便于 RAG(Retrieval-Augmented Generation)系统使用。


【最佳实践】阿里云 Elasticsearch AI 搜索实践

ES 在 AI 场景核心技术之一是引入了先进的语义理解能力,特别是通过 embedding 向量技术革新搜索引擎。本文详细介绍阿里云 Elasticsearch AI 搜索方案,基于效果更优的 RAG 全链路模型,加强数据预处理及检索增强能力,支持不同场景的业务应用。


【最佳实践】对接开源大模型应用开发平台最佳实践

本文以 Dify 为例介绍如何使用 OpenSearch LLM 智能问答版对接大模型应用开发平台构建 RAG 系统


【客户案例】阿里云 EMR StarRocks 在七猫的应用和实践

七猫是一家深耕文化娱乐行业的互联网企业,本文详细介绍了阿里云 EMR-StarRocks 助力七猫搭建通用人群圈选系统、指标异动自动下钻探查、730天微聚合数据灵活下钻分析等业务应用与实践。


【Paper Reading】结合 NanoFlow 研究,优化大语言模型服务效率的探索

人工智能平台 PAI 团队开发了 BladeLLM ,旨在为用户提供高性能、高稳定、企业级的大模型推理能力。在日常工作中,我们经常需要处理大量的实时请求,确保用户体验的同时,降低系统的计算成本。正因如此,NanoFlow 中提出的一系列优化策略与我们目前的研究方向紧密相关,探索更高效的模型服务方案提供了启示。本文将深入探讨 NanoFlow 的关键思路和核心技术,分析 NanoFlow 与 阿里云人工智能平台 PAI 在实际工作中应用的潜力。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
15天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
11天前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
1月前
|
SQL 存储 人工智能
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
DataAgent如何助理业务和研发成为业务参谋?如何快速低成本的创建行业数据分类标准?如何管控数据源表的访问权限?如何满足企业安全审计需求?
579 1
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
|
21天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
75 10
zdl
|
4天前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
21 0
|
1月前
|
消息中间件 人工智能 Cloud Native
|
26天前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
37 0
|
1月前
|
SQL 运维 大数据
大数据实时计算产品的对比测评
在使用多种Flink实时计算产品后,我发现Flink凭借其流批一体的优势,在实时数据处理领域表现出色。它不仅支持复杂的窗口机制与事件时间处理,还具备高效的数据吞吐能力和精准的状态管理,确保数据处理既快又准。此外,Flink提供了多样化的编程接口和运维工具,简化了开发流程,但在界面友好度上还有提升空间。针对企业级应用,Flink展现了高可用性和安全性,不过价格因素可能影响小型企业的采纳决策。未来可进一步优化文档和自动化调优工具,以提升用户体验。
116 0
|
1月前
|
SQL 存储 监控
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
49 0
|
人工智能 物联网 语音技术
云知声推多款医疗 AI 产品,病历生成与质控产品今年将站 C 位
云知声的战略是把在垂直行业积累的AI技能放在云端,通过芯片去赋能设备端的边缘计算能力,进而把云端的技术向设备端进行输出。
2448 0

相关产品

  • 云原生大数据计算服务 MaxCompute