大数据& AI 产品技术月刊【2024年7月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
一、产品功能发布
【云原生大数据计算服务 MaxCompute】新功能/规格 - 支持行级访问控制
推出基于表的行级访问控制能力,控制消费方对数据的访问。
【云原生大数据计算服务 MaxCompute】新地域/新可用区 - 计算成本优化功能在中国香港、新加坡等4个地域发布
计算成本优化功能在中国香港、新加坡、印度尼西亚(雅加达)、德国(法兰克福)地域发布。
【云原生大数据计算服务 MaxCompute】新功能/规格 - 提供作业开始运行时间、等待时长及运行时长参数
提供以上参数,方便开发者定位作业运行问题。
【大数据开发治理平台 DataWorks】新功能/规格 - 数据集成支持 MySQL 整库同步至 StarRocks
数据可通过 MySQL 整库离线+实时两种方式同步至 StarRocks。
【大数据开发治理平台 DataWorks】新功能/规格 - 支持灵活注册 CDH/CDP 各版本集群
通过自定义集群版本可在 DataWorks 平台使用各版本 CDH/CDP 集群。
【大数据开发治理平台 DataWorks】新功能/规格 - 数据开发新增 CDH Spark SQL 节点
可进行 CDH Spark SQL 任务的开发和周期性调度。
【大数据开发治理平台 DataWorks】新功能/规格 - 用户可查看拥有的资源信息列表
RAM 权限策略更新,方便用户查看所有资源信息。
【实时数仓 Hologres】新功能/规格 - Serverless Computing 功能商业化
按照 Serverless Computing 的资源使用量和使用时长收取相应费用。
【实时计算 Flink 版】功能优化 - 全托管存储公测发布
实时计算 Flink 作业支持全托管存储,提高数据的安全性和可靠性。
【实时计算 Flink 版】功能优化 - 发布 VVR 8.0.8 引擎
发布基于 Apache Flink 1.17.2 的引擎 VVR 8.0.8。
【开源大数据平台 E-MapReduce】新功能/规格 - Serverless Spark 集成 Notebook
Serverless Spark 支持通过 Notebook 进行交互式开发。
【开源大数据平台 E-MapReduce】新功能/规格 - Spark 支持连接外部 Hive Metastore
Serverless Spark 支持连接外部 Hive Metastore。
二、产品活动
使用 PAI ✖ LLaMA Factory 微调 Llama3 模型,搭建“ AI 诸葛亮” 问答机器人
使用 PAI 平台及 LLaMA Factory 训练框架完成模型的中文化与角色扮演微调和评估,搭建专属“ AI 诸葛亮”问答机器人,7×24小时为你出谋划策!
阿里云 MaxCompute MaxFrame 开启免费公测,统一 Python 开发生态
MaxCompute 提供分布式计算框架 MaxFrame,支持 Python 编程接口并可直接复用 MaxCompute 弹性计算资源及海量数据,100%兼容 Pandas 且自动分布式,与 MaxCompute Notebook、镜像管理等功能共同构成了 MaxCompute 的 Python 开发生态。MaxFrame 正式开启公免费公测,每个租户可领取 5000CU 免费资源,抵扣 MaxFrame 计算资源费用。
阿里云向量检索服务 Milvus 版开启免费公测,极速低成本云原生向量检索引擎
向量检索服务 Milvus 版在上一代 EMR Serverless Milvus 公测版的基础上全新升级并继续提供公测服务,不仅继续 100% 兼容开源版内核,同时联合 ZIlliz 提供更强大的商业化内核,极致的存算优化,使得性能得到数倍提升,资源节约 30% 以上,更与 PAI-EAS、通义等阿里云 AI 产品打通,并全面兼容 LlamaIndex,提供友好易用的 RAG 解决方案。现正式开启公免费公测,每个用户可在控制台免费创建入门版实例,标准版可通过表单申请免费创建。
7月24日,阿里云飞天发布时刻产品发布会围绕阿里云大数据 AI 平台的新能力和新产品进行详细介绍。人工智能平台 PAI、云原生大数据计算服务 MaxCompute、开源大数据平台 E-MapReduce、实时数仓 Hologres、阿里云 Elasticsearch、向量检索 Milvus 等产品均带来了相关发布的深度解读。
DataFunCon 2024·北京站:大数据·大模型.双核时代
7月5-6日在北京将会召开「DataFunCon 2024·北京站:大数据·大模型.双核时代 」主题峰会。特邀阿里云计算平台事业部多位产品技术专家,分享了阿里云在大数据与AI结合以及企业数字化转型方面的产能力与实践经验。
三、产品快讯
Forrester Wave™: AI Infrastructure Solutions 2024 报告:阿里云入选竞争者象限,AI基础设施产品力全球第二
AI基础设施需要专门的计算、存储、网络设计,以满足AI在数据准备、模型训练、推理阶段的需求。Forrester报告认为,围绕AI开发全流程,阿里云打造了丰富的云上AI服务,既包括强大的AI算力,也包括便捷的平台和工具。此外,阿里云AI产品的性价比和易用性也非常突出。
在Gartner近日发布的2024年《数据科学和机器学习平台魔力象限》中,阿里云同样是中国科技公司中的引领者,今年跃升至挑战者象限,并成为该报告中唯一入围的亚太厂商。阿里云人工智能平台PAI、大数据开发治理平台Dataworks等产品为大模型的训练部署提供了高性能的全生命周期工具。
「PAI-ArtLab100 AIGC」设计普惠计划发布!与 100+ 高校共同探索 AIGC 教育新路径
D20 全球设计院长峰会(简称 D20 峰会)在杭州阿里巴巴全球总部召开。峰会现场,阿里云高校合作部、阿里云人工智能平台PAI,以及阿里云设计中心联合发布「ArtLab100 AIGC设计普惠计划」(简称ArtLab100计划),与 100+ 高校共同探索 AIGC 教育新路径。旨在推动设计艺术教育与人工智能技术的深度结合,培育新时代的设计创新人才,同时加强校企合作,促进产业界与学术界的协同进步。
阿里云人工智能平台 PAI 的论文 《Llumnix: Dynamic Scheduling for Large Language Model Serving》被 OSDI '24录用。论文通过对大语言模型( LLM )推理请求的动态调度,大幅提升了推理服务质量和性价比。Llumnix 是业界首个能灵活在不同模型实例间重新分配请求的框架;并且,实验表明,与最先进的LLM服务系统相比,Llumnix 请求尾延迟时间剧减超过 10 倍,将高优先级请求的速度提高了 1.5 倍,并在实现类似尾部延迟的同时,成本降低为原先的 64%。
阿里云人工智能平台 PAI 自研开源的视频生成项目 EasyAnimate 正式发布 v3 版本
- 支持图片(可配合文字)生成视频
- 支持上传两张图片作为起止画面生成视频
- 最大支持 720p(960*960 分辨率)144帧视频生成
- 最低支持 12G 显存使用(3060 12G可用)
- 视频续写生成无限时长视频
四、产品学习指南
【最佳实践】大语言模型的直接偏好优化(DPO)对齐在 PAI-QuickStart 实践
阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对 DPO 算法提供了全面的技术支持。无论是开发者还是企业客户,都可以通过 PAI-QuickStart 轻松实现大语言模型的 DPO 对齐微调。本文以阿里云最近推出的开源大型语言模型 Qwen2(通义千问2)系列为例,介绍如何在 PAI-QuickStart 实现 Qwen2 的 DPO 算法对齐微调。
【最佳实践】使用 DataWorks 享受成本分析自由,体验账单数据订阅及查询分析实践
DataWorks 作为阿里云一站式数据开发治理平台,联合阿里云费用与成本基于 MaxCompute 等大数据引擎,支持您在线进行 SQL 分析、业务洞察、编辑和分享数据,以及将查询结果保存为可视化图表卡片,快速搭建可视化数据报告。订阅账单数据后,用户中心会将相关账单数据同步至指定 MaxCompute 表,您可通过 DataWorks 的数据分析功能分析您的阿里云账单。
【最佳实践】实时数仓 Hologres OLAP 场景核心能力介绍
Hologres 作为阿里云一站式实时数仓,提供统一、实时、弹性、易用的一站式实时数仓引擎,解决复杂OLAP 难题。Hologres 在OLAP 场景上具备支持 OLAP 分析、对湖和仓的数据可做直读加速、兼容 PG 生态等优势,提供高性能、高可用的产品能力和极致的开发体验。
【最佳实践】Hologres+Flink 企业级实时数仓核心能力介绍
Hologres 和 Flink 有效结合,形成强大的 Streaming Warehouse 方案。实现数据从 MySQL 或其他数据源通过 Flink 实时写入 Hologres 中,形成 ODS 层。Hologres 支持 Binlog,提供表的增量变化信息,以此成为 Flink 的源表,通过 Flink 来全增量消费 Hologres 源表并加工后再写入 Hologres 中,形成 DWD 层。DWD 层再次生成 Binlog 供 Flink 消费。再次写入 Hologres 中,形成聚合层 DWS,以此最终为下游提供服务。
【最佳实践】分析性能提升 40%,阿里云 Hologres 流量场景最佳实践
Hologres 在实时写入能力上显著提升,特别是通过 Fixed plan 模式实现了高效的数据写入。该模式能够在数据写入过程中进行深度优化,直接面向存储引擎进行批量的数据写入。Hologres 在 TPC-H 标准测试中取得了全球排名第一的优异成绩,相比第二名领先了约23%,这一成绩充分展示了 Hologres 在该领域的卓越技术实力和竞争优势。Hologres 自 2.0 版本后,持续优化以提升用户使用的便捷性和系统稳定性。即将推出的 Hologres Dynamic Table 支持流批一体场景的能力。Hologres 在流量场景的分析能力上表现优异,尤其在漏斗分析、留存分析、标签画像分析以及用户行为标签分析等方面支持完善。
【最佳实践】实时数仓 Hologres TPC-H 及点查性能开箱测试
Hologres 现在仍然是 TPCH-30000 榜单的全球第一,领先第二名高达 23%,最新发布的 2.2 版本相比之前的 1.x 的版本性能大约提升 100%。本次开箱测试主要通过 96CU 进行 OLAP 场景的 TPC 标准查询测试以及 Serving 场景会包含例如 insert 场景、update 的场景,如果您也需要测试可以在官网购买 59 元 150000CU 时进行测试( 1 个 96CU 实例 1 小时消耗 96CU 时)。
【最佳实践】阿里云 EMR StarRocks VS 开源版本功能差异介绍
阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章重点介绍阿里云 EMR StarRocks 与开源 StarRocks 的对比与客户案例。
【最佳实践】通过 EMR Serverless Spark 提交 PySpark 流任务
在大数据快速发展的时代,流式处理技术对于实时数据分析至关重要。EMR Serverless Spark 提供了一个强大而可扩展的平台,它不仅简化了实时数据处理流程,还免去了服务器管理的烦恼,提升了效率。本文将指导您使用 EMR Serverless Spark 提交 PySpark 流式任务,展示其在流处理方面的易用性和可运维性。
【最佳实践】阿里云 EMR Serverless StarRocks OLAP 数据分析场景解析
阿里云 EMR Serverless StarRocks 作为一款高性能、全场景覆盖、全托管免运维的 OLAP 分析引擎,在企业数据分析领域展现出了强大的竞争力和广泛的应用前景。通过其卓越的技术特点、丰富的应用场景以及完善的生态体系支持,EMR Serverless StarRocks 正逐步成为企业数字化转型和智能化升级的重要推手。未来随着技术的不断进步和应用场景的不断拓展我们有理由相信 EMR Serverless StarRocks 将在更多领域发挥重要作用为企业创造更大的价值。
【客户案例】识货基于向量检索服务 Milvus 版搭建电商领域的向量数据检索平台
阿里云向量检索服务 Milvus 版以其性能稳定和功能多样化的向量检索能力,为识货团队在电商领域的向量检索场景中搭建业务系统提供了强有力的支持。该服务的分布式扩展能力不仅可靠,而且能够适应日益增长的数据规模。目前集成了Zilliz商业化内核的新版本正式发布且免费公测中。
【最佳实践】解读阿里云搜索开发工作台如何快速搭建 AI 语义搜索及 RAG 链路
阿里云搜索开发工作台是面向企业及开发者提供先进的AI搜索开发平台,内置实践打磨的多模态数据解析、文档切分、文本向量、查询分析、大模型文本生成、效果测评等丰富的组件化服务以及开发模版,同时,可选多种引擎能力,用户可灵活调用,实现智能搜索、检索增强生成( RAG )、多模态搜索等搜索相关场景的搭建。本文介绍阿里云搜索开发工作台如何通过内置数据处理、查询分析、排序、效果测评、大模型等服务,结合阿里云搜索引擎及开源引擎,灵活打造 AI 语义搜索及 RAG 链路。
【最佳实践】多模态 RAG :三步构建图文并茂的智能问答、电商导购助手
OpenSearch LLM 智能问答版内置数据解析与处理、切片、向量化、文本&向量检索、多模态 LLM 等模型和功能。本文将介绍如何使用 OpenSearch LLM 智能问答版搭建一站式多模态 RAG 系统。