大数据&AI产品技术月刊【2024年4月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
一、产品功能发布
【人工智能平台PAI】新功能/规格 -EAS-Serverless AI绘画场景发布
Serverless的场景化使用场景中,免费拉起服务,仅对实际调用计费。
【云原生大数据计算服务 MaxCompute】新功能/规格 -支持将操作审计事件迁移入仓
MaxCompute支持通过操作审计创建跟踪将操作事件迁移入仓。
【云原生大数据计算服务 MaxCompute】价格调整 -包年包月商品预付款资源新折扣生效
包年包月商品预付款资源新折扣生效。
【云原生大数据计算服务 MaxCompute】新功能/规格 -新增TIMESTAMP_NTZ数据类型
新增TIMESTAMP_NTZ数据类型,支持时间类型跟时区无关。
【云原生大数据计算服务 MaxCompute】新功能/规格 -新增内建函数FROM_CHARSET
新增内建函数FROM_CHARSET,方便用户不同字符编码的数据进行转化。
【云原生大数据计算服务 MaxCompute】新功能/规格 -支持二进制常量
支持二进制常量,方便用户使用二进制数据类型的数据。
【云原生大数据计算服务 MaxCompute】新功能/规格 -窗口函数支持过滤功能
窗口函数支持过滤功能,在窗口函数计算过程中可以过滤掉不需要参与计算的行。
【实时计算 Flink版】功能优化 -Paimon支持能力提升
本优化主要支持了将数据写入OSS-HDFS、并且支持通过CTAS和CDAS语句写入Paimon时,可以创建动态分桶的Paimon表。
【实时数仓 Hologres】新功能/规格 -支持Serverless Computing
支持使用Serverless资源运行高负载作业,根据需要分配资源,降低对独享实例资源的抢占,提高资源的利用率和效率,降低成本。
【实时数仓 Hologres】新功能/规格 -Hologres支持表索引诊断
基于hg_table_info表,Hologres提供了表索引诊断功能,通过对表的索引(存储模式、索引设置)等不同维度的元数据进行诊断,帮助业务更加高效的实现表治理,以提升实例的稳定性和查询性能。
【开源大数据平台 E-MapReduce】新功能/规格 -StarRocks 支持多维度健康报告
E-MapReduce Serverless StarRocks提供的健康报告内容,并通过示例阐明其潜在的应用场景。该健康报告提供了前一天(T+1)的数据,并包括SQL查询、表分析和导入任务三个核心部分。
【开源大数据平台 E-MapReduce】新功能/规格 -5.17.x版本发布,Spark3升级至3.4.2版本
Spark3升级至3.4.2版本,Celeborn升级至0.4.0版本,Doris升级至2.1.0版本,StarRocks2升级至2.5.18版本,StarRock3升级至2.3.4版本等。
【开源大数据平台 E-MapReduce】新功能/规格 - StarRocks快速使用数据湖分析版实例
数据湖分析版实例适用于查询存储在Apache Hive、Apache Iceberg、Apache Hudi以及Apache Paimon等多种数据湖上的数据,并涵盖OSS、OSS-HDFS、HDFS等平台,无需数据迁移即可实现快速的数据湖查询分析,且其性能比Presto高出3到5倍。本文以创建Hive Catalog为例,为您介绍如何查询Hive上的数据。
二、产品活动
使用人工智能平台PAI一键部署,零代码快速部署Stable Video Diffusion模型。
实时数仓 Hologres价格调整,独享实例(包年包月)年付最高降价65%
购买1年85折,2年7折,3年5折,4年4折,5年35折。
三、产品快讯
阿里云 MaxCompute MaxFrame 开启免费邀测,统一Python开发生态
MaxFrame 是由阿里云自研的分布式计算框架,支持 Python 编程接口并可直接复用 MaxCompute 弹性计算资源及海量数据,100%兼容 Pandas 且自动分布式,与 MaxCompute Notebook、镜像管理等功能共同构成了 MaxCompute 的 Python 开发生态。用户可以以更熟悉、高效、灵活的方式在 MaxCompute 上进行大规模数据分析处理、可视化数据探索分析以及科学计算、ML/AI 开发等工作。
四、产品学习指南
使用 PAI-QuickStart 快速进行 Llama3 轻量级微调和部署
Llama-3是Meta AI推出的开源大语言模型系列。该系列模型利用超过15万亿Token的公开数据进行预训练,提供Base和Instruct等多版本、多规模的开源模型,从而满足不同的计算需求。本文以Meta-Llama-3-8B-Instruct模型为例展示如何通过PAI-QuickStart快速开启Llama3 LoRA轻量化微调和部署流程。
使用PAI灵骏智算服务进行Llama-3开源模型全托管灵骏最佳实践
Llama-3是Meta AI推出的开源大语言模型系列。该系列模型利用超过15万亿Token的公开数据进行预训练,提供Base和Instruct等多版本、多规模的开源模型,从而满足不同的计算需求。本方案将为您介绍如何使用阿里云PAI灵骏智算服务,以及基于Meta-Llama-3-8B的开源模型和Megatron的训练流程,进行模型微调、离线推理验证,并实现在线服务部署。
MaxCompute 近实时增全量处理一体化新架构和使用场景介绍
MaxCompute离线&近实时数仓一体化新架构覆盖部分近实时数据湖(HUDI/ICEBERG等)通用功能,作为完全自研设计的新架构,具备低成本,功能,性能,稳定性,集成等多方面亮点,支持这些综合的业务场景,提供近实时增全量一体的数据存储和计算(Transaction Table2.0)解决方案。
通过阿里云向量检索 Milvus 版和通义千问快速构建基于专属知识库的问答系统
使用阿里云向量检索 Milvus 版和灵积(Dashscope)提供的通用千问大模型能力,快速构建一个基于专属知识库的问答系统。在示例中,我们通过接入灵积的通义千问 API 及文本嵌入(Embedding)API 来实现 LLM 大模型的相关功能。