大数据& AI 产品技术月刊【2024年8月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
一、产品功能发布
【人工智能平台 PAI】新功能/规格 - EAS 专属网关功能发布
实现安全隔离与访问控制方面的推理需求,同时降低高并发场景的网络风险。
【人工智能平台 PAI】新功能/规格 - 工作空间支持用户自定义角色
满足企业客户权限更精细化管理需求。
【人工智能平台 PAI】新功能/规格 - EAS 推出 LLM 智能路由,提升 LLM 推理服务效率
LLM 智能路由能显著提升推理系统的资源使用水位,为客户降本增效。
【人工智能平台 PAI】功能优化 - DLC 通用计算资源,训练任务支持 CPU 亲和性
通用计算资源的 CPU 类型训练任务支持 CPU 绑核,提升任务性能。
【智能推荐 AIRec】新地域/新可用区 - PAI-Rec 在弗吉尼亚、 硅谷和香港正式开服
推荐系统开发平台 PAI-Rec 在美国(弗吉尼亚)、美国(硅谷)和香港的中国站和国际站正式开服。
【云原生大数据计算服务 MaxCompute】新功能/规格 - 作业性能观测功能升级
提供单位 CU 时处理的作业扫描量趋势,以及消耗资源、时间 Top 作业列表。
【云原生大数据计算服务 MaxCompute】新功能/规格 - 存储资源观测功能发布
存储资源观测功能方便用户查看存储资源水位变化及存储分布详情。
【实时数仓 Hologres】新功能/规格 - Hologres 支持错误 Query 智能诊断
Holoweb 支持错误 Query 自动智诊断错误原因,并自动给出解决方案。
【实时数仓 Hologres】新功能/规格 - 计算组分时弹性
实现计算资源定时自动伸缩,超出资源按量付费,提高资源利用率,降低成本。
【大数据开发治理平台 DataWorks】新功能/规格 - 支持数据质量监控类节点
用户可在数据开发中创建数据质量监控该节点,选择可监控表及配置质量监控规则。
【大数据开发治理平台 DataWorks】新功能/规格 - 支持申请Hologres的数据表权限
用户可通过DataWorks数据访问控制申请Hologres数据表的权限(Select、Insert、Update、Delete、Truncate、ALL)。
【开源大数据平台 E-MapReduce】新功能/规格 - EMR Serverless StarRocks 存算分离版正式发布
EMR Serverless StarRocks 存算分离版本采用 StarRocks 最新版的存算分离架构,可以节省存储成本 30%-70%。可结合计算组,弹性伸缩进一步降低计算成本。适用于对存储成本敏感,同时对查询效率要求略低的业务场景,例如 OLAP 多维分析、数据仓库场景。
【开源大数据平台 E-MapReduce】新功能/规格 - EMR on ECS 集群克隆能力优化
EMR on ECS 集群克隆支持恢复集群创建及使用过程中修改的服务配置、增加的节点组、弹性伸缩规则,支持客户基于已有集群快速创建一个相同配置的新集群。
【开源大数据平台 E-MapReduce】新功能/规格 - EMR on ECS 新版监控诊断功能发布
EMR on ECS 新版监控诊断是基于大模型构建的智能运维辅助功能,结合了阿里云 EMR 团队在开源大数据领域的知识经验、阿里云 EMR 可观测能力和技术专家的诊断经验。新版监控诊断整合和增强 EMR 平台可观测能力,并提供集群实时健康诊断能力,对异常问题提供根因分析和处理建议,降低用户运维成本。通过集群日报提供集群全局优化洞察建议,辅助用户提升集群运行效率。
【开源大数据平台 E-MapReduce】新功能/规格 - EMR Serverless Spark 支持 Spark Thrift Server 服务
EMR Serverless Spark 支持 Spark Thrift Server 服务,允许以 JDBC 协议连接并提交任务。
【开源大数据平台 E-MapReduce】新地域/新可用区 - EMR Serverless Spark 在国际站德国(法兰克福)开服
EMR Serverless Spark 新增开通国际站德国(法兰克福)地域,国际站用户可以在控制台按需创建 Serverless Spark 工作空间。
二、产品活动
使用 PAI ArtLab 零代码生成个性化奥运风格 AI 写真
PAI ArtLab 是人工智能平台 PAI 为设计专业人士打造的 AIGC 智能设计工具,为了向在赛场上的奥运健儿传递最真挚的鼓舞与喝彩,特此发起一场别开生面的“创意海报设计挑战”!在 Artlab 平台 ComfyUI 工具中,选择你心中的奥运项目,定制一张专属于奥运会加油海报!
使用 PAI ✖ LLaMA Factory 微调 Llama3 模型,搭建“ AI 诸葛亮” 问答机器人
使用 PAI 平台及 LLaMA Factory 训练框架完成模型的中文化与角色扮演微调和评估,搭建专属“ AI 诸葛亮”问答机器人,7×24 小时为你出谋划策!
三、产品快讯
阿里云位居 IDC MarketScape 中国实时湖仓评估领导者类别
国际数据公司( IDC )首度发布《 IDC MarketScape : 中国实时湖仓市场 2024 年厂商评估》,阿里云荣登领导者类别。报告评估了 13 家厂商,涵盖互联网、云服务及大数据领域。阿里云凭借其在实时湖仓领域的创新能力,特别是 Apache Paimon 及与 Flink 的集成,实现了高效流批处理和 AI 增强功能,为企业提供了一体化的湖仓解决方案,支持多种数据管理和AI 应用场景,展现出了强大的市场领导力和技术实力。
阿里云 Elasticsearch 企业级 AI 搜索方案发布
阿里云 Elasticsearch 推出了 AI 搜索方案,使用 RAG 技术对检索增强生成的各个环节进行能力增强,有效解决了场景效果要求高、模型使用成本高,以及隐私安全可控性低等难题。RAG 不仅提升了检索精度,更增强了生成能力,使模型应用更为可控、成本效益更高,综合效果大幅提升。
阿里云正式宣布向量检索服务 Milvus 版在杭州、上海、北京、深圳四大 region 正式可用并开放公测!这是由阿里云与产品生态合作伙伴 Zilliz 联合推出的一款业内领先的云原生向量检索引擎。
阿里云 PAI-ChatLearn:大规模 Alignment 高效训练框架正式开源
PAI-ChatLearn 是阿里云 PAI 团队自研并开源的、灵活易用的、支持大规模 Alignment 高效训练的框架,现已全面开源,助力用户快速、高效的 Alignment 训练体验。借助 ChatLearn,用户可全身心投入于模型设计与效果优化,无需分心于底层技术细节。ChatLearn 将承担起资源调度、数据传输、参数同步、分布式运行管理以及确保系统高效稳定运作的重任,为用户提供一站式解决方案。
【ACL2024】阿里云人工智能平台 PAI 多篇论文入选 ACL2024
阿里云人工智能平台 PAI 的多篇论文在 ACL2024 上入选。论文成果是阿里云与阿里集团安全部、华南理工大学金连文教授团队、华东师范大学何晓丰教授团队共同研发。ACL(国际计算语言学年会)是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法、算法框架能力方面研究获得了学术界认可。
阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《 Cluster-Wide Task Slowdown Detection in Cloud System 》被数据挖掘领域顶会 ACM SIGKDD2024 接收,该论文从集群整体作业执行情况分布入手,旨在解决集群整体作业运行变慢的异常检测问题。论文创造性地提出了撇脂注意力机制和 picky loss function 解决集群整体作业分布复合周期性及训练集污染的问题,并使用基于神经网络最优运输模块,实现精准定向检测集群整体作业运行时间分布变慢的异常。此次入选意味着阿里云提出的集群级别作业变慢异常检测框架获得了国际学者的认可,也是一次产学研结合的成功实践。
成本最高可降40%!揭秘 DataWorks 资源组的 Serverless 进化之路
阿里云 DataWorks 为数据仓库/数据湖/湖仓一体等解决方案提供智能一站式开发治理平台能力。其中在资源组 Serverless 化方面,DataWorks 实现了重大突破,不仅提高了资源利用率与灵活性,还降低了成本。DataWorks 通过升级资源组管理模式,解决了传统资源组存在的复杂计费、资源利用率低等问题。Serverless 资源组实现了资源的自动管理和分配,确保任务调度效率,并通过统一资源配额管理实现资源的高效利用和平滑扩缩。此外,容器运行时技术保障了数据和任务的安全隔离。Serverless 资源组具备通用性强、付费形式灵活、支持运行中扩缩容等优势,有效提升了用户体验与安全性。
DataWorks Copilot:大模型时代数据开发的新范式
DataWorks Copilot 是您在 DataWorks 的智能助手,当前阶段可根据自然语言快速转换为需要的SQL 命令,包括 SQL 生成、SQL 改写、SQL 纠错、生成注释等,帮助您轻松高效地完成数据 ETL 及数据分析工作。目前 Copilot 已经对增值版用户开放测试。
四、产品学习指南
大语言模型通过训练数百亿甚至上千亿参数,实现了出色的文本生成、翻译、总结等任务。然而,这些模型训练和推理需要大量的计算资源,实际开发应用成本较高;其次,大规模语言模型的高能耗和长响应时间问题也限制了其在资源有限场景中的使用。
模型蒸馏将大模型“知识”迁移到较小模型。通过模型蒸馏,可以在保留大部分性能的前提下,显著减少模型的规模,从而降低计算资源的消耗,为更多的实际应用场景提供支持。本方案以通义千问2(Qwen2)大语言模型为基础,为您介绍大语言模型数据增强和蒸馏解决方案的完整开发流程。
【最佳实践】阿里云实时计算 Flink 在多行业的应用和实践
阿里云实时计算 Flink 版是阿里云提供的全托管 Serverless Flink 云服务具备实时应用的作业开发、数据调试、运行与监控、自动调优、智能诊断等全生命周期能力。本文整理自 Flink Forward Asia 2023 中闭门会的分享,详细介绍了 Flink 在金融、汽车、交通物流、零售行业的应用与实践。
【最佳实践】Big Data for AI 实践:面向 AI 大模型开发和应用的大规模数据处理套件
基于阿里云人工智能平台 PAI、MaxCompute 自研分布式计算框架 MaxFrame、Data-Juicer 等产品和工具,实现了大模型数据采集、清洗、增强及合成大模型数据的全链路,解决企业级大模型开发应用场景的数据处理难题。
【最佳实践】Elasticsearch 8 RAG 技术分享
Elasticsearch 之所以能在多变的场景中持续繁荣,关键在于其不断进化的能力——从最初的全文搜索,到结构化数据处理,再到聚合分析、地理空间搜索,直至现今的向量搜索,每一步都紧贴用户需求和技术前沿。近年来,向量搜索的加入,是对 ES 能力的又一次重要扩展,本文详细介绍了 Elasticsearch 8 在 RAG 场景方面的发展历程、技术演进、未来发展方向和产品能力。
【最佳实践】EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务
Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任务。
阿里云 AI 搜索的方案,基于阿里云 Elasticsearch Inference API,结合阿里云自研的 AI 模型服务,灵活的搭建语义搜索或者是 RAG 链路。阿里云 AI 搜索 RAG 全链路,不论是对文本的解析处理,还是切分、向量化,以及混合检索,其实都是为了提升搜索的准确率。通过提升搜索的准确率,拿到最精准的结果,然后再组成 Prompt 给到大模型,来提升准确性。这里我们如果仅使用大模型加向量检索,仅仅能达到 40% 的准确率,通过全链路的优化能够提升到 90% 乃至 95%,这就是检索增强优化带来的价值。