大数据&AI产品月刊【2024年8月】

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 大数据& AI 产品技术月刊【2024年8月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

大数据& AI 产品技术月刊【2024年8月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。


一、产品功能发布

【人工智能平台 PAI】新功能/规格 - EAS 专属网关功能发布

实现安全隔离与访问控制方面的推理需求,同时降低高并发场景的网络风险。

【人工智能平台 PAI】新功能/规格 - 工作空间支持用户自定义角色

满足企业客户权限更精细化管理需求。

【人工智能平台 PAI】新功能/规格 - EAS 推出 LLM 智能路由,提升 LLM 推理服务效率

LLM 智能路由能显著提升推理系统的资源使用水位,为客户降本增效。

【人工智能平台 PAI】功能优化 - DLC 通用计算资源,训练任务支持 CPU 亲和性

通用计算资源的 CPU 类型训练任务支持 CPU 绑核,提升任务性能。

【智能推荐 AIRec】新地域/新可用区 - PAI-Rec 在弗吉尼亚、 硅谷和香港正式开服

推荐系统开发平台 PAI-Rec 在美国(弗吉尼亚)、美国(硅谷)和香港的中国站和国际站正式开服。

【云原生大数据计算服务 MaxCompute】新功能/规格 - 作业性能观测功能升级

提供单位 CU 时处理的作业扫描量趋势,以及消耗资源、时间 Top 作业列表。

【云原生大数据计算服务 MaxCompute】新功能/规格 - 存储资源观测功能发布

存储资源观测功能方便用户查看存储资源水位变化及存储分布详情。

【实时数仓 Hologres】新功能/规格 - Hologres 支持错误 Query 智能诊断

Holoweb 支持错误 Query 自动智诊断错误原因,并自动给出解决方案。

【实时数仓 Hologres】新功能/规格 - 计算组分时弹性

实现计算资源定时自动伸缩,超出资源按量付费,提高资源利用率,降低成本。

【大数据开发治理平台 DataWorks】新功能/规格 - 支持数据质量监控类节点

用户可在数据开发中创建数据质量监控该节点,选择可监控表及配置质量监控规则。

【大数据开发治理平台 DataWorks】新功能/规格 - 支持申请Hologres的数据表权限

用户可通过DataWorks数据访问控制申请Hologres数据表的权限(Select、Insert、Update、Delete、Truncate、ALL)。

【开源大数据平台 E-MapReduce】新功能/规格 - EMR Serverless  StarRocks 存算分离版正式发布

EMR Serverless StarRocks 存算分离版本采用 StarRocks 最新版的存算分离架构,可以节省存储成本 30%-70%。可结合计算组,弹性伸缩进一步降低计算成本。适用于对存储成本敏感,同时对查询效率要求略低的业务场景,例如 OLAP 多维分析、数据仓库场景。

【开源大数据平台 E-MapReduce】新功能/规格 - EMR on ECS 集群克隆能力优化

EMR on ECS 集群克隆支持恢复集群创建及使用过程中修改的服务配置、增加的节点组、弹性伸缩规则,支持客户基于已有集群快速创建一个相同配置的新集群。

【开源大数据平台 E-MapReduce】新功能/规格 - EMR on ECS 新版监控诊断功能发布

EMR on ECS 新版监控诊断是基于大模型构建的智能运维辅助功能,结合了阿里云 EMR 团队在开源大数据领域的知识经验、阿里云 EMR 可观测能力和技术专家的诊断经验。新版监控诊断整合和增强 EMR 平台可观测能力,并提供集群实时健康诊断能力,对异常问题提供根因分析和处理建议,降低用户运维成本。通过集群日报提供集群全局优化洞察建议,辅助用户提升集群运行效率。

【开源大数据平台 E-MapReduce】新功能/规格 - EMR Serverless Spark  支持 Spark Thrift Server 服务

EMR Serverless Spark 支持 Spark Thrift Server 服务,允许以 JDBC 协议连接并提交任务。

【开源大数据平台 E-MapReduce】新地域/新可用区 - EMR Serverless Spark  在国际站德国(法兰克福)开服

EMR Serverless Spark 新增开通国际站德国(法兰克福)地域,国际站用户可以在控制台按需创建 Serverless Spark 工作空间。

二、产品活动

使用 PAI ArtLab 零代码生成个性化奥运风格 AI 写真

PAI ArtLab 是人工智能平台 PAI 为设计专业人士打造的 AIGC 智能设计工具,为了向在赛场上的奥运健儿传递最真挚的鼓舞与喝彩,特此发起一场别开生面的“创意海报设计挑战”!在 Artlab 平台 ComfyUI 工具中,选择你心中的奥运项目,定制一张专属于奥运会加油海报!

使用 PAI ✖ LLaMA Factory 微调 Llama3 模型,搭建“ AI 诸葛亮” 问答机器人

使用 PAI 平台及 LLaMA Factory 训练框架完成模型的中文化与角色扮演微调和评估,搭建专属“ AI 诸葛亮”问答机器人,7×24 小时为你出谋划策!

三、产品快讯

阿里云位居 IDC MarketScape 中国实时湖仓评估领导者类别

国际数据公司( IDC )首度发布《 IDC MarketScape : 中国实时湖仓市场 2024 年厂商评估》,阿里云荣登领导者类别。报告评估了 13 家厂商,涵盖互联网、云服务及大数据领域。阿里云凭借其在实时湖仓领域的创新能力,特别是 Apache Paimon 及与 Flink 的集成,实现了高效流批处理和 AI 增强功能,为企业提供了一体化的湖仓解决方案,支持多种数据管理和AI 应用场景,展现出了强大的市场领导力和技术实力。

阿里云 Elasticsearch 企业级 AI 搜索方案发布

阿里云 Elasticsearch 推出了 AI 搜索方案,使用 RAG 技术对检索增强生成的各个环节进行能力增强,有效解决了场景效果要求高、模型使用成本高,以及隐私安全可控性低等难题。RAG 不仅提升了检索精度,更增强了生成能力,使模型应用更为可控、成本效益更高,综合效果大幅提升。

全新启航!阿里云向量检索服务 Milvus 版正式上线!

阿里云正式宣布向量检索服务 Milvus 版在杭州、上海、北京、深圳四大 region 正式可用并开放公测!这是由阿里云与产品生态合作伙伴 Zilliz 联合推出的一款业内领先的云原生向量检索引擎。

阿里云 PAI-ChatLearn:大规模 Alignment 高效训练框架正式开源

PAI-ChatLearn 是阿里云 PAI 团队自研并开源的、灵活易用的、支持大规模 Alignment 高效训练的框架,现已全面开源,助力用户快速、高效的 Alignment 训练体验。借助 ChatLearn,用户可全身心投入于模型设计与效果优化,无需分心于底层技术细节。ChatLearn 将承担起资源调度、数据传输、参数同步、分布式运行管理以及确保系统高效稳定运作的重任,为用户提供一站式解决方案。

【ACL2024】阿里云人工智能平台 PAI 多篇论文入选 ACL2024

阿里云人工智能平台 PAI 的多篇论文在 ACL2024 上入选。论文成果是阿里云与阿里集团安全部、华南理工大学金连文教授团队、华东师范大学何晓丰教授团队共同研发。ACL(国际计算语言学年会)是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法、算法框架能力方面研究获得了学术界认可。

【KDD2024】大数据基础工程技术集群异常检测论文入选

阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《 Cluster-Wide Task Slowdown Detection in Cloud System 》被数据挖掘领域顶会 ACM SIGKDD2024 接收,该论文从集群整体作业执行情况分布入手,旨在解决集群整体作业运行变慢的异常检测问题。论文创造性地提出了撇脂注意力机制和 picky loss function 解决集群整体作业分布复合周期性及训练集污染的问题,并使用基于神经网络最优运输模块,实现精准定向检测集群整体作业运行时间分布变慢的异常。此次入选意味着阿里云提出的集群级别作业变慢异常检测框架获得了国际学者的认可,也是一次产学研结合的成功实践。

成本最高可降40%!揭秘 DataWorks 资源组的 Serverless 进化之路

阿里云 DataWorks 为数据仓库/数据湖/湖仓一体等解决方案提供智能一站式开发治理平台能力。其中在资源组 Serverless 化方面,DataWorks 实现了重大突破,不仅提高了资源利用率与灵活性,还降低了成本。DataWorks 通过升级资源组管理模式,解决了传统资源组存在的复杂计费、资源利用率低等问题。Serverless 资源组实现了资源的自动管理和分配,确保任务调度效率,并通过统一资源配额管理实现资源的高效利用和平滑扩缩。此外,容器运行时技术保障了数据和任务的安全隔离。Serverless 资源组具备通用性强、付费形式灵活、支持运行中扩缩容等优势,有效提升了用户体验与安全性。

DataWorks Copilot:大模型时代数据开发的新范式

DataWorks Copilot 是您在 DataWorks 的智能助手,当前阶段可根据自然语言快速转换为需要的SQL 命令,包括 SQL 生成、SQL 改写、SQL 纠错、生成注释等,帮助您轻松高效地完成数据 ETL 及数据分析工作。目前 Copilot 已经对增值版用户开放测试。

四、产品学习指南

【最佳实践】大语言模型数据增强与模型蒸馏解决方案

大语言模型通过训练数百亿甚至上千亿参数,实现了出色的文本生成、翻译、总结等任务。然而,这些模型训练和推理需要大量的计算资源,实际开发应用成本较高;其次,大规模语言模型的高能耗和长响应时间问题也限制了其在资源有限场景中的使用。

模型蒸馏将大模型“知识”迁移到较小模型。通过模型蒸馏,可以在保留大部分性能的前提下,显著减少模型的规模,从而降低计算资源的消耗,为更多的实际应用场景提供支持。本方案以通义千问2(Qwen2)大语言模型为基础,为您介绍大语言模型数据增强和蒸馏解决方案的完整开发流程。

【最佳实践】阿里云实时计算 Flink 在多行业的应用和实践

阿里云实时计算 Flink 版是阿里云提供的全托管 Serverless Flink 云服务具备实时应用的作业开发、数据调试、运行与监控、自动调优、智能诊断等全生命周期能力。本文整理自 Flink Forward Asia 2023 中闭门会的分享,详细介绍了 Flink 在金融、汽车、交通物流、零售行业的应用与实践。

【最佳实践】Big Data for AI 实践:面向 AI 大模型开发和应用的大规模数据处理套件

基于阿里云人工智能平台 PAI、MaxCompute 自研分布式计算框架 MaxFrame、Data-Juicer 等产品和工具,实现了大模型数据采集、清洗、增强及合成大模型数据的全链路,解决企业级大模型开发应用场景的数据处理难题。

【最佳实践】Elasticsearch 8 RAG 技术分享

Elasticsearch 之所以能在多变的场景中持续繁荣,关键在于其不断进化的能力——从最初的全文搜索,到结构化数据处理,再到聚合分析、地理空间搜索,直至现今的向量搜索,每一步都紧贴用户需求和技术前沿。近年来,向量搜索的加入,是对 ES 能力的又一次重要扩展,本文详细介绍了 Elasticsearch 8 在 RAG 场景方面的发展历程、技术演进、未来发展方向和产品能力。

【最佳实践】EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任务。

【最佳实践】如何高效构建企业级AI搜索

阿里云 AI 搜索的方案,基于阿里云 Elasticsearch Inference API,结合阿里云自研的 AI 模型服务,灵活的搭建语义搜索或者是 RAG 链路。阿里云 AI 搜索 RAG 全链路,不论是对文本的解析处理,还是切分、向量化,以及混合检索,其实都是为了提升搜索的准确率。通过提升搜索的准确率,拿到最精准的结果,然后再组成 Prompt 给到大模型,来提升准确性。这里我们如果仅使用大模型加向量检索,仅仅能达到 40% 的准确率,通过全链路的优化能够提升到 90% 乃至 95%,这就是检索增强优化带来的价值。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
14天前
|
SQL 存储 人工智能
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
DataAgent如何助理业务和研发成为业务参谋?如何快速低成本的创建行业数据分类标准?如何管控数据源表的访问权限?如何满足企业安全审计需求?
510 1
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
|
4天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
39 10
|
24天前
|
消息中间件 人工智能 Cloud Native
|
2月前
|
存储 人工智能 运维
重磅!阿里云可观测产品家族全新升级,AI +数据双驱动,打造全栈可观测体系
近日,阿里云可观测产品家族正式发布云监控 2.0,隶属产品日志服务 SLS、云监控 CMS、应用实时监控服务 ARMS 迎来重磅升级。
310 16
|
25天前
|
人工智能 分布式计算 大数据
大数据&AI产品月刊【2024年9月】
大数据& AI 产品技术月刊【2024年9月】,涵盖本月技术速递、2024云栖大会实录、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
8天前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
21 0
|
2月前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
238 17
|
2月前
|
消息中间件 人工智能 Cloud Native
|
2月前
|
人工智能 算法 大数据
懂场景者得AI,瓴羊发布年度产品智能化战略
9月20日,瓴羊智能科技(以下简称瓴羊)在2024云栖大会上举办了“Data × AI:企业服务智能化,价值增长新动能”专场论坛。阿里巴巴集团副总裁、瓴羊智能科技CEO 朋新宇在会上发布年度产品智能化战略:“(算法 + 算力 + 数据) x 场景 ”,强调企业必须重视场景,只有通过解构场景、重构业务,才能真正拥抱AI,带来突破性增长。
|
20天前
|
SQL 运维 大数据
大数据实时计算产品的对比测评
在使用多种Flink实时计算产品后,我发现Flink凭借其流批一体的优势,在实时数据处理领域表现出色。它不仅支持复杂的窗口机制与事件时间处理,还具备高效的数据吞吐能力和精准的状态管理,确保数据处理既快又准。此外,Flink提供了多样化的编程接口和运维工具,简化了开发流程,但在界面友好度上还有提升空间。针对企业级应用,Flink展现了高可用性和安全性,不过价格因素可能影响小型企业的采纳决策。未来可进一步优化文档和自动化调优工具,以提升用户体验。
87 0

相关产品

  • 云原生大数据计算服务 MaxCompute