大数据&AI产品月刊【2024年8月】

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 大数据& AI 产品技术月刊【2024年8月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

大数据& AI 产品技术月刊【2024年8月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。


一、产品功能发布

【人工智能平台 PAI】新功能/规格 - EAS 专属网关功能发布

实现安全隔离与访问控制方面的推理需求,同时降低高并发场景的网络风险。

【人工智能平台 PAI】新功能/规格 - 工作空间支持用户自定义角色

满足企业客户权限更精细化管理需求。

【人工智能平台 PAI】新功能/规格 - EAS 推出 LLM 智能路由,提升 LLM 推理服务效率

LLM 智能路由能显著提升推理系统的资源使用水位,为客户降本增效。

【人工智能平台 PAI】功能优化 - DLC 通用计算资源,训练任务支持 CPU 亲和性

通用计算资源的 CPU 类型训练任务支持 CPU 绑核,提升任务性能。

【智能推荐 AIRec】新地域/新可用区 - PAI-Rec 在弗吉尼亚、 硅谷和香港正式开服

推荐系统开发平台 PAI-Rec 在美国(弗吉尼亚)、美国(硅谷)和香港的中国站和国际站正式开服。

【云原生大数据计算服务 MaxCompute】新功能/规格 - 作业性能观测功能升级

提供单位 CU 时处理的作业扫描量趋势,以及消耗资源、时间 Top 作业列表。

【云原生大数据计算服务 MaxCompute】新功能/规格 - 存储资源观测功能发布

存储资源观测功能方便用户查看存储资源水位变化及存储分布详情。

【实时数仓 Hologres】新功能/规格 - Hologres 支持错误 Query 智能诊断

Holoweb 支持错误 Query 自动智诊断错误原因,并自动给出解决方案。

【实时数仓 Hologres】新功能/规格 - 计算组分时弹性

实现计算资源定时自动伸缩,超出资源按量付费,提高资源利用率,降低成本。

【大数据开发治理平台 DataWorks】新功能/规格 - 支持数据质量监控类节点

用户可在数据开发中创建数据质量监控该节点,选择可监控表及配置质量监控规则。

【大数据开发治理平台 DataWorks】新功能/规格 - 支持申请Hologres的数据表权限

用户可通过DataWorks数据访问控制申请Hologres数据表的权限(Select、Insert、Update、Delete、Truncate、ALL)。

【开源大数据平台 E-MapReduce】新功能/规格 - EMR Serverless  StarRocks 存算分离版正式发布

EMR Serverless StarRocks 存算分离版本采用 StarRocks 最新版的存算分离架构,可以节省存储成本 30%-70%。可结合计算组,弹性伸缩进一步降低计算成本。适用于对存储成本敏感,同时对查询效率要求略低的业务场景,例如 OLAP 多维分析、数据仓库场景。

【开源大数据平台 E-MapReduce】新功能/规格 - EMR on ECS 集群克隆能力优化

EMR on ECS 集群克隆支持恢复集群创建及使用过程中修改的服务配置、增加的节点组、弹性伸缩规则,支持客户基于已有集群快速创建一个相同配置的新集群。

【开源大数据平台 E-MapReduce】新功能/规格 - EMR on ECS 新版监控诊断功能发布

EMR on ECS 新版监控诊断是基于大模型构建的智能运维辅助功能,结合了阿里云 EMR 团队在开源大数据领域的知识经验、阿里云 EMR 可观测能力和技术专家的诊断经验。新版监控诊断整合和增强 EMR 平台可观测能力,并提供集群实时健康诊断能力,对异常问题提供根因分析和处理建议,降低用户运维成本。通过集群日报提供集群全局优化洞察建议,辅助用户提升集群运行效率。

【开源大数据平台 E-MapReduce】新功能/规格 - EMR Serverless Spark  支持 Spark Thrift Server 服务

EMR Serverless Spark 支持 Spark Thrift Server 服务,允许以 JDBC 协议连接并提交任务。

【开源大数据平台 E-MapReduce】新地域/新可用区 - EMR Serverless Spark  在国际站德国(法兰克福)开服

EMR Serverless Spark 新增开通国际站德国(法兰克福)地域,国际站用户可以在控制台按需创建 Serverless Spark 工作空间。

二、产品活动

使用 PAI ArtLab 零代码生成个性化奥运风格 AI 写真

PAI ArtLab 是人工智能平台 PAI 为设计专业人士打造的 AIGC 智能设计工具,为了向在赛场上的奥运健儿传递最真挚的鼓舞与喝彩,特此发起一场别开生面的“创意海报设计挑战”!在 Artlab 平台 ComfyUI 工具中,选择你心中的奥运项目,定制一张专属于奥运会加油海报!

使用 PAI ✖ LLaMA Factory 微调 Llama3 模型,搭建“ AI 诸葛亮” 问答机器人

使用 PAI 平台及 LLaMA Factory 训练框架完成模型的中文化与角色扮演微调和评估,搭建专属“ AI 诸葛亮”问答机器人,7×24 小时为你出谋划策!

三、产品快讯

阿里云位居 IDC MarketScape 中国实时湖仓评估领导者类别

国际数据公司( IDC )首度发布《 IDC MarketScape : 中国实时湖仓市场 2024 年厂商评估》,阿里云荣登领导者类别。报告评估了 13 家厂商,涵盖互联网、云服务及大数据领域。阿里云凭借其在实时湖仓领域的创新能力,特别是 Apache Paimon 及与 Flink 的集成,实现了高效流批处理和 AI 增强功能,为企业提供了一体化的湖仓解决方案,支持多种数据管理和AI 应用场景,展现出了强大的市场领导力和技术实力。

阿里云 Elasticsearch 企业级 AI 搜索方案发布

阿里云 Elasticsearch 推出了 AI 搜索方案,使用 RAG 技术对检索增强生成的各个环节进行能力增强,有效解决了场景效果要求高、模型使用成本高,以及隐私安全可控性低等难题。RAG 不仅提升了检索精度,更增强了生成能力,使模型应用更为可控、成本效益更高,综合效果大幅提升。

全新启航!阿里云向量检索服务 Milvus 版正式上线!

阿里云正式宣布向量检索服务 Milvus 版在杭州、上海、北京、深圳四大 region 正式可用并开放公测!这是由阿里云与产品生态合作伙伴 Zilliz 联合推出的一款业内领先的云原生向量检索引擎。

阿里云 PAI-ChatLearn:大规模 Alignment 高效训练框架正式开源

PAI-ChatLearn 是阿里云 PAI 团队自研并开源的、灵活易用的、支持大规模 Alignment 高效训练的框架,现已全面开源,助力用户快速、高效的 Alignment 训练体验。借助 ChatLearn,用户可全身心投入于模型设计与效果优化,无需分心于底层技术细节。ChatLearn 将承担起资源调度、数据传输、参数同步、分布式运行管理以及确保系统高效稳定运作的重任,为用户提供一站式解决方案。

【ACL2024】阿里云人工智能平台 PAI 多篇论文入选 ACL2024

阿里云人工智能平台 PAI 的多篇论文在 ACL2024 上入选。论文成果是阿里云与阿里集团安全部、华南理工大学金连文教授团队、华东师范大学何晓丰教授团队共同研发。ACL(国际计算语言学年会)是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法、算法框架能力方面研究获得了学术界认可。

【KDD2024】大数据基础工程技术集群异常检测论文入选

阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《 Cluster-Wide Task Slowdown Detection in Cloud System 》被数据挖掘领域顶会 ACM SIGKDD2024 接收,该论文从集群整体作业执行情况分布入手,旨在解决集群整体作业运行变慢的异常检测问题。论文创造性地提出了撇脂注意力机制和 picky loss function 解决集群整体作业分布复合周期性及训练集污染的问题,并使用基于神经网络最优运输模块,实现精准定向检测集群整体作业运行时间分布变慢的异常。此次入选意味着阿里云提出的集群级别作业变慢异常检测框架获得了国际学者的认可,也是一次产学研结合的成功实践。

成本最高可降40%!揭秘 DataWorks 资源组的 Serverless 进化之路

阿里云 DataWorks 为数据仓库/数据湖/湖仓一体等解决方案提供智能一站式开发治理平台能力。其中在资源组 Serverless 化方面,DataWorks 实现了重大突破,不仅提高了资源利用率与灵活性,还降低了成本。DataWorks 通过升级资源组管理模式,解决了传统资源组存在的复杂计费、资源利用率低等问题。Serverless 资源组实现了资源的自动管理和分配,确保任务调度效率,并通过统一资源配额管理实现资源的高效利用和平滑扩缩。此外,容器运行时技术保障了数据和任务的安全隔离。Serverless 资源组具备通用性强、付费形式灵活、支持运行中扩缩容等优势,有效提升了用户体验与安全性。

DataWorks Copilot:大模型时代数据开发的新范式

DataWorks Copilot 是您在 DataWorks 的智能助手,当前阶段可根据自然语言快速转换为需要的SQL 命令,包括 SQL 生成、SQL 改写、SQL 纠错、生成注释等,帮助您轻松高效地完成数据 ETL 及数据分析工作。目前 Copilot 已经对增值版用户开放测试。

四、产品学习指南

【最佳实践】大语言模型数据增强与模型蒸馏解决方案

大语言模型通过训练数百亿甚至上千亿参数,实现了出色的文本生成、翻译、总结等任务。然而,这些模型训练和推理需要大量的计算资源,实际开发应用成本较高;其次,大规模语言模型的高能耗和长响应时间问题也限制了其在资源有限场景中的使用。

模型蒸馏将大模型“知识”迁移到较小模型。通过模型蒸馏,可以在保留大部分性能的前提下,显著减少模型的规模,从而降低计算资源的消耗,为更多的实际应用场景提供支持。本方案以通义千问2(Qwen2)大语言模型为基础,为您介绍大语言模型数据增强和蒸馏解决方案的完整开发流程。

【最佳实践】阿里云实时计算 Flink 在多行业的应用和实践

阿里云实时计算 Flink 版是阿里云提供的全托管 Serverless Flink 云服务具备实时应用的作业开发、数据调试、运行与监控、自动调优、智能诊断等全生命周期能力。本文整理自 Flink Forward Asia 2023 中闭门会的分享,详细介绍了 Flink 在金融、汽车、交通物流、零售行业的应用与实践。

【最佳实践】Big Data for AI 实践:面向 AI 大模型开发和应用的大规模数据处理套件

基于阿里云人工智能平台 PAI、MaxCompute 自研分布式计算框架 MaxFrame、Data-Juicer 等产品和工具,实现了大模型数据采集、清洗、增强及合成大模型数据的全链路,解决企业级大模型开发应用场景的数据处理难题。

【最佳实践】Elasticsearch 8 RAG 技术分享

Elasticsearch 之所以能在多变的场景中持续繁荣,关键在于其不断进化的能力——从最初的全文搜索,到结构化数据处理,再到聚合分析、地理空间搜索,直至现今的向量搜索,每一步都紧贴用户需求和技术前沿。近年来,向量搜索的加入,是对 ES 能力的又一次重要扩展,本文详细介绍了 Elasticsearch 8 在 RAG 场景方面的发展历程、技术演进、未来发展方向和产品能力。

【最佳实践】EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

Apache Airflow 是一个强大的工作流程自动化和调度工具,它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务,以实现任务调度和执行的自动化,帮助您更有效地管理数据处理任务。

【最佳实践】如何高效构建企业级AI搜索

阿里云 AI 搜索的方案,基于阿里云 Elasticsearch Inference API,结合阿里云自研的 AI 模型服务,灵活的搭建语义搜索或者是 RAG 链路。阿里云 AI 搜索 RAG 全链路,不论是对文本的解析处理,还是切分、向量化,以及混合检索,其实都是为了提升搜索的准确率。通过提升搜索的准确率,拿到最精准的结果,然后再组成 Prompt 给到大模型,来提升准确性。这里我们如果仅使用大模型加向量检索,仅仅能达到 40% 的准确率,通过全链路的优化能够提升到 90% 乃至 95%,这就是检索增强优化带来的价值。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4天前
|
人工智能 前端开发 小程序
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
|
1天前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
12 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
8天前
|
人工智能 Serverless API
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
68 8
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
|
8天前
|
存储 人工智能 数据管理
|
3天前
|
人工智能 分布式计算 数据处理
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
|
1天前
|
人工智能 运维 监控
阿里云Milvus产品发布:AI时代云原生专业向量检索引擎
随着大模型和生成式AI的兴起,非结构化数据市场迅速增长,预计2027年占比将达到86.8%。Milvus作为开源向量检索引擎,具备极速检索、云原生弹性及社区支持等优势,成为全球最受欢迎的向量数据库之一。阿里云推出的全托管Milvus产品,优化性能3-10倍,提供企业级功能如Serverless服务、分钟级开通、高可用性和成本降低30%,助力企业在电商、广告推荐、自动驾驶等场景下加速AI应用构建,显著提升业务价值和稳定性。
|
1天前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
13天前
|
数据采集 人工智能 分布式计算
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
|
16天前
|
数据采集 分布式计算 大数据
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame是阿里云自研的分布式计算框架,专为Python开发者设计。它支持Python接口,充分利用MaxCompute的大数据资源,提升大规模数据分析效率。本文分享了MaxFrame在分布式Pandas处理和大语言模型数据预处理中的最佳实践,展示了其在数据清洗、特征工程等方面的强大能力,并提出了改进建议。
54 13
|
16天前
|
机器学习/深度学习 分布式计算 数据处理
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame 产品评测报告
31 4

相关产品

  • 云原生大数据计算服务 MaxCompute