大数据AI产品月刊-2024年7月

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 大数据& AI 产品技术月刊【2024年7月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

大数据& AI 产品技术月刊【2024年7月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。


一、产品功能发布

云原生大数据计算服务 MaxCompute】新功能/规格 - 支持行级访问控制

推出基于表的行级访问控制能力,控制消费方对数据的访问。

云原生大数据计算服务 MaxCompute新地域/新可用区 - 计算成本优化功能在中国香港、新加坡等4个地域发布

计算成本优化功能在中国香港、新加坡、印度尼西亚(雅加达)、德国(法兰克福)地域发布。

云原生大数据计算服务 MaxCompute】新功能/规格 - 提供作业开始运行时间、等待时长及运行时长参数

提供以上参数,方便开发者定位作业运行问题。

【大数据开发治理平台 DataWorks】新功能/规格 - 数据集成支持 MySQL 整库同步至 StarRocks

数据可通过 MySQL 整库离线+实时两种方式同步至 StarRocks。

【大数据开发治理平台 DataWorks】新功能/规格 - 支持灵活注册 CDH/CDP 各版本集群

通过自定义集群版本可在 DataWorks 平台使用各版本 CDH/CDP 集群。

【大数据开发治理平台 DataWorks】新功能/规格 - 数据开发新增 CDH Spark SQL 节点

可进行 CDH Spark SQL 任务的开发和周期性调度。

【大数据开发治理平台 DataWorks】新功能/规格 - 用户可查看拥有的资源信息列表

RAM 权限策略更新,方便用户查看所有资源信息。

实时数仓 Hologres】新功能/规格 - Serverless Computing 功能商业化

按照 Serverless Computing 的资源使用量和使用时长收取相应费用。

实时计算 Flink 版】功能优化 - 全托管存储公测发布

实时计算 Flink 作业支持全托管存储,提高数据的安全性和可靠性。

实时计算 Flink 版】功能优化 - 发布 VVR 8.0.8 引擎

发布基于 Apache Flink 1.17.2 的引擎 VVR 8.0.8。

开源大数据平台 E-MapReduce】新功能/规格 - Serverless Spark 集成 Notebook

Serverless Spark 支持通过 Notebook 进行交互式开发。

开源大数据平台 E-MapReduce】新功能/规格 - Spark 支持连接外部 Hive Metastore

Serverless Spark 支持连接外部 Hive Metastore。

二、产品活动

使用 PAI ✖ LLaMA Factory 微调 Llama3 模型,搭建“ AI 诸葛亮” 问答机器人

使用 PAI 平台及 LLaMA Factory 训练框架完成模型的中文化与角色扮演微调和评估,搭建专属“ AI 诸葛亮”问答机器人,7×24小时为你出谋划策!

阿里云 MaxCompute MaxFrame 开启免费公测,统一 Python 开发生态

MaxCompute 提供分布式计算框架 MaxFrame,支持 Python 编程接口并可直接复用 MaxCompute 弹性计算资源及海量数据,100%兼容 Pandas 且自动分布式,与 MaxCompute Notebook、镜像管理等功能共同构成了 MaxCompute 的 Python 开发生态。MaxFrame 正式开启公免费公测,每个租户可领取 5000CU 免费资源,抵扣 MaxFrame 计算资源费用。

阿里云向量检索服务 Milvus 版开启免费公测,极速低成本云原生向量检索引擎

向量检索服务 Milvus 版在上一代 EMR Serverless Milvus 公测版的基础上全新升级并继续提供公测服务,不仅继续 100% 兼容开源版内核,同时联合 ZIlliz 提供更强大的商业化内核,极致的存算优化,使得性能得到数倍提升,资源节约 30% 以上,更与 PAI-EAS、通义等阿里云 AI 产品打通,并全面兼容 LlamaIndex,提供友好易用的 RAG 解决方案现正式开启公免费公测,每个用户可在控制台免费创建入门版实例,标准版可通过表单申请免费创建。

飞天发布时刻:大数据 AI 平台产品升级发布会

7月24日,阿里云飞天发布时刻产品发布会围绕阿里云大数据 AI 平台的新能力和新产品进行详细介绍。人工智能平台 PAI、云原生大数据计算服务 MaxCompute、开源大数据平台 E-MapReduce、实时数仓 Hologres、阿里云 Elasticsearch、向量检索 Milvus 等产品均带来了相关发布的深度解读。

DataFunCon 2024·北京站:大数据·大模型.双核时代

7月5-6日在北京将会召开「DataFunCon 2024·北京站:大数据·大模型.双核时代 」主题峰会特邀阿里云计算平台事业部多位产品技术专家,分享了阿里云在大数据与AI结合以及企业数字化转型方面的产能力与实践经验。

三、产品快讯

Forrester Wave™: AI Infrastructure Solutions 2024 报告:阿里云入选竞争者象限,AI基础设施产品力全球第二

AI基础设施需要专门的计算、存储、网络设计,以满足AI在数据准备、模型训练、推理阶段的需求。Forrester报告认为,围绕AI开发全流程,阿里云打造了丰富的云上AI服务,既包括强大的AI算力,也包括便捷的平台和工具。此外,阿里云AI产品的性价比和易用性也非常突出。

image.png

Gartner: Magic Quadrant for Data Science and Machine Learning Platforms 2024 报告:阿里云跃升至挑战者象限,为唯一入围该报告的亚太厂商

在Gartner近日发布的2024年《数据科学和机器学习平台魔力象限》中,阿里云同样是中国科技公司中的引领者,今年跃升至挑战者象限,并成为该报告中唯一入围的亚太厂商。阿里云人工智能平台PAI、大数据开发治理平台Dataworks等产品为大模型的训练部署提供了高性能的全生命周期工具。

image.png

「PAI-ArtLab100 AIGC」设计普惠计划发布!与 100+ 高校共同探索 AIGC 教育新路径

D20 全球设计院长峰会(简称 D20 峰会)在杭州阿里巴巴全球总部召开。峰会现场,阿里云高校合作部、阿里云人工智能平台PAI,以及阿里云设计中心联合发布「ArtLab100 AIGC设计普惠计划」(简称ArtLab100计划),与 100+ 高校共同探索 AIGC 教育新路径。旨在推动设计艺术教育与人工智能技术的深度结合,培育新时代的设计创新人才,同时加强校企合作,促进产业界与学术界的协同进步。

阿里云人工智能平台 PAI 论文入选 OSDI '24

阿里云人工智能平台 PAI 的论文 《Llumnix: Dynamic Scheduling for Large Language Model Serving》被 OSDI '24录用。论文通过对大语言模型( LLM )推理请求的动态调度,大幅提升了推理服务质量和性价比。Llumnix 是业界首个能灵活在不同模型实例间重新分配请求的框架;并且,实验表明,与最先进的LLM服务系统相比,Llumnix 请求尾延迟时间剧减超过 10 倍,将高优先级请求的速度提高了 1.5 倍,并在实现类似尾部延迟的同时,成本降低为原先的 64%。

阿里云人工智能平台 PAI 自研开源的视频生成项目 EasyAnimate 正式发布 v3 版本

  • 支持图片(可配合文字)生成视频
  • 支持上传两张图片作为起止画面生成视频
  • 最大支持 720p(960*960 分辨率)144帧视频生成
  • 最低支持 12G 显存使用(3060 12G可用)
  • 视频续写生成无限时长视频

四、产品学习指南

【最佳实践】大语言模型的直接偏好优化(DPO)对齐在 PAI-QuickStart 实践

阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对 DPO 算法提供了全面的技术支持。无论是开发者还是企业客户,都可以通过 PAI-QuickStart 轻松实现大语言模型的 DPO 对齐微调。本文以阿里云最近推出的开源大型语言模型 Qwen2(通义千问2)系列为例,介绍如何在 PAI-QuickStart 实现 Qwen2 的 DPO 算法对齐微调。

【最佳实践】使用 DataWorks 享受成本分析自由,体验账单数据订阅及查询分析实践

DataWorks 作为阿里云一站式数据开发治理平台,联合阿里云费用与成本基于 MaxCompute 等大数据引擎,支持您在线进行 SQL 分析、业务洞察、编辑和分享数据,以及将查询结果保存为可视化图表卡片,快速搭建可视化数据报告。订阅账单数据后,用户中心会将相关账单数据同步至指定 MaxCompute 表,您可通过 DataWorks 的数据分析功能分析您的阿里云账单。

【最佳实践】实时数仓 Hologres OLAP 场景核心能力介绍

Hologres 作为阿里云一站式实时数仓,提供统一、实时、弹性、易用的一站式实时数仓引擎,解决复杂OLAP 难题。Hologres 在OLAP 场景上具备支持 OLAP 分析、对湖和仓的数据可做直读加速、兼容 PG 生态等优势,提供高性能、高可用的产品能力和极致的开发体验。

【最佳实践】Hologres+Flink 企业级实时数仓核心能力介绍

Hologres 和 Flink 有效结合,形成强大的 Streaming Warehouse 方案。实现数据从 MySQL 或其他数据源通过 Flink 实时写入 Hologres 中,形成 ODS 层。Hologres 支持 Binlog,提供表的增量变化信息,以此成为 Flink 的源表,通过 Flink 来全增量消费 Hologres 源表并加工后再写入 Hologres 中,形成 DWD 层。DWD 层再次生成 Binlog 供 Flink 消费。再次写入 Hologres 中,形成聚合层 DWS,以此最终为下游提供服务。

【最佳实践】分析性能提升 40%,阿里云 Hologres 流量场景最佳实践

Hologres 在实时写入能力上显著提升,特别是通过 Fixed plan 模式实现了高效的数据写入。该模式能够在数据写入过程中进行深度优化,直接面向存储引擎进行批量的数据写入。Hologres 在 TPC-H 标准测试中取得了全球排名第一的优异成绩,相比第二名领先了约23%,这一成绩充分展示了 Hologres 在该领域的卓越技术实力和竞争优势。Hologres 自 2.0 版本后,持续优化以提升用户使用的便捷性和系统稳定性。即将推出的 Hologres Dynamic Table 支持流批一体场景的能力。Hologres 在流量场景的分析能力上表现优异,尤其在漏斗分析、留存分析、标签画像分析以及用户行为标签分析等方面支持完善。

【最佳实践】实时数仓 Hologres TPC-H 及点查性能开箱测试

Hologres 现在仍然是 TPCH-30000 榜单的全球第一,领先第二名高达 23%,最新发布的 2.2 版本相比之前的 1.x 的版本性能大约提升 100%。本次开箱测试主要通过 96CU 进行 OLAP 场景的 TPC 标准查询测试以及 Serving 场景会包含例如 insert 场景、update 的场景,如果您也需要测试可以在官网购买 59 元 150000CU 时进行测试( 1 个 96CU 实例 1 小时消耗 96CU 时)。

【最佳实践】阿里云 EMR StarRocks VS 开源版本功能差异介绍

阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章重点介绍阿里云 EMR StarRocks 与开源 StarRocks 的对比与客户案例。

【最佳实践】通过 EMR Serverless Spark 提交 PySpark 流任务

在大数据快速发展的时代,流式处理技术对于实时数据分析至关重要。EMR Serverless Spark 提供了一个强大而可扩展的平台,它不仅简化了实时数据处理流程,还免去了服务器管理的烦恼,提升了效率。本文将指导您使用 EMR Serverless Spark 提交 PySpark 流式任务,展示其在流处理方面的易用性和可运维性。

【最佳实践】阿里云 EMR Serverless StarRocks OLAP 数据分析场景解析

阿里云 EMR Serverless StarRocks 作为一款高性能、全场景覆盖、全托管免运维的 OLAP 分析引擎,在企业数据分析领域展现出了强大的竞争力和广泛的应用前景。通过其卓越的技术特点、丰富的应用场景以及完善的生态体系支持,EMR Serverless StarRocks 正逐步成为企业数字化转型和智能化升级的重要推手。未来随着技术的不断进步和应用场景的不断拓展我们有理由相信 EMR Serverless StarRocks 将在更多领域发挥重要作用为企业创造更大的价值。

【客户案例】识货基于向量检索服务 Milvus 版搭建电商领域的向量数据检索平台

阿里云向量检索服务 Milvus 版以其性能稳定和功能多样化的向量检索能力,为识货团队在电商领域的向量检索场景中搭建业务系统提供了强有力的支持。该服务的分布式扩展能力不仅可靠,而且能够适应日益增长的数据规模。目前集成了Zilliz商业化内核的新版本正式发布且免费公测中。

【最佳实践】解读阿里云搜索开发工作台如何快速搭建 AI 语义搜索及 RAG 链路

阿里云搜索开发工作台是面向企业及开发者提供先进的AI搜索开发平台,内置实践打磨的多模态数据解析、文档切分、文本向量、查询分析、大模型文本生成、效果测评等丰富的组件化服务以及开发模版,同时,可选多种引擎能力,用户可灵活调用,实现智能搜索、检索增强生成( RAG )、多模态搜索等搜索相关场景的搭建。本文介绍阿里云搜索开发工作台如何通过内置数据处理、查询分析、排序、效果测评、大模型等服务,结合阿里云搜索引擎及开源引擎,灵活打造 AI 语义搜索及 RAG 链路。

【最佳实践】多模态 RAG :三步构建图文并茂的智能问答、电商导购助手

OpenSearch LLM 智能问答版内置数据解析与处理、切片、向量化、文本&向量检索、多模态 LLM 等模型和功能。本文将介绍如何使用 OpenSearch LLM 智能问答版搭建一站式多模态 RAG 系统。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
130 0
|
4月前
|
云安全 人工智能 安全
大模型+安全,阿里云发布AI云盾系列产品!
阿里云正式发布AI云盾(Cloud Shield for AI)系列安全产品,包括AI安全护栏、升级云安全中心、WAAP和云防火墙。该系列提供模型输入输出安全、AI-BOM、AI-SPM等能力,构建三层模型安全防御体系,涵盖AI基础设施、大模型及应用安全。其中,AI安全护栏保障生成式AI合规性,实时检测威胁并维护模型健康,支持多模态内容交叉检测的All In One API调用模式。此外,AI-BOM与AI-SPM助力客户持续监控AI资产及安全状态。
416 3
大模型+安全,阿里云发布AI云盾系列产品!
|
2月前
|
存储 搜索推荐 算法
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
本文深入探讨了Java大数据技术在智能金融理财产品风险评估与个性化配置中的关键应用。通过高效的数据采集、存储与分析,Java大数据技术助力金融机构实现精准风险评估与个性化推荐,提升投资收益并降低风险。
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
三步法打造企业级AI产品,背后藏着怎样的落地方法论?
三桥君分享打造金融级AI产品的三步法:业务梳理找切入点、模型验证技术可行性、大规模验证落地效果。助力AI产品经理掌握核心能力,推动AI在信贷审批、投资管理等场景真正落地。
108 11
|
3月前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2025年5月】
大数据& AI 产品技术月刊【2025年5月】,涵盖5月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
3月前
|
人工智能 自然语言处理 监控
无需编程,我用 AI 模型结合 RPA 自动化,用 2 天时间手搓小红书营销产品
这是一篇关于如何用ai 和无代码方式,为运营提供一套“小红书爆款生产流水线”的工具,系统可自动采集对标博主笔记、分析热点数据并生成选题草稿,用户仅需补充细节即可完成高质量内容创作。流程涵盖关键词采集、对标博主监控、高价值笔记筛选、AI文案与图片创作及多账号矩阵发布。相比传统方式,该方法大幅提升效率,1小时可完成10篇内容创作,助力创作者在竞争中脱颖而出。文中还详细解析了关键词采集、对标博主分析、自动化排版等关键步骤,适合希望提升内容生产效率的运营者参考。
|
人工智能 缓存 NoSQL
【深度】企业 AI 落地实践(四):如何构建端到端的 AI 应用观测体系
本文探讨了AI应用在实际落地过程中面临的三大核心问题:如何高效使用AI模型、控制成本以及保障输出质量。文章详细分析了AI应用的典型架构,并提出通过全栈可观测体系实现从用户端到模型推理层的端到端监控与诊断。结合阿里云的实践经验,介绍了基于OpenTelemetry的Trace全链路追踪、关键性能指标(如TTFT、TPOT)采集、模型质量评估与MCP工具调用观测等技术手段,帮助企业在生产环境中实现AI应用的稳定、高效运行。同时,针对Dify等低代码平台的应用部署与优化提供了具体建议,助力企业构建可扩展、可观测的AI应用体系。
|
28天前
|
机器学习/深度学习 人工智能 PyTorch
GPT为定制AI应用工程师转型第一周学习计划
本计划帮助开发者快速入门AI领域,首周涵盖AI基础理论、Python编程及PyTorch实战。前两天学习机器学习、深度学习与Transformer核心概念,掌握LLM工作原理。第三至四天快速掌握Python语法与Jupyter使用,完成基础编程任务。第五至七天学习PyTorch,动手训练MNIST手写识别模型,理解Tensor操作与神经网络构建。
97 0

相关产品

  • 云原生大数据计算服务 MaxCompute