大数据AI产品月刊-2024年7月

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 大数据& AI 产品技术月刊【2024年7月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

大数据& AI 产品技术月刊【2024年7月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。


一、产品功能发布

云原生大数据计算服务 MaxCompute】新功能/规格 - 支持行级访问控制

推出基于表的行级访问控制能力,控制消费方对数据的访问。

云原生大数据计算服务 MaxCompute新地域/新可用区 - 计算成本优化功能在中国香港、新加坡等4个地域发布

计算成本优化功能在中国香港、新加坡、印度尼西亚(雅加达)、德国(法兰克福)地域发布。

云原生大数据计算服务 MaxCompute】新功能/规格 - 提供作业开始运行时间、等待时长及运行时长参数

提供以上参数,方便开发者定位作业运行问题。

【大数据开发治理平台 DataWorks】新功能/规格 - 数据集成支持 MySQL 整库同步至 StarRocks

数据可通过 MySQL 整库离线+实时两种方式同步至 StarRocks。

【大数据开发治理平台 DataWorks】新功能/规格 - 支持灵活注册 CDH/CDP 各版本集群

通过自定义集群版本可在 DataWorks 平台使用各版本 CDH/CDP 集群。

【大数据开发治理平台 DataWorks】新功能/规格 - 数据开发新增 CDH Spark SQL 节点

可进行 CDH Spark SQL 任务的开发和周期性调度。

【大数据开发治理平台 DataWorks】新功能/规格 - 用户可查看拥有的资源信息列表

RAM 权限策略更新,方便用户查看所有资源信息。

实时数仓 Hologres】新功能/规格 - Serverless Computing 功能商业化

按照 Serverless Computing 的资源使用量和使用时长收取相应费用。

实时计算 Flink 版】功能优化 - 全托管存储公测发布

实时计算 Flink 作业支持全托管存储,提高数据的安全性和可靠性。

实时计算 Flink 版】功能优化 - 发布 VVR 8.0.8 引擎

发布基于 Apache Flink 1.17.2 的引擎 VVR 8.0.8。

开源大数据平台 E-MapReduce】新功能/规格 - Serverless Spark 集成 Notebook

Serverless Spark 支持通过 Notebook 进行交互式开发。

开源大数据平台 E-MapReduce】新功能/规格 - Spark 支持连接外部 Hive Metastore

Serverless Spark 支持连接外部 Hive Metastore。

二、产品活动

使用 PAI ✖ LLaMA Factory 微调 Llama3 模型,搭建“ AI 诸葛亮” 问答机器人

使用 PAI 平台及 LLaMA Factory 训练框架完成模型的中文化与角色扮演微调和评估,搭建专属“ AI 诸葛亮”问答机器人,7×24小时为你出谋划策!

阿里云 MaxCompute MaxFrame 开启免费公测,统一 Python 开发生态

MaxCompute 提供分布式计算框架 MaxFrame,支持 Python 编程接口并可直接复用 MaxCompute 弹性计算资源及海量数据,100%兼容 Pandas 且自动分布式,与 MaxCompute Notebook、镜像管理等功能共同构成了 MaxCompute 的 Python 开发生态。MaxFrame 正式开启公免费公测,每个租户可领取 5000CU 免费资源,抵扣 MaxFrame 计算资源费用。

阿里云向量检索服务 Milvus 版开启免费公测,极速低成本云原生向量检索引擎

向量检索服务 Milvus 版在上一代 EMR Serverless Milvus 公测版的基础上全新升级并继续提供公测服务,不仅继续 100% 兼容开源版内核,同时联合 ZIlliz 提供更强大的商业化内核,极致的存算优化,使得性能得到数倍提升,资源节约 30% 以上,更与 PAI-EAS、通义等阿里云 AI 产品打通,并全面兼容 LlamaIndex,提供友好易用的 RAG 解决方案现正式开启公免费公测,每个用户可在控制台免费创建入门版实例,标准版可通过表单申请免费创建。

飞天发布时刻:大数据 AI 平台产品升级发布会

7月24日,阿里云飞天发布时刻产品发布会围绕阿里云大数据 AI 平台的新能力和新产品进行详细介绍。人工智能平台 PAI、云原生大数据计算服务 MaxCompute、开源大数据平台 E-MapReduce、实时数仓 Hologres、阿里云 Elasticsearch、向量检索 Milvus 等产品均带来了相关发布的深度解读。

DataFunCon 2024·北京站:大数据·大模型.双核时代

7月5-6日在北京将会召开「DataFunCon 2024·北京站:大数据·大模型.双核时代 」主题峰会特邀阿里云计算平台事业部多位产品技术专家,分享了阿里云在大数据与AI结合以及企业数字化转型方面的产能力与实践经验。

三、产品快讯

Forrester Wave™: AI Infrastructure Solutions 2024 报告:阿里云入选竞争者象限,AI基础设施产品力全球第二

AI基础设施需要专门的计算、存储、网络设计,以满足AI在数据准备、模型训练、推理阶段的需求。Forrester报告认为,围绕AI开发全流程,阿里云打造了丰富的云上AI服务,既包括强大的AI算力,也包括便捷的平台和工具。此外,阿里云AI产品的性价比和易用性也非常突出。

image.png

Gartner: Magic Quadrant for Data Science and Machine Learning Platforms 2024 报告:阿里云跃升至挑战者象限,为唯一入围该报告的亚太厂商

在Gartner近日发布的2024年《数据科学和机器学习平台魔力象限》中,阿里云同样是中国科技公司中的引领者,今年跃升至挑战者象限,并成为该报告中唯一入围的亚太厂商。阿里云人工智能平台PAI、大数据开发治理平台Dataworks等产品为大模型的训练部署提供了高性能的全生命周期工具。

image.png

「PAI-ArtLab100 AIGC」设计普惠计划发布!与 100+ 高校共同探索 AIGC 教育新路径

D20 全球设计院长峰会(简称 D20 峰会)在杭州阿里巴巴全球总部召开。峰会现场,阿里云高校合作部、阿里云人工智能平台PAI,以及阿里云设计中心联合发布「ArtLab100 AIGC设计普惠计划」(简称ArtLab100计划),与 100+ 高校共同探索 AIGC 教育新路径。旨在推动设计艺术教育与人工智能技术的深度结合,培育新时代的设计创新人才,同时加强校企合作,促进产业界与学术界的协同进步。

阿里云人工智能平台 PAI 论文入选 OSDI '24

阿里云人工智能平台 PAI 的论文 《Llumnix: Dynamic Scheduling for Large Language Model Serving》被 OSDI '24录用。论文通过对大语言模型( LLM )推理请求的动态调度,大幅提升了推理服务质量和性价比。Llumnix 是业界首个能灵活在不同模型实例间重新分配请求的框架;并且,实验表明,与最先进的LLM服务系统相比,Llumnix 请求尾延迟时间剧减超过 10 倍,将高优先级请求的速度提高了 1.5 倍,并在实现类似尾部延迟的同时,成本降低为原先的 64%。

阿里云人工智能平台 PAI 自研开源的视频生成项目 EasyAnimate 正式发布 v3 版本

  • 支持图片(可配合文字)生成视频
  • 支持上传两张图片作为起止画面生成视频
  • 最大支持 720p(960*960 分辨率)144帧视频生成
  • 最低支持 12G 显存使用(3060 12G可用)
  • 视频续写生成无限时长视频

四、产品学习指南

【最佳实践】大语言模型的直接偏好优化(DPO)对齐在 PAI-QuickStart 实践

阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对 DPO 算法提供了全面的技术支持。无论是开发者还是企业客户,都可以通过 PAI-QuickStart 轻松实现大语言模型的 DPO 对齐微调。本文以阿里云最近推出的开源大型语言模型 Qwen2(通义千问2)系列为例,介绍如何在 PAI-QuickStart 实现 Qwen2 的 DPO 算法对齐微调。

【最佳实践】使用 DataWorks 享受成本分析自由,体验账单数据订阅及查询分析实践

DataWorks 作为阿里云一站式数据开发治理平台,联合阿里云费用与成本基于 MaxCompute 等大数据引擎,支持您在线进行 SQL 分析、业务洞察、编辑和分享数据,以及将查询结果保存为可视化图表卡片,快速搭建可视化数据报告。订阅账单数据后,用户中心会将相关账单数据同步至指定 MaxCompute 表,您可通过 DataWorks 的数据分析功能分析您的阿里云账单。

【最佳实践】实时数仓 Hologres OLAP 场景核心能力介绍

Hologres 作为阿里云一站式实时数仓,提供统一、实时、弹性、易用的一站式实时数仓引擎,解决复杂OLAP 难题。Hologres 在OLAP 场景上具备支持 OLAP 分析、对湖和仓的数据可做直读加速、兼容 PG 生态等优势,提供高性能、高可用的产品能力和极致的开发体验。

【最佳实践】Hologres+Flink 企业级实时数仓核心能力介绍

Hologres 和 Flink 有效结合,形成强大的 Streaming Warehouse 方案。实现数据从 MySQL 或其他数据源通过 Flink 实时写入 Hologres 中,形成 ODS 层。Hologres 支持 Binlog,提供表的增量变化信息,以此成为 Flink 的源表,通过 Flink 来全增量消费 Hologres 源表并加工后再写入 Hologres 中,形成 DWD 层。DWD 层再次生成 Binlog 供 Flink 消费。再次写入 Hologres 中,形成聚合层 DWS,以此最终为下游提供服务。

【最佳实践】分析性能提升 40%,阿里云 Hologres 流量场景最佳实践

Hologres 在实时写入能力上显著提升,特别是通过 Fixed plan 模式实现了高效的数据写入。该模式能够在数据写入过程中进行深度优化,直接面向存储引擎进行批量的数据写入。Hologres 在 TPC-H 标准测试中取得了全球排名第一的优异成绩,相比第二名领先了约23%,这一成绩充分展示了 Hologres 在该领域的卓越技术实力和竞争优势。Hologres 自 2.0 版本后,持续优化以提升用户使用的便捷性和系统稳定性。即将推出的 Hologres Dynamic Table 支持流批一体场景的能力。Hologres 在流量场景的分析能力上表现优异,尤其在漏斗分析、留存分析、标签画像分析以及用户行为标签分析等方面支持完善。

【最佳实践】实时数仓 Hologres TPC-H 及点查性能开箱测试

Hologres 现在仍然是 TPCH-30000 榜单的全球第一,领先第二名高达 23%,最新发布的 2.2 版本相比之前的 1.x 的版本性能大约提升 100%。本次开箱测试主要通过 96CU 进行 OLAP 场景的 TPC 标准查询测试以及 Serving 场景会包含例如 insert 场景、update 的场景,如果您也需要测试可以在官网购买 59 元 150000CU 时进行测试( 1 个 96CU 实例 1 小时消耗 96CU 时)。

【最佳实践】阿里云 EMR StarRocks VS 开源版本功能差异介绍

阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章重点介绍阿里云 EMR StarRocks 与开源 StarRocks 的对比与客户案例。

【最佳实践】通过 EMR Serverless Spark 提交 PySpark 流任务

在大数据快速发展的时代,流式处理技术对于实时数据分析至关重要。EMR Serverless Spark 提供了一个强大而可扩展的平台,它不仅简化了实时数据处理流程,还免去了服务器管理的烦恼,提升了效率。本文将指导您使用 EMR Serverless Spark 提交 PySpark 流式任务,展示其在流处理方面的易用性和可运维性。

【最佳实践】阿里云 EMR Serverless StarRocks OLAP 数据分析场景解析

阿里云 EMR Serverless StarRocks 作为一款高性能、全场景覆盖、全托管免运维的 OLAP 分析引擎,在企业数据分析领域展现出了强大的竞争力和广泛的应用前景。通过其卓越的技术特点、丰富的应用场景以及完善的生态体系支持,EMR Serverless StarRocks 正逐步成为企业数字化转型和智能化升级的重要推手。未来随着技术的不断进步和应用场景的不断拓展我们有理由相信 EMR Serverless StarRocks 将在更多领域发挥重要作用为企业创造更大的价值。

【客户案例】识货基于向量检索服务 Milvus 版搭建电商领域的向量数据检索平台

阿里云向量检索服务 Milvus 版以其性能稳定和功能多样化的向量检索能力,为识货团队在电商领域的向量检索场景中搭建业务系统提供了强有力的支持。该服务的分布式扩展能力不仅可靠,而且能够适应日益增长的数据规模。目前集成了Zilliz商业化内核的新版本正式发布且免费公测中。

【最佳实践】解读阿里云搜索开发工作台如何快速搭建 AI 语义搜索及 RAG 链路

阿里云搜索开发工作台是面向企业及开发者提供先进的AI搜索开发平台,内置实践打磨的多模态数据解析、文档切分、文本向量、查询分析、大模型文本生成、效果测评等丰富的组件化服务以及开发模版,同时,可选多种引擎能力,用户可灵活调用,实现智能搜索、检索增强生成( RAG )、多模态搜索等搜索相关场景的搭建。本文介绍阿里云搜索开发工作台如何通过内置数据处理、查询分析、排序、效果测评、大模型等服务,结合阿里云搜索引擎及开源引擎,灵活打造 AI 语义搜索及 RAG 链路。

【最佳实践】多模态 RAG :三步构建图文并茂的智能问答、电商导购助手

OpenSearch LLM 智能问答版内置数据解析与处理、切片、向量化、文本&向量检索、多模态 LLM 等模型和功能。本文将介绍如何使用 OpenSearch LLM 智能问答版搭建一站式多模态 RAG 系统。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4天前
|
SQL 存储 人工智能
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
DataAgent如何助理业务和研发成为业务参谋?如何快速低成本的创建行业数据分类标准?如何管控数据源表的访问权限?如何满足企业安全审计需求?
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
|
14天前
|
消息中间件 人工智能 Cloud Native
|
1月前
|
存储 人工智能 运维
重磅!阿里云可观测产品家族全新升级,AI +数据双驱动,打造全栈可观测体系
近日,阿里云可观测产品家族正式发布云监控 2.0,隶属产品日志服务 SLS、云监控 CMS、应用实时监控服务 ARMS 迎来重磅升级。
262 16
|
14天前
|
人工智能 分布式计算 大数据
大数据&AI产品月刊【2024年9月】
大数据& AI 产品技术月刊【2024年9月】,涵盖本月技术速递、2024云栖大会实录、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
15天前
|
人工智能 自然语言处理 搜索推荐
【云栖实录】大模型驱动,开源融合的AI搜索产品发布
本文介绍了2024云栖大会上阿里云发布的产品详情。
|
1月前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
186 17
|
1月前
|
消息中间件 人工智能 Cloud Native
|
1月前
|
人工智能 算法 大数据
懂场景者得AI,瓴羊发布年度产品智能化战略
9月20日,瓴羊智能科技(以下简称瓴羊)在2024云栖大会上举办了“Data × AI:企业服务智能化,价值增长新动能”专场论坛。阿里巴巴集团副总裁、瓴羊智能科技CEO 朋新宇在会上发布年度产品智能化战略:“(算法 + 算力 + 数据) x 场景 ”,强调企业必须重视场景,只有通过解构场景、重构业务,才能真正拥抱AI,带来突破性增长。
|
10天前
|
SQL 运维 大数据
大数据实时计算产品的对比测评
在使用多种Flink实时计算产品后,我发现Flink凭借其流批一体的优势,在实时数据处理领域表现出色。它不仅支持复杂的窗口机制与事件时间处理,还具备高效的数据吞吐能力和精准的状态管理,确保数据处理既快又准。此外,Flink提供了多样化的编程接口和运维工具,简化了开发流程,但在界面友好度上还有提升空间。针对企业级应用,Flink展现了高可用性和安全性,不过价格因素可能影响小型企业的采纳决策。未来可进一步优化文档和自动化调优工具,以提升用户体验。
56 0
|
10天前
|
SQL 存储 监控
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
22 0

相关产品

  • 云原生大数据计算服务 MaxCompute