大数据&AI产品月刊【2024年2月】

简介: 大数据&AI产品技术月刊【2024年2月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

一、产品功能发布

【人工智能平台 PAI】新功能/规格 - EAS一键部署AI视频生成应用    

基于EAS一键部署AI视频生成应用,快速实现文生视频。


【人工智能平台 PAI】新功能/规格 - EAS-Serverless模型服务灰度邀测    

Serverless的场景化使用场景中,免费拉起服务,仅对实际调用计费。


【人工智能平台 PAI】新功能/规格 - DLC(分布式训练)支持提交使用闲时资源的训练任务    

训练使用闲时资源提交任务,借用空闲配额来提高算力利用率。


【人工智能平台 PAI】新功能/规格 - Designer支持LLM数据预处理算子及常用模板

Designer支持LLM数据预处理算子及常用模板。


【人工智能平台 PAI】功能优化 - EAS极简部署功能发布    

提供一键式简化版的部署方式,快速拉起模型服务。


【人工智能平台 PAI】新地域/新可用区 - QuickStart在国际站发布    

快速开始(QuickStart)开通对新加坡地域的支持,您在该地域可以开始使用QuickStart产品。


【实时数仓 Hologres】新功能/规格 - Holoweb支持Query 洞察,快速关联表元数据

Holoweb支持Query 洞察,快速关联表元数据,提升Query诊断。


【实时数仓 Hologres】新功能/规格 - Runtime Filter支持多个字段Join    

优化多个字段join过程程中的数据扫描量,提升Join性能。


【实时数仓 Hologres】功能优化 - Holoweb支持Explain算子可视化    

Holoweb支持Explain算子可视化,提供更准确的plan可视化图。


【开源大数据平台 E-MapReduce】新功能/规格 - EMR Serverless Spark 邀测发布

E-MapReduce(以下简称:"EMR")Serverless Spark 版是开源大数据平台 E-MapReduce 基于 Spark 提供的一款全托管、一站式的数据计算平台。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务,显著简化了大数据计算的工作流程,使用户能更专注于数据分析和价值提炼。


【开源大数据平台 E-MapReduce】新功能/规格 - 向量检索 Milvus 版 邀测发布

阿里云向量检索 Milvus 版是阿里云提供的 Serverless Milvus 全托管服务,100% 兼容开源 Milvus,提供高性能、可扩展、大规模 AI 向量数据库相似性检索服务,具备开箱即用、弹性可扩展、全链路监控告警的能力,同时提供开源 Attu 的可视化工具。适用于各种 AI 应用场景,如:多模态搜索、RAG、广告推荐、内容风险识别等。


【实时计算 Flink版】新功能/规格 - 任务编排(公测)    

通过可视化的操作界面轻松地编排批作业运行的顺序,调度批作业任务的运行。


【实时计算 Flink版】新功能/规格 - 查询脚本支持Call和DDL、DQL、DML语法

查询脚本中创建管理Catalog、表、数据查询、数据管理等。


【实时计算 Flink版】功能优化 - 优化MySQL CDC    

优化MySQL CDC指定偏移量或者时间戳进行启动的数据读取速度。


【实时计算 Flink版】功能优化 - MySQL Catalog功能增强    

在MySQL Catalog对Tinyint(1)的支持,确保数据一致性。


二、产品活动

阿里云大数据AI上云采购季重磅来袭!    

阿里云大数据AI产品年度优惠,AIGC大模型最佳实践,完整的AI大模型开发训练和部署方案,更有部分入门规格首月1元起,一键前往。


三、产品快讯

阿里云PAI大模型RAG对话系统最佳实践    

大模型RAG对话系统最佳实践,旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术,从而显著提升对话系统的性能,使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践,可以掌握构建一个大模型RAG对话系统的完整开发链路。


AI加速引擎PAI-TorchAcc:整体介绍与性能概述    

PAI-TorchAcc(Torch Accelerator)是阿里云人工智能平台PAI开发的Pytorch上的大模型训练加速框架,提供了一套基于Pytorch的简洁、易用的接口,无需进行模型转换就可以无缝地接入HuggingFace上的模型,并用多种分布式策略进行训练加速。PAI-TorchAcc借助社区PyTorch/XLA,通过 LazyTensor 技术将Pytorch代码转换为静态执行图,基于计算图,结合阿里云上的计算资源情况,进行了大量的GPU硬件上模型训练的针对性分布式优化、计算优化。


AI加速引擎PAI-TorchAcc:OLMo训练加速最佳实践    

阿里云人工智能平台PAI开发的Pytorch训练加速框架PAI-TorchAcc已接入最新开源的大语言模型OLMo。在保证模型效果和易用性的前提下,PAI-TorchAcc相对PyTorch性能在OLMo 1B上加速比达到1.64X,在OLMo 7B上加速比达到1.52X。本文介绍如何使用PAI-TorchAcc加速OLMo模型训练,分析PAI-TorchAcc 的性能收益来源。


四、产品学习指南

【客户案例】心动基于阿里云DataWorks构建游戏行业通用大数据模型    

心动创立于 2003年,是一家全球游戏开发和发行商,拥有丰富的研发、发行和代理运营经验。心动游戏在阿里云上构建云原生大数据平台,基于DataWorks构建行业通用大数据模型,如玩家、产品、SDK、事件、发行等,满足各种不同的分析型应用的要求,如AI场景、风控场景、数据分析场景等。


【客户案例】友盟+Hologres:千亿级多维分析平台建设实践    

友盟+ 作为国内最大的移动应用统计服务商,其统计分析产品 U-App & U-Mini & U-Web 为开发者提供基础报表及自定义用户行为分析服务,能够帮助开发者更好地理解用户需求,优化产品功能,提升用户体验,助力业务增长。分享友盟U-App 背后的技术实现,以及友盟在行为分析和画像分析场景上的最佳实践。


【客户案例】飞书深诺基于Flink+Hudi+Hologres的实时数据湖建设实践    

飞书深诺集团致力于在出海数字营销领域提供全链路服务产品。在广告效果监控和游戏运营业务场景中,为了及时响应广告投放成效与消耗方面的问题和快速监测运营动作效果,实时或准实时数据处理提供了至关重要的技术支撑。为了满足日益发展的需求,最终决定基于Flink + Hudi + Hologres来构建阿里云云原生实时湖仓,并在文中探讨实时数据架构的具体落地实践。


【最佳实践】通义千问1.5(Qwen1.5)大语言模型在PAI-QuickStart的微调与部署实践    

Qwen1.5(通义千问1.5)是阿里云最近推出的开源大型语言模型系列。作为“通义千问”1.0系列的进阶版,该模型推出了多个规模,从0.5B到72B,满足不同的计算需求。阿里云的人工智能平台PAI,作为一站式的机器学习和深度学习平台,对Qwen1.5模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过PAI-QuickStart轻松实现Qwen1.5系列模型的微调和快速部署。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
|
3月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
|
3月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
4月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
336 14
|
6月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
224 4
|
6月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
355 3
|
5月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
198 0
|
6月前
|
SQL 人工智能 分布式计算
ODPS:数据浪潮中的成长与突围
本文讲述了作者在大数据浪潮中,通过引入阿里云ODPS体系(包括MaxCompute、DataWorks、Hologres)解决数据处理瓶颈、实现业务突破与个人成长的故事。从被海量数据困扰到构建“离线+实时”数据架构,ODPS不仅提升了数据处理效率,更推动了技术能力与业务影响力的双重跃迁。
|
4月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
164 14

相关产品

  • 云原生大数据计算服务 MaxCompute