大数据&AI产品月刊【2024年2月】

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 大数据&AI产品技术月刊【2024年2月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

一、产品功能发布

【人工智能平台 PAI】新功能/规格 - EAS一键部署AI视频生成应用    

基于EAS一键部署AI视频生成应用,快速实现文生视频。


【人工智能平台 PAI】新功能/规格 - EAS-Serverless模型服务灰度邀测    

Serverless的场景化使用场景中,免费拉起服务,仅对实际调用计费。


【人工智能平台 PAI】新功能/规格 - DLC(分布式训练)支持提交使用闲时资源的训练任务    

训练使用闲时资源提交任务,借用空闲配额来提高算力利用率。


【人工智能平台 PAI】新功能/规格 - Designer支持LLM数据预处理算子及常用模板

Designer支持LLM数据预处理算子及常用模板。


【人工智能平台 PAI】功能优化 - EAS极简部署功能发布    

提供一键式简化版的部署方式,快速拉起模型服务。


【人工智能平台 PAI】新地域/新可用区 - QuickStart在国际站发布    

快速开始(QuickStart)开通对新加坡地域的支持,您在该地域可以开始使用QuickStart产品。


【实时数仓 Hologres】新功能/规格 - Holoweb支持Query 洞察,快速关联表元数据

Holoweb支持Query 洞察,快速关联表元数据,提升Query诊断。


【实时数仓 Hologres】新功能/规格 - Runtime Filter支持多个字段Join    

优化多个字段join过程程中的数据扫描量,提升Join性能。


【实时数仓 Hologres】功能优化 - Holoweb支持Explain算子可视化    

Holoweb支持Explain算子可视化,提供更准确的plan可视化图。


【开源大数据平台 E-MapReduce】新功能/规格 - EMR Serverless Spark 邀测发布

E-MapReduce(以下简称:"EMR")Serverless Spark 版是开源大数据平台 E-MapReduce 基于 Spark 提供的一款全托管、一站式的数据计算平台。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务,显著简化了大数据计算的工作流程,使用户能更专注于数据分析和价值提炼。


【开源大数据平台 E-MapReduce】新功能/规格 - 向量检索 Milvus 版 邀测发布

阿里云向量检索 Milvus 版是阿里云提供的 Serverless Milvus 全托管服务,100% 兼容开源 Milvus,提供高性能、可扩展、大规模 AI 向量数据库相似性检索服务,具备开箱即用、弹性可扩展、全链路监控告警的能力,同时提供开源 Attu 的可视化工具。适用于各种 AI 应用场景,如:多模态搜索、RAG、广告推荐、内容风险识别等。


【实时计算 Flink版】新功能/规格 - 任务编排(公测)    

通过可视化的操作界面轻松地编排批作业运行的顺序,调度批作业任务的运行。


【实时计算 Flink版】新功能/规格 - 查询脚本支持Call和DDL、DQL、DML语法

查询脚本中创建管理Catalog、表、数据查询、数据管理等。


【实时计算 Flink版】功能优化 - 优化MySQL CDC    

优化MySQL CDC指定偏移量或者时间戳进行启动的数据读取速度。


【实时计算 Flink版】功能优化 - MySQL Catalog功能增强    

在MySQL Catalog对Tinyint(1)的支持,确保数据一致性。


二、产品活动

阿里云大数据AI上云采购季重磅来袭!    

阿里云大数据AI产品年度优惠,AIGC大模型最佳实践,完整的AI大模型开发训练和部署方案,更有部分入门规格首月1元起,一键前往。


三、产品快讯

阿里云PAI大模型RAG对话系统最佳实践    

大模型RAG对话系统最佳实践,旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术,从而显著提升对话系统的性能,使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践,可以掌握构建一个大模型RAG对话系统的完整开发链路。


AI加速引擎PAI-TorchAcc:整体介绍与性能概述    

PAI-TorchAcc(Torch Accelerator)是阿里云人工智能平台PAI开发的Pytorch上的大模型训练加速框架,提供了一套基于Pytorch的简洁、易用的接口,无需进行模型转换就可以无缝地接入HuggingFace上的模型,并用多种分布式策略进行训练加速。PAI-TorchAcc借助社区PyTorch/XLA,通过 LazyTensor 技术将Pytorch代码转换为静态执行图,基于计算图,结合阿里云上的计算资源情况,进行了大量的GPU硬件上模型训练的针对性分布式优化、计算优化。


AI加速引擎PAI-TorchAcc:OLMo训练加速最佳实践    

阿里云人工智能平台PAI开发的Pytorch训练加速框架PAI-TorchAcc已接入最新开源的大语言模型OLMo。在保证模型效果和易用性的前提下,PAI-TorchAcc相对PyTorch性能在OLMo 1B上加速比达到1.64X,在OLMo 7B上加速比达到1.52X。本文介绍如何使用PAI-TorchAcc加速OLMo模型训练,分析PAI-TorchAcc 的性能收益来源。


四、产品学习指南

【客户案例】心动基于阿里云DataWorks构建游戏行业通用大数据模型    

心动创立于 2003年,是一家全球游戏开发和发行商,拥有丰富的研发、发行和代理运营经验。心动游戏在阿里云上构建云原生大数据平台,基于DataWorks构建行业通用大数据模型,如玩家、产品、SDK、事件、发行等,满足各种不同的分析型应用的要求,如AI场景、风控场景、数据分析场景等。


【客户案例】友盟+Hologres:千亿级多维分析平台建设实践    

友盟+ 作为国内最大的移动应用统计服务商,其统计分析产品 U-App & U-Mini & U-Web 为开发者提供基础报表及自定义用户行为分析服务,能够帮助开发者更好地理解用户需求,优化产品功能,提升用户体验,助力业务增长。分享友盟U-App 背后的技术实现,以及友盟在行为分析和画像分析场景上的最佳实践。


【客户案例】飞书深诺基于Flink+Hudi+Hologres的实时数据湖建设实践    

飞书深诺集团致力于在出海数字营销领域提供全链路服务产品。在广告效果监控和游戏运营业务场景中,为了及时响应广告投放成效与消耗方面的问题和快速监测运营动作效果,实时或准实时数据处理提供了至关重要的技术支撑。为了满足日益发展的需求,最终决定基于Flink + Hudi + Hologres来构建阿里云云原生实时湖仓,并在文中探讨实时数据架构的具体落地实践。


【最佳实践】通义千问1.5(Qwen1.5)大语言模型在PAI-QuickStart的微调与部署实践    

Qwen1.5(通义千问1.5)是阿里云最近推出的开源大型语言模型系列。作为“通义千问”1.0系列的进阶版,该模型推出了多个规模,从0.5B到72B,满足不同的计算需求。阿里云的人工智能平台PAI,作为一站式的机器学习和深度学习平台,对Qwen1.5模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过PAI-QuickStart轻松实现Qwen1.5系列模型的微调和快速部署。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4天前
|
数据采集 分布式计算 大数据
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame是阿里云自研的分布式计算框架,专为Python开发者设计。它支持Python接口,充分利用MaxCompute的大数据资源,提升大规模数据分析效率。本文分享了MaxFrame在分布式Pandas处理和大语言模型数据预处理中的最佳实践,展示了其在数据清洗、特征工程等方面的强大能力,并提出了改进建议。
29 13
|
1天前
|
数据采集 人工智能 分布式计算
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
|
4天前
|
机器学习/深度学习 分布式计算 数据处理
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame 产品评测报告
18 4
|
7天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
18天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
27天前
|
人工智能 自然语言处理 算法
【AI问爱答-双十一返场周直播】AI产品专家直播解读重点AI应用场景怎么用?
阿里云【AI问爱答】栏目强势回归,11月25日至28日每晚19:00,连续四天直播,涵盖AI营销、企业办公、社交娱乐及大模型推理调优四大主题,助您深入了解AI应用,解决实际问题。欢迎预约观看!
|
3天前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
35 0
|
16天前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年11月】
大数据& AI 产品技术月刊【2024年11月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
18天前
|
人工智能 Kubernetes Cloud Native
荣获2024年AI Cloud Native典型案例,阿里云容器产品技术能力获认可
2024全球数字经济大会云·AI·计算创新发展大会,阿里云容器服务团队携手客户,荣获“2024年AI Cloud Native典型案例”。
|
人工智能 大数据 Apache
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载
2020年9月18日下午13:00云栖大会正式发布 《大数据&AI的16种可能,2020阿里云客户最佳实践合集》
72993 4
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 下一篇
    DataWorks