大数据&AI产品2月刊

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 大数据&AI产品月刊(2023年2月),涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

一、产品功能发布


【云原生大数据计算服务 MaxCompute】新功能 - 支持Hologres外部表存储直读  

支持Hologres存储直读,直读Hologres存数据时可以减少Hologres的连接数和提高读取数据的速度。


【云原生大数据计算服务 MaxCompute】新功能 - Quota使用规则发布    

通过对MaxCompute Quota配置规则条件,实现满足规则条件的作业可调度到对应Quota,可更灵活的管理Quota的使用。


【云原生大数据计算服务 MaxCompute】新功能 - 支持标签分账

MaxCompute支持为项目(Project)、一级配额(Quota)绑定标签,并实现标签分账。


【云原生大数据计算服务 MaxCompute】新功能 - 增强显示数据对象SHOW命令  

SHOW命令可以列出更细分类下的数据对象,包括表,视图和函数。


【大数据开发治理平台 DataWorks】新功能 - 数据治理中心支持任务批量下线的治理计划

数据治理中心提供面向场景的专项治理计划,针对无效/重复任务需要批量安全下线的场景,提供「优

雅下线」治理计划。


【大数据开发治理平台 DataWorks】新功能 - 管控台新增已购资源进行商品管理

展示当前所有已购买且未释放的DataWorks下属商品,可以方便快速进行升降退续等操作。


【大数据开发治理平台 DataWorks】新功能 - DataStudio简单模式支持代码评审  

除标准模式外,简单模式也支持代码评审,并且可以开启强制代码评审,评审通过后方在生产环境生效。


【实时数仓 Hologres】新功能 - Hologres基于Delta Lake实现湖仓一体    

为您介绍Hologres基于Delta Lake实现湖仓一体的背景、架构、环境准备及使用说明等信息。


【实时数仓 Hologres】新功能 - 数据写入、更新、点查场景压测最佳实践        

Hologres在数据写入、数据更新、点查场景的性能测试方法与结果。


【实时数仓 Hologres】新地域/可用区 - 共享集群发布深圳Region      

共享集群发布深圳Region


【检索分析服务 Elasticsearch版】新功能 - Serverless版本应用Demo上线      

上线Demo体验功能,帮助用户快速创建Demo应用并进行数据管理和可视化。


【检索分析服务 Elasticsearch版】新功能 - Serverless版本应用及数据流管理功能优化|支持Beats采集写入      

新增多种常用指标,支持指标数据Downsample采样精度配置。支持开源Beats采集写入。


【检索分析服务 Elasticsearch版】新地域/可用区 - 8.5版本在多个地域正式开服    

开放区域:华北2(北京)、华北6(乌兰察布)、华东2(上海)、华南1(深圳)、华南3(广州)、西南1(成都)、中国香港。


【检索分析服务 Elasticsearch版】新地域/可用区 - 日志增强版上线新加坡区域      

日志增强版新增开通新加坡区域。


【开源大数据平台 E-MapReduce】新功能 - 访问链接与端口功能升级        

访问链接与端口新增服务原生UI地址,用户在不同集群环境下均可通过该模块访问服务UI


【开源大数据平台 E-MapReduce】新功能 - 支持数据盘加密        

EMR集群支持数据盘加密。


【实时计算 Flink版】新功能 - VVR 6.0.5版本发布|多功能发布更有StarRocks连接器新增  

修复了Apache Flink 1.15.3的全部缺陷。同时正式发布StarRocks连接器,方便对StarRocks进行读写。


【机器学习 PAI】新功能 - Designer支持将离线数据处理及预测全链路pipeline一键部署为在线服务  Designer支持将数据预处理、特征工程、模型预测的串行Pipeline部署至EAS,并提供了常用的CTR预估场景模板。


【机器学习 PAI】新功能 - EAS支持多规格实例选择    

PAI-EAS部署环节支持多规格实例选择,通过遍历配置文件中提供的规格列表来拉起资源,从而降低单一规格库存不足带来的部署风险。


【机器学习 PAI】新功能 - EAS支持抢占式资源实例(Spot Instance)    

EAS支持部署服务时选择使用成本更低的抢占式资源实例(Spot Instance),指定价格上限的抢占模式,极大降低客户资源成本。


【智能推荐 AIRec】新功能 - AIRec运营策略升级  

丰富了对推荐结果多样性、时效性、相关度的干预能力,可以有效提升用户体验。


【智能开放搜索 OpenSearch】新功能 - 实时热搜、个性化底纹发布  

智能开放搜索OpenSearch推出实时热搜、个性化底纹功能,为用户提供更加精准的搜索引导服务。


二、产品快讯


Apache Flink入选 2022 年“科创中国”开源创新榜

近日,中国科协召开 2023“科创中国”年度会议。在本次会议上,“科创中国”联合体理事长、中国工程院院士周济,中国科协副主席、中国工程院院士陈学东,中国科学院院士陈润生等评审专家代表共同揭晓榜单,Apache Flink 以及 Flink 开源社区重要推动者阿里巴巴,分别入选开源创新榜“开源产品”和“开源机构”。


阿里云EMR 2.0:重新定义新一代开源大数据平台    

阿里云高级产品专家何源(荆杭)在阿里云EMR2.0线上发布会分享介绍了阿里云E-MapReduce的开发历程,EMR 2.0的新特性、产品架构,以及EMR 2.0在平台体验、数据开发、资源形态及分析场景等方面的全面突破与创新,重新定义新一代开源大数据平台。


阿里云PAI-Diffusion功能再升级,全链路支持模型调优,平均推理速度提升75%以上

阿里云PAI-Diffusion功能再升级,全链路支持模型调优。在模型推理方面,结合由PAI自主研发的编译优化工具PAI-Blade,支持对PAI-Diffusion模型的端到端的导出和推理加速,在A10机器下做到了1s内的中文大图生成。


2万字揭秘阿里巴巴数据治理平台DataWorks建设实践  

阿里巴巴一直将数据作为自己的核心资产与能力之一,从最早的淘宝、天猫等电商业务,到后续的优酷、高德、菜鸟等板块,DataWorksMaxComputeHologres等产品用一套技术体系来支持不同业务的发展与创新,为企业带来整体的“数据繁荣”。数据繁荣为我们带来了红利,同时也带动了各类数据治理需求的井喷,特别是降本等需求的不断出现,阿里云DataWorks团队将13年的产品建设经验整理成最佳实践,从数据生产规范性治理、数据生产稳定性治理、数据生产质量治理、数据应用提效治理、数据安全管控治理、数据成本治理、数据治理组织架构及文化建设等7个方面为大家揭秘数据治理平台建设实践。



基于单机最高能效270亿参数GPT模型的文本生成与理解      

GPT模型能较好的处理文本生成领域的各种任务,比如文本补全,自由问答,完形填空,写作文,写摘要,写小说,写诗歌等等。但针对GPT基础模型参数量大,训练&推理硬件资源消耗过高等问题,采用GPT+MoE的技术架构路线,探索单机最高能效的绿色低碳GPT大模型训练&推理软硬一体化适配技术在中文文本生成场景的落地可行性。


三、产品学习指南


【产品运维】EasyNLP集成K-Global Pointer算法,支持中文信息抽取        

EasyNLP持常的中预训练模型和模型落地技术,并且提供了从训练到部署的站式 NLP 开发体验。本简要介绍 K-Global Pointer 的技术解读,以及如何在 EasyNLP 框架中使K-Global Pointer 模型。


【产品运维】实时数仓Hologres新一代弹性计算组实例技术揭秘      

Hologres新一代弹性计算组实例,旨在通过更强的隔离和弹性能力,进一步提高业务系统的稳定性。本文会详细介绍Hologres弹性计算组实例的实现原理,助力更多业务进一步提升企业级资源隔离和弹性能力。


【最佳实践】Flink X Hologres构建企业级Streaming Warehouse  

HologresFlink深度整合,构建强大的Streaming Warehouse。全链路都可以用SQL表示,并且只需要用到 Flink Hologres 两个组件,操作非常方便。用户可以基于这个方案,利用Hologres强大的百万QPS点查能力和高性能OLAP能力构建各种实时应用。


【最佳实践】开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化  

在本篇文章中,将介绍大数据集群领域所需的可观测性,实践大数据集群可观测所需要的条件和面临的挑战,以及阿里云EMR产品如何通过EMR Doctor 实现大数据可观测并向用户提供相关能力。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6天前
|
人工智能 前端开发 小程序
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
|
3天前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
14 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
10天前
|
人工智能 Serverless API
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
74 8
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
|
10天前
|
存储 人工智能 数据管理
|
5天前
|
人工智能 分布式计算 数据处理
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
|
3天前
|
人工智能 运维 监控
阿里云Milvus产品发布:AI时代云原生专业向量检索引擎
随着大模型和生成式AI的兴起,非结构化数据市场迅速增长,预计2027年占比将达到86.8%。Milvus作为开源向量检索引擎,具备极速检索、云原生弹性及社区支持等优势,成为全球最受欢迎的向量数据库之一。阿里云推出的全托管Milvus产品,优化性能3-10倍,提供企业级功能如Serverless服务、分钟级开通、高可用性和成本降低30%,助力企业在电商、广告推荐、自动驾驶等场景下加速AI应用构建,显著提升业务价值和稳定性。
|
3天前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
15天前
|
数据采集 人工智能 分布式计算
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
|
18天前
|
数据采集 分布式计算 大数据
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame是阿里云自研的分布式计算框架,专为Python开发者设计。它支持Python接口,充分利用MaxCompute的大数据资源,提升大规模数据分析效率。本文分享了MaxFrame在分布式Pandas处理和大语言模型数据预处理中的最佳实践,展示了其在数据清洗、特征工程等方面的强大能力,并提出了改进建议。
55 13
|
18天前
|
机器学习/深度学习 分布式计算 数据处理
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame 产品评测报告
31 4