大数据&AI产品月刊【2022年4月】

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据&AI产品技术月刊(2022年4月),涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

一、本月产品功能发布

【新地域/可用区】云原生大数据计算服务 MaxCompute - 湖仓一体国际站新加坡区域商业化发布

新增开通国际站新加坡区。


【新功能】云原生大数据计算服务 MaxCompute - 新增DISTRIBUTED MAP JOIN功能发布

支持用户在特殊场景下使用HINT方式进行DISTRIBUTED MAP JOIN计算,提高计算性能,减少计算时间。


【新功能】云原生大数据计算服务 MaxCompute - Logview新增数据安全管理功能

MaxCompute Logview的运行结果支持自定义配置是否显示,进一步对数据安全进行管控。


【新功能】云原生大数据计算服务 MaxCompute - 增加半结构化数据(Json)新解析方式

MaxCompute支持用户Json数据键值中带特殊字符点(.),可以用['']来读取带点作为键值的数据。


【新功能】云原生大数据计算服务 MaxCompute - 增强OSS外表能力

MaxCompute往OSS外表写数据时,支持自动创建托管目录;在创建OSS外表时可以指定读取文件的缓存容量。


【新功能】大数据开发治理平台 DataWorks - 智能数据建模商业化发布

产品将在2022年4月26日开启商业化收费,您在公测期间的模型将全部保留,但无法进行增删改等操作,需要购买商业化版本。


【新功能】大数据开发治理平台 DataWorks - 发布中心支持跨工作空间发布

发布中心支持将工作空间内的任务、资源、函数等对象发布至另一个工作空间内,解决多工作空间之间的任务发布问题。


【新功能】大数据开发治理平台 DataWorks - 数据分析操作记录接入安全审计

DataWorks数据分析,MaxCompute SQL运行、SQL运行结果下载、电子表格下载操作记录均已接入安全审计。


【新功能】大数据开发治理平台 DataWorks - 数据治理中心治理排行榜功能优化

新增支持按照角色进行过滤、新增排序功能、新增支持展示工作空间下全部人员的排行、新增支持查看待处理问题列表详情。


【新功能】大数据开发治理平台 DataWorks - 数据集成一键实时同步至MaxCompute/Hologres突破1000张表限制

使用数据集成独享资源组进行同步解决方案时,可以在一个任务里选择超过1000张表,同步效率更加高效。


【新功能】大数据开发治理平台 DataWorks - 智能数据建模代码模式增强

维度建模支持对已保存模型通过代码模式中的FML和FML快捷方式进行字段顺序调整。


【体验优化】实时数仓 Hologres - 查询与监控交互式体验馆上线

您可通过体验馆快速了解Hologres产品的使用方法。


【新功能】实时数仓 Hologres - 只读从实例自助配置发布

Hologres支持自助购买和配置只读从实例。


【新功能】开源大数据平台 E-MapReduce - StarRocks 升级至2.1.1版本将大幅提升查询性能

EMR StarRocks 升级至2.1.1版本,在智能查询、联邦查询、物化视图等方面大幅提升性能。


【新功能】开源大数据平台 E-MapReduce - JindoData发布,支持OSS-HDFS服务

JindoSDK内置支持访问阿里OSS-HDFS服务(JindoFS服务),提供全面的HDFS接口访问和使用体验。


【新功能】实时计算 Flink版 - 支持Lindorm 维表和结果表

实时计算 Flink版支持Lindorm 维表和结果表。


【新功能】图计算服务 Graph Compute - 新引擎发布

2021年10月进行新版本升级,提供更高效的图能力;推出图数据管理平台,支持图数据建模、导入和修改,方便开发者快速上手图引擎。


【新功能】图计算服务 Graph Compute - 新增图探索功能

新增图探索功能交互,新客首月可享受免费1个月试用。


【新功能】机器学习 PAI-Designer新增异常检测类、推荐类、数据源类、自定义算法类组件

PAI-Designer新增异常检测类、推荐类、数据源类、自定义算法类组件。


【新地域/可用区】机器学习 PAI-Designer在法兰克福region正式开服

PAI-Designer开通法兰克福地域,用户可以在控制台对应region进行使用。


【新地域/可用区】机器学习 PAI-DSW 在新加坡等5个国际地区正式开服

机器学习 PAI-DSW 在新加坡、德国(法兰克福)、马来西亚(吉隆坡)、印度(孟买)、印度尼西亚(雅加达)正式开服。


【新功能】智能开放搜索 OpenSearch - 业务定制分析器发布

智能开放搜索推出定制召回模型-业务定制分析器功能,基于预训练行业NLP模型和自身业务数据,定制专属分析器,智能化提升搜索效果。


二、产品快讯

阿里云机器学习PAI开源中文NLP算法框架EasyNLP,助力NLP大模型落地

EasyNLP 是 PAI 算法团队基于 PyTorch 开发的易用且丰富的中文NLP算法框架,支持常用的中文预训练模型和大模型落地技术,并且提供了从训练到部署的一站式 NLP 开发体验。EasyNLP 提供了简洁的接口供用户开发 NLP 模型,包括NLP应用 AppZoo 和预训练 ModelZoo,同时提供技术帮助用户高效的落地超大预训练模型到业务。

image.png

EasyNLP整体架构


EasyCV开源|开箱即用的视觉自监督+Transformer算法库

阿里云机器学习平台PAI 打造了 EasyCV all-in-one视觉建模工具,搭建了丰富完善的自监督算法体系,提供了效果SOTA的视觉Transformer预训练模型,modelzoo覆盖图像自监督训练、图像分类、度量学习、物体检测、关键点检测等领域,并且面向开发者提供开箱即用的训练、推理能力,同时在训练/推理效率上也做了深度优化。


阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022,有效减少大规模神经网络训练时间

近日,阿里云机器学习平台 PAI 与香港大学吴川教授团队合作的论文”Efficient Pipeline Planning for Expedited Distributed DNN Training”入选INFOCOM(IEEE International Conference on Computer Communications) 2022,论文提出了一个支持任意网络拓扑的同步流水线并行训练算法,有效减少大规模神经网络的训练时间。此次入选意味着阿里云机器学习平台 PAI 在分布式深度学习模型训练优化领域的工作获得国际学界的广泛认可,进一步彰显了中国在分布式机器学习系统领域有着核心竞争力。


Elastic与阿里云助力汽车及出行产业数字化转型

阿里云和Elastic一起合作,在移动出行和自动驾驶领域,为客户提供强大的信息汇聚,数据计算与存储,数据的检索和分析、推理及AI训练等能力,助力客户从业务数字化走向数字业务化,实现整车全价值链的数智化升级。在汽车制造商和享道出行这样的合作案例中,Elastic正在帮助这些企业加速数字化转型,提升企业运营效率。而作为企业数字化转型之路上的中坚力量,阿里云凭借其丰富的经验以及技术储备,为用户更好的提供着“云端”服务。


阿里云发布中国云原生数据湖应用洞察白皮书

近日,阿里云发布《中国云原生数据湖应用洞察白皮书》。数据湖是面向大数据场景的创新解决方案,云原生是数据湖未来部署的必然形态,具有「建立统一数据资产、低成本使用基础资源、高性能计算体验升级和敏捷创新赋能」的核心价值。云原生数据湖主要应用于泛互联网行业(40.7%)及传统行业的互联网场景(泛政务、金融、工业、医疗、汽车等),未来将向更多具有大数据和高价值属性的行业拓展。


三、产品学习指南

产品运维】OOM排查指南

OOM描述的是Query的内存消耗超出了系统的当时供给,系统做出的一种异常提示。有的系统在内存资源不足时会采用磁盘缓存的方式进行算子降级,Hologres为了保障查询的效率,默认所有算子都采用内存资源进行计算,因此会存在内存不足OOM的问题。本文将会介绍如何针对Hologres中出现的OOM问题进行排查并处理。


产品运维湖仓一体,Hologres加速云数据湖DLF技术原理解析

Hologres通过DLF-Access与DLF/OSS深度整合,充分利用Hologres和DLF/OSS的各自优势,以极致性能为目标,直接加速查询云数据湖数据,让用户更方便高效的进行交互式分析,同时也极大降低了分析成本,实现湖仓一体的分析能力。


最佳实践】使用Databricks进行零售业需求预测的应用实践

本文从零售业需求预测痛点、商店商品模型预测的实践演示,介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。


最佳实践】企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

本文介绍了如何使用阿里云的Confluent Cloud和Databricks来构建数据流和LakeHouse,并以出租车具体案例介绍如何使用Databricks提供的能力来挖掘数据价值,使用Spark MLlib构建机器学习模型。



了解更多阿里云大数据产品:https://www.aliyun.com/product/bigdata/apsarabigdata

了解更多阿里云AI产品:https://ai.aliyun.com

了解大数据&AI开源项目:https://www.aliyun.com/activity/bigdata/opensource_bigdata__ai

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
17天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
13天前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
1月前
|
SQL 存储 人工智能
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
DataAgent如何助理业务和研发成为业务参谋?如何快速低成本的创建行业数据分类标准?如何管控数据源表的访问权限?如何满足企业安全审计需求?
581 1
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
|
23天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
76 10
zdl
|
6天前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
25 0
|
28天前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
38 0
|
1月前
|
SQL 运维 大数据
大数据实时计算产品的对比测评
在使用多种Flink实时计算产品后,我发现Flink凭借其流批一体的优势,在实时数据处理领域表现出色。它不仅支持复杂的窗口机制与事件时间处理,还具备高效的数据吞吐能力和精准的状态管理,确保数据处理既快又准。此外,Flink提供了多样化的编程接口和运维工具,简化了开发流程,但在界面友好度上还有提升空间。针对企业级应用,Flink展现了高可用性和安全性,不过价格因素可能影响小型企业的采纳决策。未来可进一步优化文档和自动化调优工具,以提升用户体验。
117 0
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
6天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
51 7
|
6天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
16 2

相关产品

  • 云原生大数据计算服务 MaxCompute