大数据&AI产品月刊【2022年4月】

简介: 大数据&AI产品技术月刊(2022年4月),涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

一、本月产品功能发布

【新地域/可用区】云原生大数据计算服务 MaxCompute - 湖仓一体国际站新加坡区域商业化发布

新增开通国际站新加坡区。


【新功能】云原生大数据计算服务 MaxCompute - 新增DISTRIBUTED MAP JOIN功能发布

支持用户在特殊场景下使用HINT方式进行DISTRIBUTED MAP JOIN计算,提高计算性能,减少计算时间。


【新功能】云原生大数据计算服务 MaxCompute - Logview新增数据安全管理功能

MaxCompute Logview的运行结果支持自定义配置是否显示,进一步对数据安全进行管控。


【新功能】云原生大数据计算服务 MaxCompute - 增加半结构化数据(Json)新解析方式

MaxCompute支持用户Json数据键值中带特殊字符点(.),可以用['']来读取带点作为键值的数据。


【新功能】云原生大数据计算服务 MaxCompute - 增强OSS外表能力

MaxCompute往OSS外表写数据时,支持自动创建托管目录;在创建OSS外表时可以指定读取文件的缓存容量。


【新功能】大数据开发治理平台 DataWorks - 智能数据建模商业化发布

产品将在2022年4月26日开启商业化收费,您在公测期间的模型将全部保留,但无法进行增删改等操作,需要购买商业化版本。


【新功能】大数据开发治理平台 DataWorks - 发布中心支持跨工作空间发布

发布中心支持将工作空间内的任务、资源、函数等对象发布至另一个工作空间内,解决多工作空间之间的任务发布问题。


【新功能】大数据开发治理平台 DataWorks - 数据分析操作记录接入安全审计

DataWorks数据分析,MaxCompute SQL运行、SQL运行结果下载、电子表格下载操作记录均已接入安全审计。


【新功能】大数据开发治理平台 DataWorks - 数据治理中心治理排行榜功能优化

新增支持按照角色进行过滤、新增排序功能、新增支持展示工作空间下全部人员的排行、新增支持查看待处理问题列表详情。


【新功能】大数据开发治理平台 DataWorks - 数据集成一键实时同步至MaxCompute/Hologres突破1000张表限制

使用数据集成独享资源组进行同步解决方案时,可以在一个任务里选择超过1000张表,同步效率更加高效。


【新功能】大数据开发治理平台 DataWorks - 智能数据建模代码模式增强

维度建模支持对已保存模型通过代码模式中的FML和FML快捷方式进行字段顺序调整。


【体验优化】实时数仓 Hologres - 查询与监控交互式体验馆上线

您可通过体验馆快速了解Hologres产品的使用方法。


【新功能】实时数仓 Hologres - 只读从实例自助配置发布

Hologres支持自助购买和配置只读从实例。


【新功能】开源大数据平台 E-MapReduce - StarRocks 升级至2.1.1版本将大幅提升查询性能

EMR StarRocks 升级至2.1.1版本,在智能查询、联邦查询、物化视图等方面大幅提升性能。


【新功能】开源大数据平台 E-MapReduce - JindoData发布,支持OSS-HDFS服务

JindoSDK内置支持访问阿里OSS-HDFS服务(JindoFS服务),提供全面的HDFS接口访问和使用体验。


【新功能】实时计算 Flink版 - 支持Lindorm 维表和结果表

实时计算 Flink版支持Lindorm 维表和结果表。


【新功能】图计算服务 Graph Compute - 新引擎发布

2021年10月进行新版本升级,提供更高效的图能力;推出图数据管理平台,支持图数据建模、导入和修改,方便开发者快速上手图引擎。


【新功能】图计算服务 Graph Compute - 新增图探索功能

新增图探索功能交互,新客首月可享受免费1个月试用。


【新功能】机器学习 PAI-Designer新增异常检测类、推荐类、数据源类、自定义算法类组件

PAI-Designer新增异常检测类、推荐类、数据源类、自定义算法类组件。


【新地域/可用区】机器学习 PAI-Designer在法兰克福region正式开服

PAI-Designer开通法兰克福地域,用户可以在控制台对应region进行使用。


【新地域/可用区】机器学习 PAI-DSW 在新加坡等5个国际地区正式开服

机器学习 PAI-DSW 在新加坡、德国(法兰克福)、马来西亚(吉隆坡)、印度(孟买)、印度尼西亚(雅加达)正式开服。


【新功能】智能开放搜索 OpenSearch - 业务定制分析器发布

智能开放搜索推出定制召回模型-业务定制分析器功能,基于预训练行业NLP模型和自身业务数据,定制专属分析器,智能化提升搜索效果。


二、产品快讯

阿里云机器学习PAI开源中文NLP算法框架EasyNLP,助力NLP大模型落地

EasyNLP 是 PAI 算法团队基于 PyTorch 开发的易用且丰富的中文NLP算法框架,支持常用的中文预训练模型和大模型落地技术,并且提供了从训练到部署的一站式 NLP 开发体验。EasyNLP 提供了简洁的接口供用户开发 NLP 模型,包括NLP应用 AppZoo 和预训练 ModelZoo,同时提供技术帮助用户高效的落地超大预训练模型到业务。

image.png

EasyNLP整体架构


EasyCV开源|开箱即用的视觉自监督+Transformer算法库

阿里云机器学习平台PAI 打造了 EasyCV all-in-one视觉建模工具,搭建了丰富完善的自监督算法体系,提供了效果SOTA的视觉Transformer预训练模型,modelzoo覆盖图像自监督训练、图像分类、度量学习、物体检测、关键点检测等领域,并且面向开发者提供开箱即用的训练、推理能力,同时在训练/推理效率上也做了深度优化。


阿里云机器学习平台PAI与香港大学合作论文入选INFOCOM 2022,有效减少大规模神经网络训练时间

近日,阿里云机器学习平台 PAI 与香港大学吴川教授团队合作的论文”Efficient Pipeline Planning for Expedited Distributed DNN Training”入选INFOCOM(IEEE International Conference on Computer Communications) 2022,论文提出了一个支持任意网络拓扑的同步流水线并行训练算法,有效减少大规模神经网络的训练时间。此次入选意味着阿里云机器学习平台 PAI 在分布式深度学习模型训练优化领域的工作获得国际学界的广泛认可,进一步彰显了中国在分布式机器学习系统领域有着核心竞争力。


Elastic与阿里云助力汽车及出行产业数字化转型

阿里云和Elastic一起合作,在移动出行和自动驾驶领域,为客户提供强大的信息汇聚,数据计算与存储,数据的检索和分析、推理及AI训练等能力,助力客户从业务数字化走向数字业务化,实现整车全价值链的数智化升级。在汽车制造商和享道出行这样的合作案例中,Elastic正在帮助这些企业加速数字化转型,提升企业运营效率。而作为企业数字化转型之路上的中坚力量,阿里云凭借其丰富的经验以及技术储备,为用户更好的提供着“云端”服务。


阿里云发布中国云原生数据湖应用洞察白皮书

近日,阿里云发布《中国云原生数据湖应用洞察白皮书》。数据湖是面向大数据场景的创新解决方案,云原生是数据湖未来部署的必然形态,具有「建立统一数据资产、低成本使用基础资源、高性能计算体验升级和敏捷创新赋能」的核心价值。云原生数据湖主要应用于泛互联网行业(40.7%)及传统行业的互联网场景(泛政务、金融、工业、医疗、汽车等),未来将向更多具有大数据和高价值属性的行业拓展。


三、产品学习指南

产品运维】OOM排查指南

OOM描述的是Query的内存消耗超出了系统的当时供给,系统做出的一种异常提示。有的系统在内存资源不足时会采用磁盘缓存的方式进行算子降级,Hologres为了保障查询的效率,默认所有算子都采用内存资源进行计算,因此会存在内存不足OOM的问题。本文将会介绍如何针对Hologres中出现的OOM问题进行排查并处理。


产品运维湖仓一体,Hologres加速云数据湖DLF技术原理解析

Hologres通过DLF-Access与DLF/OSS深度整合,充分利用Hologres和DLF/OSS的各自优势,以极致性能为目标,直接加速查询云数据湖数据,让用户更方便高效的进行交互式分析,同时也极大降低了分析成本,实现湖仓一体的分析能力。


最佳实践】使用Databricks进行零售业需求预测的应用实践

本文从零售业需求预测痛点、商店商品模型预测的实践演示,介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。


最佳实践】企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

本文介绍了如何使用阿里云的Confluent Cloud和Databricks来构建数据流和LakeHouse,并以出租车具体案例介绍如何使用Databricks提供的能力来挖掘数据价值,使用Spark MLlib构建机器学习模型。



了解更多阿里云大数据产品:https://www.aliyun.com/product/bigdata/apsarabigdata

了解更多阿里云AI产品:https://ai.aliyun.com

了解大数据&AI开源项目:https://www.aliyun.com/activity/bigdata/opensource_bigdata__ai

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
机器学习/深度学习 人工智能 TensorFlow
倚天产品介绍|倚天性能优化—YCL AI计算库在resnet50上的优化
Yitian710 作为平头哥第一代ARM通用芯片,在AI场景与X86相比,软件生态与推理性能都存在一定的短板,本文旨在通过倚天AI计算库的优化,打造适合ARM架构的软件平台,提升倚天性能
|
1月前
|
人工智能 安全 算法
AI与大数据:智慧城市安全的护航者与变革引擎
AI与大数据:智慧城市安全的护航者与变革引擎
23 1
|
1月前
|
机器学习/深度学习 人工智能 语音技术
阿里旗下通义系列AI产品有哪些?
【2月更文挑战第16天】阿里旗下通义系列AI产品有哪些?
370 2
阿里旗下通义系列AI产品有哪些?
|
13天前
|
机器学习/深度学习 人工智能 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第8天】Databricks在大数据分析和AI开发中表现出色,简化流程并提高效率。文中列举了三个应用场景:数据湖分析、实时流处理和AI机器学习,并阐述了Databricks的一体化平台、云原生弹性及企业级安全优势。博主认为,Databricks提升了研发效能,无缝集成Azure生态,并具有持续创新潜力,是应对大数据挑战和加速AI创新的理想工具。
37 0
|
1月前
|
人工智能 JavaScript API
互联网人的福利!『昆仑天工』4款AI产品开源!提供API对接!
互联网人的福利!『昆仑天工』4款AI产品开源!提供API对接!
170 0
|
1月前
|
人工智能 大数据 流计算
大数据&AI产品月刊【2024年2月】
大数据&AI产品技术月刊【2024年2月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
分布式计算 DataWorks BI
MaxCompute数据问题之运行报错如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 1

相关产品

  • 云原生大数据计算服务 MaxCompute