大数据&AI产品月刊【2022年7月】

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 大数据&AI产品技术月刊(2022年7月),涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

一、产品功能发布

【云原生大数据计算服务 MaxCompute 】新功能 - 支持在 DataWorks 公共表中查看外部数据源的元数据信息

支持在 DataWorks 公共表中查看外部数据源的元数据信息,使基于湖仓的数据开发人员方便查看外部数据源的表、字段和分区信息。


【云原生大数据计算服务 MaxCompute 】新功能 - 新增6个聚合函数

MaxCompute新增6个Bit和Map相关的聚合函数,更加便捷的进行数据分析统计。


【云原生大数据计算服务 MaxCompute 】新功能 - 新增3个窗口函数以及性能优化

MaxCompute新增三个新的窗口函数,以及对现有所有窗口函数做了性能调优。


【云原生大数据计算服务 MaxCompute 】新功能 - 新增支持在表级别设置split size参数

MaxCompute在表级别设置split size来控制并发度,提高计算性能。


【云原生大数据计算服务 MaxCompute 】新功能 - 支持Unload函数导出数据时自定义导出文件名的前后缀

MaxCompute支持用户使用Unload函数从MaxCompute导出数据到OSS时,自定义导出数据文件名的前缀和后缀。


【云原生大数据计算服务 MaxCompute 】新功能 - 新增一个正则函数

MaxCompute新增一个正则函数regexp_extract_all,提高数据处理效率。


【大数据开发治理平台 DataWorks 】新功能 - 智能数据建模支持查找视图及创建视图

支持用户在模型设计过程中直接引用已存在的视图字段及分区信息作为当前模型的字段,也支持在模型设计完成后将模型物化为视图。


【大数据开发治理平台 DataWorks 】新功能 - 智能数据建模支持表名关键词逆向生成模型

支持用户在逆向建模过程中,根据表名关键词模糊匹配,逆向生成逻辑模型,解决了企业希望将存量表进行建模线上化冷启动难的问题。


【大数据开发治理平台 DataWorks 】新功能 - 审批中心支持管控数据集成

审批中心支持用户基于“源端-目的端”的组合定义在“保存“或“运行“数据集成任务时必须触发审批,针对数据同步过程进行更加灵活的管控。


【大数据开发治理平台 DataWorks 】新功能 - 数据保护伞新增敏感数据血缘可视化图谱

数据保护伞基于数据的生产信息解析出敏感字段之间的血缘关系,自动绘制成敏感数据血缘可视化图谱。本功能仅限DataWorks企业版使用。


【大数据开发治理平台 DataWorks 】新功能 - 数据保护伞新增异常血缘关系分析功能

数据保护伞根据敏感字段的血缘关系、识别结果,自动分析异常血缘关系和异常识别结果,以防通过其他方式躲过敏感数据的识别审计。


【大数据开发治理平台 DataWorks 】新功能 - 数据治理中心支持任务360功能

提供任务的360全景功能,将任务关联的治理项问题、变更事件记录、影响基线、任务执行信息等关键信息进行集中展示,方便用户进行调度治理。


【大数据开发治理平台 DataWorks 】新功能  - 数据治理中心全面开放使用

数据治理中心在2022年7月5日全面开放使用,提供为期1个月的体验,2022年8月5日后,所有能力将在DataWorks企业版提供。


【实时数仓 Hologres 】体验优化 - 通过海光CPU生态兼容性认证

经过联合测试,实时数仓Hologres软件与海光3000、5000、7000系列CPU兼容性良好,可稳定、可靠、高性能地运行。


【实时数仓 Hologres 】新功能 - Worker级别监控指标透出,提升自诊断能力

Hologres Worker级别监控指标透出,帮助客户精准地定位问题,提高自诊断和自运维能力。


【检索分析服务 Elasticsearch版 】新功能 - 7.16版本发布增强功能TimeStream|基于云上全托管实现高性能低成本Metric管理和使用

支持TimeStream时序类型索引模型的操作,自动配置时序场景最佳实践;无缝对接Prometheus+Grafana。


【开源大数据平台 E-MapReduce 】新功能 - Doctor上线

及时掌握集群健康状况,降低集群运维的成本;了解集群资源的使用和分配状况,合理进行作业资源配置,提高集群硬件资源的利用率。


【开源大数据平台 E-MapReduce 】新功能 - DataWorks支持EMR DataLake集群

DataWorks支持基于EMR创建Hive、MR、Presto和Spark SQL等节点,实现EMR任务工作流的配置、调度等功能。


【实时计算 Flink版】新功能 - MySQL CDC 相关升级

同步Flink CDC社区2.2版本,支持社区2.2版本提供的全部功能和Bugfix等。


【实时计算 Flink版】新功能 - Session集群增强停止能力

请勿将生产作业提交到Session集群运行。Session集群异常导致作业无法操作的问题,我们通过强制停止能力来停止Session。


【实时计算 Flink版】新功能 - 内置阿里云文档

我们将阿里云帮助中心的文档内置在Flink全托管的开发页面内,您可以直接在Flink全托管开发控制台唤起帮助文档,避免来回跳转。


【实时计算 Flink版】新功能  - JM异常智能分析

异常日志可以被存储更长时间,同时对异常日志进行了分类,协助您更好的定位到作业的异常原因。


【图计算服务 Graph Compute 】新版本/新规格 - 增加多种小规模的集群

成本优化:支持调整最小规模,入门款2616元/月,折合3.6元/时;图计算商业化活动为期一年,产品活动价进行六折促销。


【机器学习 PAI 】新地域/可用区 - DLC 专有资源组在华东1(杭州)正式开服

开放区域:华北2(北京),华东1(杭州),华东2(上海)。


【机器学习 PAI 】新地域/可用区 - Designer在印度(孟买)、美国(弗吉尼亚)正式开服

PAI-Designer在印度(孟买)、美国(弗吉尼亚)正式开服,用户可以在PAI控制台上选择对应region创建工作空间后使用。


【机器学习 PAI 】新功能 - Designer新增多种可视化分析能力

PAI-Designer本次发布提供Tensorboard可视化分析能力,且在可视化大屏新增特征重要性评估、相关性分析、散点图功能。


【机器学习 PAI 】新功能 - EAS-benchmark服务自动压测功能发布

EAS-benchmark是一个分布式通用压测工具,支持用户对EAS部署的预测服务创建压测任务进行一键压测。


【智能推荐 AIRec 】新版本/新规格 - 运营版开放售卖-支持完整的推荐算法链路并搭配易用的运营工具

智能推荐推出运营版服务类型,方便开发者开箱即用行业算法模板,并搭配丰富的运营工具快速完成推荐场景定制。


【智能开放搜索 OpenSearch 】新功能 - 英文查询分析功能上线

智能开放搜索推出英文查询分析功能,支持同义词、拼写纠错、实体识别、停用词等功能,智能理解用户搜索意图,提升英文搜索效果。


【智能开放搜索 OpenSearch 】新功能 - 电商行业模板新增英文通用垂类

智能开放搜索电商行业模板新增英文通用垂类,支持丰富的英文分词、用户语义理解、智能排序等功能,方便英文搜索场景快速接入使用。


【企业数据云平台】- CDP控制台上线

阿里云CDP 企业数据云平台正式上线控制台,支持一键部署CDP集群,开箱即用并提供正版License。支持包年包月按需购买,更有ECS全系列大数据机型灵活选择。CDH、HDP 用户可快速迁移,阿里云和Cloudera 共同提供升级方案及迁移手册,助力平滑迁移。


二、产品快讯

瓜分30万奖金!DeepRec CTR模型性能优化天池挑战赛来啦

DeepRec CTR模型性能优化天池挑战赛已在阿里云天池平台正式上线!此次DeepRec CTR模型性能优化挑战赛诚邀广大开发者参赛!借助本次大赛,在DeepRec中沉淀CTR模型新的优化思路和优化方向,共享经验成果,指导和推动实际工业实际场景中点击率预估模型的训练效率的提升!


Beyond Stream Processing !第四届实时计算 Flink 挑战赛启动,49 万奖金等你来拿!

今年,Beyond Stream Processing——第四届实时计算 Flink 挑战赛正式启动!阿里云将携手英特尔启用全新的 Hackathon 模式举办此次比赛,采用开放式命题形式,旨在探索 Flink 在应用实践中的更多可能性。实时计算Flink挑战赛,49万奖金等你来拿,快来报名吧。


国内唯一!阿里云机器学习平台PAI同时入选Gartner两项权威报告

日前,国际权威研究机构 Gartner 连续发布两份 AI 领域研究报告,阿里云机器学习平台 PAI 蝉联上榜。在2022年数据科学与机器学习平台市场指南(2022 Gartner Market Guide for Data Science & Machine Learning Platforms)报告中,阿里云凭借机器学习平台 PAI 入选工程平台和多角色平台两个方向的代表厂商,成为国内唯一连续入选该报告的厂商。


首个先进级!阿里云大数据+AI平台通过信通院数据平台整体解决方案最高等级评测

近日,在中国信通院组织的第十四批“可信大数据”产品能力评测中,阿里云计算有限公司顺利完成了首个数据平台整体解决方案评测,达到最高等级先进级(3级)。该评测依据 《集成化大数据平台能力分级要求》进行,共涉及10个能力域,44个能力项和577项技术要求。全方位覆盖大数据平台的数据存储、数据集成、数据管理与治理、数据开发、数据处理及分析、数据服务、高可用、平台管理、系统运维、数据安全等能力。


EasyNLP中文文图生成模型带你秒变艺术家

本次,EasyNLP开源框架再次迎来大升级,集成了先进的文图生成架构Transformer+VQGAN,同时,向开源社区免费开放不同参数量的中文文图生成模型的Checkpoint,以及相应Fine-tune和推理接口。用户可以在我们开放的Checkpoint基础上进行少量领域相关的微调,在不消耗大量计算资源的情况下,就能一键进行各种艺术创作。

image.png


阿里云机器学习平台PAI论文高效大模型训练框架Whale入选USENIX ATC'22

近日,阿里云机器学习平台PAI主导的论文《Whale: Efficient Giant Model Training over Heterogeneous GPUs》,高效大模型训练框架Whale入选USENIX ATC'22。Whale通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位的优化,来提供易用、高效的分布式训练框架。此次入选意味着阿里云机器学习平台PAI自研的深度学习分布式模型训练系统达到了全球业界先进水平,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。


阿里云PAI与华东师范大学论文入选SIGIR 2022,提出面向长代码序列的Transformer模型优化方法

近日,阿里云机器学习平台PAI与华东师范大学高明教授团队合作的论文《结构感知的稀疏注意力Transformer模型SASA》被顶会 SIGIR 2022录取。论文主导通过引入稀疏自注意力的方式来提高Transformer模型处理长序列的效率和性能,并提出了结合代码语言和结构特性的面向长代码序列的Transformer模型性能优化方法。此次入选意味着阿里云机器学习平台PAI自研的稀疏注意力Transformer模型达到了业界先进水平,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。


三、产品学习指南

基于ELK+Flink日志全观测最佳实践

本文主要通过对日志全观测场景及技术痛点剖析、基于ELK+Flink的场景化方案能力解读、以及日志全观测解决方案客户案例解析来进行分享。


StarRocks X Flink CDC,打造端到端实时链路

本文主要介绍通过 StarRocks 结合 Flink 构建开源实时数仓的方案,可以同时提供秒级数据同步和极速分析查询的能力。同时,通过 StarRocks 主键模型,也可以更好地支持实时和频繁更新等场景。


阿里云云原生一体化数仓 — 湖仓一体新能力解读

本文主要介绍如何通过湖仓一体,打通 MaxCompute 与 Hadoop、DLF/OSS 数据湖,以及 Hologres、MySQL 等数据平台,并通过 DataWorks 做统一数据开发和治理。


免费下载!《Databricks数据洞察:从入门到实践》

本书从技术基础介绍到场景应用实践,帮助读者入门数据湖Lakehouse以及部分spark相关应用。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7天前
|
人工智能 前端开发 小程序
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
|
4天前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
17 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
11天前
|
人工智能 Serverless API
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
75 8
《智能导购 AI 助手构建》解决方案评测:极具吸引力的产品,亟待完善的教程文档
|
11天前
|
存储 人工智能 数据管理
|
7天前
|
人工智能 分布式计算 数据处理
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
|
4天前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
在生成式AI的浪潮中,数据的重要性日益凸显。大模型在实际业务场景的落地过程中,必须有海量数据的支撑:经过训练、推理和分析等一系列复杂的数据处理过程,才能最终产生业务价值。事实上,大模型本身就是数据处理后的产物,以数据驱动的决策与创新需要通过更智能的平台解决数据多模处理、实时分析等问题,这正是以阿里云为代表的企业推动 “Data+AI”融合战略的核心动因。
|
4天前
|
人工智能 运维 监控
阿里云Milvus产品发布:AI时代云原生专业向量检索引擎
随着大模型和生成式AI的兴起,非结构化数据市场迅速增长,预计2027年占比将达到86.8%。Milvus作为开源向量检索引擎,具备极速检索、云原生弹性及社区支持等优势,成为全球最受欢迎的向量数据库之一。阿里云推出的全托管Milvus产品,优化性能3-10倍,提供企业级功能如Serverless服务、分钟级开通、高可用性和成本降低30%,助力企业在电商、广告推荐、自动驾驶等场景下加速AI应用构建,显著提升业务价值和稳定性。
|
16天前
|
数据采集 人工智能 分布式计算
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
探索 MaxCompute MaxFrame:AI 数据预处理的高效之选
|
18天前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
76 0