一、产品功能发布
【云原生大数据计算服务 MaxCompute 】新功能 - 支持在 DataWorks 公共表中查看外部数据源的元数据信息
支持在 DataWorks 公共表中查看外部数据源的元数据信息,使基于湖仓的数据开发人员方便查看外部数据源的表、字段和分区信息。
【云原生大数据计算服务 MaxCompute 】新功能 - 新增6个聚合函数
MaxCompute新增6个Bit和Map相关的聚合函数,更加便捷的进行数据分析统计。
【云原生大数据计算服务 MaxCompute 】新功能 - 新增3个窗口函数以及性能优化
MaxCompute新增三个新的窗口函数,以及对现有所有窗口函数做了性能调优。
【云原生大数据计算服务 MaxCompute 】新功能 - 新增支持在表级别设置split size参数
MaxCompute在表级别设置split size来控制并发度,提高计算性能。
【云原生大数据计算服务 MaxCompute 】新功能 - 支持Unload函数导出数据时自定义导出文件名的前后缀
MaxCompute支持用户使用Unload函数从MaxCompute导出数据到OSS时,自定义导出数据文件名的前缀和后缀。
【云原生大数据计算服务 MaxCompute 】新功能 - 新增一个正则函数
MaxCompute新增一个正则函数regexp_extract_all,提高数据处理效率。
【大数据开发治理平台 DataWorks 】新功能 - 智能数据建模支持查找视图及创建视图
支持用户在模型设计过程中直接引用已存在的视图字段及分区信息作为当前模型的字段,也支持在模型设计完成后将模型物化为视图。
【大数据开发治理平台 DataWorks 】新功能 - 智能数据建模支持表名关键词逆向生成模型
支持用户在逆向建模过程中,根据表名关键词模糊匹配,逆向生成逻辑模型,解决了企业希望将存量表进行建模线上化冷启动难的问题。
【大数据开发治理平台 DataWorks 】新功能 - 审批中心支持管控数据集成
审批中心支持用户基于“源端-目的端”的组合定义在“保存“或“运行“数据集成任务时必须触发审批,针对数据同步过程进行更加灵活的管控。
【大数据开发治理平台 DataWorks 】新功能 - 数据保护伞新增敏感数据血缘可视化图谱
数据保护伞基于数据的生产信息解析出敏感字段之间的血缘关系,自动绘制成敏感数据血缘可视化图谱。本功能仅限DataWorks企业版使用。
【大数据开发治理平台 DataWorks 】新功能 - 数据保护伞新增异常血缘关系分析功能
数据保护伞根据敏感字段的血缘关系、识别结果,自动分析异常血缘关系和异常识别结果,以防通过其他方式躲过敏感数据的识别审计。
【大数据开发治理平台 DataWorks 】新功能 - 数据治理中心支持任务360功能
提供任务的360全景功能,将任务关联的治理项问题、变更事件记录、影响基线、任务执行信息等关键信息进行集中展示,方便用户进行调度治理。
【大数据开发治理平台 DataWorks 】新功能 - 数据治理中心全面开放使用
数据治理中心在2022年7月5日全面开放使用,提供为期1个月的体验,2022年8月5日后,所有能力将在DataWorks企业版提供。
【实时数仓 Hologres 】体验优化 - 通过海光CPU生态兼容性认证
经过联合测试,实时数仓Hologres软件与海光3000、5000、7000系列CPU兼容性良好,可稳定、可靠、高性能地运行。
【实时数仓 Hologres 】新功能 - Worker级别监控指标透出,提升自诊断能力
Hologres Worker级别监控指标透出,帮助客户精准地定位问题,提高自诊断和自运维能力。
【检索分析服务 Elasticsearch版 】新功能 - 7.16版本发布增强功能TimeStream|基于云上全托管实现高性能低成本Metric管理和使用
支持TimeStream时序类型索引模型的操作,自动配置时序场景最佳实践;无缝对接Prometheus+Grafana。
【开源大数据平台 E-MapReduce 】新功能 - Doctor上线
及时掌握集群健康状况,降低集群运维的成本;了解集群资源的使用和分配状况,合理进行作业资源配置,提高集群硬件资源的利用率。
【开源大数据平台 E-MapReduce 】新功能 - DataWorks支持EMR DataLake集群
DataWorks支持基于EMR创建Hive、MR、Presto和Spark SQL等节点,实现EMR任务工作流的配置、调度等功能。
【实时计算 Flink版】新功能 - MySQL CDC 相关升级
同步Flink CDC社区2.2版本,支持社区2.2版本提供的全部功能和Bugfix等。
【实时计算 Flink版】新功能 - Session集群增强停止能力
请勿将生产作业提交到Session集群运行。Session集群异常导致作业无法操作的问题,我们通过强制停止能力来停止Session。
我们将阿里云帮助中心的文档内置在Flink全托管的开发页面内,您可以直接在Flink全托管开发控制台唤起帮助文档,避免来回跳转。
异常日志可以被存储更长时间,同时对异常日志进行了分类,协助您更好的定位到作业的异常原因。
【图计算服务 Graph Compute 】新版本/新规格 - 增加多种小规模的集群
成本优化:支持调整最小规模,入门款2616元/月,折合3.6元/时;图计算商业化活动为期一年,产品活动价进行六折促销。
【机器学习 PAI 】新地域/可用区 - DLC 专有资源组在华东1(杭州)正式开服
开放区域:华北2(北京),华东1(杭州),华东2(上海)。
【机器学习 PAI 】新地域/可用区 - Designer在印度(孟买)、美国(弗吉尼亚)正式开服
PAI-Designer在印度(孟买)、美国(弗吉尼亚)正式开服,用户可以在PAI控制台上选择对应region创建工作空间后使用。
【机器学习 PAI 】新功能 - Designer新增多种可视化分析能力
PAI-Designer本次发布提供Tensorboard可视化分析能力,且在可视化大屏新增特征重要性评估、相关性分析、散点图功能。
【机器学习 PAI 】新功能 - EAS-benchmark服务自动压测功能发布
EAS-benchmark是一个分布式通用压测工具,支持用户对EAS部署的预测服务创建压测任务进行一键压测。
【智能推荐 AIRec 】新版本/新规格 - 运营版开放售卖-支持完整的推荐算法链路并搭配易用的运营工具
智能推荐推出运营版服务类型,方便开发者开箱即用行业算法模板,并搭配丰富的运营工具快速完成推荐场景定制。
【智能开放搜索 OpenSearch 】新功能 - 英文查询分析功能上线
智能开放搜索推出英文查询分析功能,支持同义词、拼写纠错、实体识别、停用词等功能,智能理解用户搜索意图,提升英文搜索效果。
【智能开放搜索 OpenSearch 】新功能 - 电商行业模板新增英文通用垂类
智能开放搜索电商行业模板新增英文通用垂类,支持丰富的英文分词、用户语义理解、智能排序等功能,方便英文搜索场景快速接入使用。
阿里云CDP 企业数据云平台正式上线控制台,支持一键部署CDP集群,开箱即用并提供正版License。支持包年包月按需购买,更有ECS全系列大数据机型灵活选择。CDH、HDP 用户可快速迁移,阿里云和Cloudera 共同提供升级方案及迁移手册,助力平滑迁移。
二、产品快讯
瓜分30万奖金!DeepRec CTR模型性能优化天池挑战赛来啦
DeepRec CTR模型性能优化天池挑战赛已在阿里云天池平台正式上线!此次DeepRec CTR模型性能优化挑战赛诚邀广大开发者参赛!借助本次大赛,在DeepRec中沉淀CTR模型新的优化思路和优化方向,共享经验成果,指导和推动实际工业实际场景中点击率预估模型的训练效率的提升!
Beyond Stream Processing !第四届实时计算 Flink 挑战赛启动,49 万奖金等你来拿!
今年,Beyond Stream Processing——第四届实时计算 Flink 挑战赛正式启动!阿里云将携手英特尔启用全新的 Hackathon 模式举办此次比赛,采用开放式命题形式,旨在探索 Flink 在应用实践中的更多可能性。实时计算Flink挑战赛,49万奖金等你来拿,快来报名吧。
国内唯一!阿里云机器学习平台PAI同时入选Gartner两项权威报告
日前,国际权威研究机构 Gartner 连续发布两份 AI 领域研究报告,阿里云机器学习平台 PAI 蝉联上榜。在2022年数据科学与机器学习平台市场指南(2022 Gartner Market Guide for Data Science & Machine Learning Platforms)报告中,阿里云凭借机器学习平台 PAI 入选工程平台和多角色平台两个方向的代表厂商,成为国内唯一连续入选该报告的厂商。
首个先进级!阿里云大数据+AI平台通过信通院数据平台整体解决方案最高等级评测
近日,在中国信通院组织的第十四批“可信大数据”产品能力评测中,阿里云计算有限公司顺利完成了首个数据平台整体解决方案评测,达到最高等级先进级(3级)。该评测依据 《集成化大数据平台能力分级要求》进行,共涉及10个能力域,44个能力项和577项技术要求。全方位覆盖大数据平台的数据存储、数据集成、数据管理与治理、数据开发、数据处理及分析、数据服务、高可用、平台管理、系统运维、数据安全等能力。
本次,EasyNLP开源框架再次迎来大升级,集成了先进的文图生成架构Transformer+VQGAN,同时,向开源社区免费开放不同参数量的中文文图生成模型的Checkpoint,以及相应Fine-tune和推理接口。用户可以在我们开放的Checkpoint基础上进行少量领域相关的微调,在不消耗大量计算资源的情况下,就能一键进行各种艺术创作。
阿里云机器学习平台PAI论文高效大模型训练框架Whale入选USENIX ATC'22
近日,阿里云机器学习平台PAI主导的论文《Whale: Efficient Giant Model Training over Heterogeneous GPUs》,高效大模型训练框架Whale入选USENIX ATC'22。Whale通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位的优化,来提供易用、高效的分布式训练框架。此次入选意味着阿里云机器学习平台PAI自研的深度学习分布式模型训练系统达到了全球业界先进水平,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。
阿里云PAI与华东师范大学论文入选SIGIR 2022,提出面向长代码序列的Transformer模型优化方法
近日,阿里云机器学习平台PAI与华东师范大学高明教授团队合作的论文《结构感知的稀疏注意力Transformer模型SASA》被顶会 SIGIR 2022录取。论文主导通过引入稀疏自注意力的方式来提高Transformer模型处理长序列的效率和性能,并提出了结合代码语言和结构特性的面向长代码序列的Transformer模型性能优化方法。此次入选意味着阿里云机器学习平台PAI自研的稀疏注意力Transformer模型达到了业界先进水平,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。
三、产品学习指南
本文主要通过对日志全观测场景及技术痛点剖析、基于ELK+Flink的场景化方案能力解读、以及日志全观测解决方案客户案例解析来进行分享。
StarRocks X Flink CDC,打造端到端实时链路
本文主要介绍通过 StarRocks 结合 Flink 构建开源实时数仓的方案,可以同时提供秒级数据同步和极速分析查询的能力。同时,通过 StarRocks 主键模型,也可以更好地支持实时和频繁更新等场景。
本文主要介绍如何通过湖仓一体,打通 MaxCompute 与 Hadoop、DLF/OSS 数据湖,以及 Hologres、MySQL 等数据平台,并通过 DataWorks 做统一数据开发和治理。
本书从技术基础介绍到场景应用实践,帮助读者入门数据湖Lakehouse以及部分spark相关应用。