大数据&AI产品月刊【2022年7月】

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 大数据&AI产品技术月刊(2022年7月),涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

一、产品功能发布

【云原生大数据计算服务 MaxCompute 】新功能 - 支持在 DataWorks 公共表中查看外部数据源的元数据信息

支持在 DataWorks 公共表中查看外部数据源的元数据信息,使基于湖仓的数据开发人员方便查看外部数据源的表、字段和分区信息。


【云原生大数据计算服务 MaxCompute 】新功能 - 新增6个聚合函数

MaxCompute新增6个Bit和Map相关的聚合函数,更加便捷的进行数据分析统计。


【云原生大数据计算服务 MaxCompute 】新功能 - 新增3个窗口函数以及性能优化

MaxCompute新增三个新的窗口函数,以及对现有所有窗口函数做了性能调优。


【云原生大数据计算服务 MaxCompute 】新功能 - 新增支持在表级别设置split size参数

MaxCompute在表级别设置split size来控制并发度,提高计算性能。


【云原生大数据计算服务 MaxCompute 】新功能 - 支持Unload函数导出数据时自定义导出文件名的前后缀

MaxCompute支持用户使用Unload函数从MaxCompute导出数据到OSS时,自定义导出数据文件名的前缀和后缀。


【云原生大数据计算服务 MaxCompute 】新功能 - 新增一个正则函数

MaxCompute新增一个正则函数regexp_extract_all,提高数据处理效率。


【大数据开发治理平台 DataWorks 】新功能 - 智能数据建模支持查找视图及创建视图

支持用户在模型设计过程中直接引用已存在的视图字段及分区信息作为当前模型的字段,也支持在模型设计完成后将模型物化为视图。


【大数据开发治理平台 DataWorks 】新功能 - 智能数据建模支持表名关键词逆向生成模型

支持用户在逆向建模过程中,根据表名关键词模糊匹配,逆向生成逻辑模型,解决了企业希望将存量表进行建模线上化冷启动难的问题。


【大数据开发治理平台 DataWorks 】新功能 - 审批中心支持管控数据集成

审批中心支持用户基于“源端-目的端”的组合定义在“保存“或“运行“数据集成任务时必须触发审批,针对数据同步过程进行更加灵活的管控。


【大数据开发治理平台 DataWorks 】新功能 - 数据保护伞新增敏感数据血缘可视化图谱

数据保护伞基于数据的生产信息解析出敏感字段之间的血缘关系,自动绘制成敏感数据血缘可视化图谱。本功能仅限DataWorks企业版使用。


【大数据开发治理平台 DataWorks 】新功能 - 数据保护伞新增异常血缘关系分析功能

数据保护伞根据敏感字段的血缘关系、识别结果,自动分析异常血缘关系和异常识别结果,以防通过其他方式躲过敏感数据的识别审计。


【大数据开发治理平台 DataWorks 】新功能 - 数据治理中心支持任务360功能

提供任务的360全景功能,将任务关联的治理项问题、变更事件记录、影响基线、任务执行信息等关键信息进行集中展示,方便用户进行调度治理。


【大数据开发治理平台 DataWorks 】新功能  - 数据治理中心全面开放使用

数据治理中心在2022年7月5日全面开放使用,提供为期1个月的体验,2022年8月5日后,所有能力将在DataWorks企业版提供。


【实时数仓 Hologres 】体验优化 - 通过海光CPU生态兼容性认证

经过联合测试,实时数仓Hologres软件与海光3000、5000、7000系列CPU兼容性良好,可稳定、可靠、高性能地运行。


【实时数仓 Hologres 】新功能 - Worker级别监控指标透出,提升自诊断能力

Hologres Worker级别监控指标透出,帮助客户精准地定位问题,提高自诊断和自运维能力。


【检索分析服务 Elasticsearch版 】新功能 - 7.16版本发布增强功能TimeStream|基于云上全托管实现高性能低成本Metric管理和使用

支持TimeStream时序类型索引模型的操作,自动配置时序场景最佳实践;无缝对接Prometheus+Grafana。


【开源大数据平台 E-MapReduce 】新功能 - Doctor上线

及时掌握集群健康状况,降低集群运维的成本;了解集群资源的使用和分配状况,合理进行作业资源配置,提高集群硬件资源的利用率。


【开源大数据平台 E-MapReduce 】新功能 - DataWorks支持EMR DataLake集群

DataWorks支持基于EMR创建Hive、MR、Presto和Spark SQL等节点,实现EMR任务工作流的配置、调度等功能。


【实时计算 Flink版】新功能 - MySQL CDC 相关升级

同步Flink CDC社区2.2版本,支持社区2.2版本提供的全部功能和Bugfix等。


【实时计算 Flink版】新功能 - Session集群增强停止能力

请勿将生产作业提交到Session集群运行。Session集群异常导致作业无法操作的问题,我们通过强制停止能力来停止Session。


【实时计算 Flink版】新功能 - 内置阿里云文档

我们将阿里云帮助中心的文档内置在Flink全托管的开发页面内,您可以直接在Flink全托管开发控制台唤起帮助文档,避免来回跳转。


【实时计算 Flink版】新功能  - JM异常智能分析

异常日志可以被存储更长时间,同时对异常日志进行了分类,协助您更好的定位到作业的异常原因。


【图计算服务 Graph Compute 】新版本/新规格 - 增加多种小规模的集群

成本优化:支持调整最小规模,入门款2616元/月,折合3.6元/时;图计算商业化活动为期一年,产品活动价进行六折促销。


【机器学习 PAI 】新地域/可用区 - DLC 专有资源组在华东1(杭州)正式开服

开放区域:华北2(北京),华东1(杭州),华东2(上海)。


【机器学习 PAI 】新地域/可用区 - Designer在印度(孟买)、美国(弗吉尼亚)正式开服

PAI-Designer在印度(孟买)、美国(弗吉尼亚)正式开服,用户可以在PAI控制台上选择对应region创建工作空间后使用。


【机器学习 PAI 】新功能 - Designer新增多种可视化分析能力

PAI-Designer本次发布提供Tensorboard可视化分析能力,且在可视化大屏新增特征重要性评估、相关性分析、散点图功能。


【机器学习 PAI 】新功能 - EAS-benchmark服务自动压测功能发布

EAS-benchmark是一个分布式通用压测工具,支持用户对EAS部署的预测服务创建压测任务进行一键压测。


【智能推荐 AIRec 】新版本/新规格 - 运营版开放售卖-支持完整的推荐算法链路并搭配易用的运营工具

智能推荐推出运营版服务类型,方便开发者开箱即用行业算法模板,并搭配丰富的运营工具快速完成推荐场景定制。


【智能开放搜索 OpenSearch 】新功能 - 英文查询分析功能上线

智能开放搜索推出英文查询分析功能,支持同义词、拼写纠错、实体识别、停用词等功能,智能理解用户搜索意图,提升英文搜索效果。


【智能开放搜索 OpenSearch 】新功能 - 电商行业模板新增英文通用垂类

智能开放搜索电商行业模板新增英文通用垂类,支持丰富的英文分词、用户语义理解、智能排序等功能,方便英文搜索场景快速接入使用。


【企业数据云平台】- CDP控制台上线

阿里云CDP 企业数据云平台正式上线控制台,支持一键部署CDP集群,开箱即用并提供正版License。支持包年包月按需购买,更有ECS全系列大数据机型灵活选择。CDH、HDP 用户可快速迁移,阿里云和Cloudera 共同提供升级方案及迁移手册,助力平滑迁移。


二、产品快讯

瓜分30万奖金!DeepRec CTR模型性能优化天池挑战赛来啦

DeepRec CTR模型性能优化天池挑战赛已在阿里云天池平台正式上线!此次DeepRec CTR模型性能优化挑战赛诚邀广大开发者参赛!借助本次大赛,在DeepRec中沉淀CTR模型新的优化思路和优化方向,共享经验成果,指导和推动实际工业实际场景中点击率预估模型的训练效率的提升!


Beyond Stream Processing !第四届实时计算 Flink 挑战赛启动,49 万奖金等你来拿!

今年,Beyond Stream Processing——第四届实时计算 Flink 挑战赛正式启动!阿里云将携手英特尔启用全新的 Hackathon 模式举办此次比赛,采用开放式命题形式,旨在探索 Flink 在应用实践中的更多可能性。实时计算Flink挑战赛,49万奖金等你来拿,快来报名吧。


国内唯一!阿里云机器学习平台PAI同时入选Gartner两项权威报告

日前,国际权威研究机构 Gartner 连续发布两份 AI 领域研究报告,阿里云机器学习平台 PAI 蝉联上榜。在2022年数据科学与机器学习平台市场指南(2022 Gartner Market Guide for Data Science & Machine Learning Platforms)报告中,阿里云凭借机器学习平台 PAI 入选工程平台和多角色平台两个方向的代表厂商,成为国内唯一连续入选该报告的厂商。


首个先进级!阿里云大数据+AI平台通过信通院数据平台整体解决方案最高等级评测

近日,在中国信通院组织的第十四批“可信大数据”产品能力评测中,阿里云计算有限公司顺利完成了首个数据平台整体解决方案评测,达到最高等级先进级(3级)。该评测依据 《集成化大数据平台能力分级要求》进行,共涉及10个能力域,44个能力项和577项技术要求。全方位覆盖大数据平台的数据存储、数据集成、数据管理与治理、数据开发、数据处理及分析、数据服务、高可用、平台管理、系统运维、数据安全等能力。


EasyNLP中文文图生成模型带你秒变艺术家

本次,EasyNLP开源框架再次迎来大升级,集成了先进的文图生成架构Transformer+VQGAN,同时,向开源社区免费开放不同参数量的中文文图生成模型的Checkpoint,以及相应Fine-tune和推理接口。用户可以在我们开放的Checkpoint基础上进行少量领域相关的微调,在不消耗大量计算资源的情况下,就能一键进行各种艺术创作。

image.png


阿里云机器学习平台PAI论文高效大模型训练框架Whale入选USENIX ATC'22

近日,阿里云机器学习平台PAI主导的论文《Whale: Efficient Giant Model Training over Heterogeneous GPUs》,高效大模型训练框架Whale入选USENIX ATC'22。Whale通过对不同并行化策略进行统一抽象、封装,在一套分布式训练框架中支持多种并行策略,并进行显存、计算、通信等全方位的优化,来提供易用、高效的分布式训练框架。此次入选意味着阿里云机器学习平台PAI自研的深度学习分布式模型训练系统达到了全球业界先进水平,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。


阿里云PAI与华东师范大学论文入选SIGIR 2022,提出面向长代码序列的Transformer模型优化方法

近日,阿里云机器学习平台PAI与华东师范大学高明教授团队合作的论文《结构感知的稀疏注意力Transformer模型SASA》被顶会 SIGIR 2022录取。论文主导通过引入稀疏自注意力的方式来提高Transformer模型处理长序列的效率和性能,并提出了结合代码语言和结构特性的面向长代码序列的Transformer模型性能优化方法。此次入选意味着阿里云机器学习平台PAI自研的稀疏注意力Transformer模型达到了业界先进水平,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。


三、产品学习指南

基于ELK+Flink日志全观测最佳实践

本文主要通过对日志全观测场景及技术痛点剖析、基于ELK+Flink的场景化方案能力解读、以及日志全观测解决方案客户案例解析来进行分享。


StarRocks X Flink CDC,打造端到端实时链路

本文主要介绍通过 StarRocks 结合 Flink 构建开源实时数仓的方案,可以同时提供秒级数据同步和极速分析查询的能力。同时,通过 StarRocks 主键模型,也可以更好地支持实时和频繁更新等场景。


阿里云云原生一体化数仓 — 湖仓一体新能力解读

本文主要介绍如何通过湖仓一体,打通 MaxCompute 与 Hadoop、DLF/OSS 数据湖,以及 Hologres、MySQL 等数据平台,并通过 DataWorks 做统一数据开发和治理。


免费下载!《Databricks数据洞察:从入门到实践》

本书从技术基础介绍到场景应用实践,帮助读者入门数据湖Lakehouse以及部分spark相关应用。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4天前
|
人工智能 DataWorks 大数据
大数据AI一体化开发再加速:DataWorks 支持GPU类型资源
大数据开发治理平台 DataWorks 的Serverless资源组支持GPU资源类型,以免运维、按需付费、弹性伸缩的Serverless架构,将大数据处理与AI开发能力无缝融合。面向大数据&AI协同开发场景,DataWorks提供了交互式开发和分析工具Notebook。开发者在创建个人开发环境时,可以选择GPU类型的资源作为Notebook运行环境,以支持进行高性能的计算工作。本教程将基于开源多模态大模型Qwen2-VL-2B-Instruct,介绍如何使用 DataWorks Notebook及LLaMA Factory训练框架完成文旅领域大模型的构建。
57 24
|
11天前
|
人工智能 JavaScript 搜索推荐
宜搭融合 DeepSeek R1 满血版!手把手教你玩转低代码 AI 产品
AI技术的迅猛发展,特别是DeepSeek的推出,为企业带来了前所未有的智能化体验。当低代码平台与AI技术结合时,迸发出丰富的应用场景。本文详细介绍如何通过宜搭平台使用DeepSeek,涵盖网页版、AI助理版、AI生成组件、连接器等功能,帮助用户轻松实现智能化业务系统。
312 7
宜搭融合 DeepSeek R1 满血版!手把手教你玩转低代码 AI 产品
|
7天前
|
存储 人工智能 JSON
用 SAP ABAP 接入国内 AI 产品通用接口技术指南 1、调用AI接口
SAP 系统与国内先进的 AI 产品(如百度文心一言、阿里通义千问、字节跳动云雀模型、华为盘古大模型、豆包、Deepsheek 等)集成通用接口技术指南
|
1月前
|
人工智能 算法 测试技术
AI 研发产品进化论:从 AI 编码助手到 AI 程序员
本次分享由阿里云资深技术专家陈鑫主讲,主题为“AI研发产品进化论:从AI编码助手到AI程序员”。内容涵盖通义灵码在落地过程中的挑战与突破,包括精准度提升、企业级检索增强、自定义扩展及智能体的应用。通过全工程理解、个性化适配和智能体的引入,通义灵码已实现代码补全、单元测试生成、缺陷修复等核心功能,并显著提升了开发者的工作效率。目前,通义灵码已在Vs Code和JetBrains插件市场上获得超过500万次下载,月均采纳率超过30%,并持续优化中。
97 9
|
1月前
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
90 7
|
1月前
|
人工智能 IDE 程序员
从 AI Coding 演进路径看通义灵码 AI 程序员的发布,让更多 idea 变成产品
通义灵码 2.0 不仅正式发布 AI 程序员,还升级了很多基础能力,使用场景多样。繁星计划的推出更为大学生提供了免费的智能编码助手,助力科技创新。让不具备编码能力的人也可以将 idea 变成产品,帮助到更多开发者和泛开发者。
|
1月前
|
人工智能 算法 搜索推荐
云端问道11期方案教学-创建专属AI助手-阿里云百炼产品能力分享
阿里云百炼产品能力分享旨在帮助用户深入了解百炼的核心功能,并快速将大模型与系统结合。主要内容包括:1. 百炼的产品定位和能力简介,涵盖模型推理、应用搭建等;2. 知识检索RAG智能体的应用能力和优势,介绍其高效构建知识库的步骤及常见问题;3. 最佳落地案例实践,如宠物行业AI助手和产业分析类互联网企业的Copilot机器人。通过这些内容,用户可以全面掌握百炼在实际业务中的应用方法和效果。
|
24天前
|
人工智能 自然语言处理 搜索推荐
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
116 24
【上篇】-分两篇步骤介绍-如何用topview生成和自定义数字人-关于AI的使用和应用-如何生成数字人-优雅草卓伊凡-如何生成AI数字人
|
18天前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
1181 14
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
15天前
|
人工智能 开发框架 数据可视化
Eino:字节跳动开源基于Golang的AI应用开发框架,组件化设计助力构建AI应用
Eino 是字节跳动开源的大模型应用开发框架,帮助开发者高效构建基于大模型的 AI 应用。支持组件化设计、流式处理和可视化开发工具。
177 27