大数据&AI产品月刊【2023年7月】

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 大数据&AI产品技术月刊(2023年7月),涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

一、产品功能发布

【云原生大数据计算服务 MaxCompute】新功能 -新增7个内建复杂类型函数

MaxCompute新增7个内建复杂类型函数,简化用户对数组的操作,提高开发效率。

【云原生大数据计算服务 MaxCompute】新功能 -新增Transaction Table2.0表类型

MaxCompute新增Transaction Table2.0表类型,做到分钟级别的数据同步入仓,支持增量查询与历史版本数据查询。

【云原生大数据计算服务 MaxCompute】新功能 -新增列数据清空功能

MaxCompute支持用户清空指定表或者分区的列数据,节省存储空间。

【云原生大数据计算服务 MaxCompute】新功能 -增强数据写入时Zorder功能

MaxCompute增强Zorder功能,支持数据写入时全局进行统一排序,减少数据扫描量,提高计算性能。

【云原生大数据计算服务 MaxCompute】新功能 -新增Json数据类型

新增Json数据类型,MaxCompute支持写入Json数据类型时,自动优化存储,提高Json数据计算分析性能。

【大数据开发治理平台 DataWorks】新地域/可用区 -数据治理中心发布华北2、德国、印度尼西亚三个新地域

DataWorks数据治理中心新开通支持3个地域:华北2(北京政务云)、德国(法兰克福)、印度尼西亚(雅加达),数据治理中心提供了主动式、自动化、可持续数据治理能力,需开通DataWorks企业版使用。

【大数据开发治理平台 DataWorks】新功能 -运维中心发布新版运维大屏

DataWorks运维中心的运维大屏改版,增加运维稳定性评估、重点运维指标,帮助用户从宏观角度快速了解任务的运行情况,及时发现运维问题、并提供异常问题处理方案。

【大数据开发治理平台 DataWorks】新功能 -新增支持EMR on ACK的Spark集群

DataWorks新增支持EMR on ACK类型的Spark集群,从而可以在DataStudio中创建并提交EMR Spark SQL、EMR Spark、EMR Spark Streaming任务,实现任务在集群中的全面生产调度及数据产出。

【大数据开发治理平台 DataWorks】新功能 -新增函数计算任务类型

DataStuido集成阿里云函数计算,支持函数计算任务与数据处理任务的编排调度,实现DataWorks调度系统与外部系统更好的互通互联。

【大数据开发治理平台 DataWorks】新功能 -数据集成新增从Kafka实时入湖OSS(Hudi格式)

DataWorks数据集成新增支持kafka实时同步入湖能力,支持同步到OSS数据源,存储为HUDI格式。

【大数据开发治理平台 DataWorks】新功能 -智能数据建模新增支持复合指标

DataWorks智能数据建模新增支持复合指标,能够通过编辑计算表达式或同环比来定义和设计更加复杂的业务指标,满足高阶业务场景及需求。

【大数据开发治理平台 DataWorks】新功能 -数据地图支持用户自助上报数据血缘

通过调用DataWorks OpenAPI,用户能够将自有数据应用层(例如报表系统)的血缘关系注册至数据地图,构建全链路数据血缘。

【实时数仓 Hologres】新版本/新规格 - Hologres发布弹性计算组,OLAP分析细粒度资源隔离

发布计算组实例,支持单实例内部多种负载隔离,支持弹性热扩缩,支持流量灵活切换。

【实时数仓 Hologres】新功能 -支持实例负载均衡,提供实例故障自动转移能力

支持实例负载均衡,提供实例故障自动转移能力。

【实时数仓 Hologres】新功能 -支持Kafka实时同步Hologres并进行ETL

支持将Kafka数据实时同步至Hologres,同时支持实现同步过程中对于Kafka的json消息自定义解析。

【实时数仓 Hologres】新功能 -支持单实例Shard级多副本,提升实例吞吐,并提升可用性

支持单实例Shard级多副本,提升实例吞吐,并提升可用性。

【实时数仓 Hologres】新功能 -支持hg_stat_activity,丰富SQL运行时诊断信息

可通过hg_stat_activity查看sql运行时的执行阶段,执行引擎类别,资源使用,运行时锁等信息,提升客户的问题诊断能力。

【实时数仓 Hologres】新功能 -支持Runtime Filter,提升多表关联的性能

支持Runtime Filter,优化join过程中的过滤行为,减少数据扫描量,降低IO开销,提升多表关联(join)的性能。

【实时数仓 Hologres】新功能 -丰富Explain和Explain Analyze,简化SQL优化手段

全面优化执行计划展示格式(Explain和Explain Analyze),改善可阅读性,简化SQL性能优化手段。

【检索分析服务 Elasticsearch版】新地域/可用区 - 8.5版本支持地域德国(法兰克福)

阿里云Elasticsearch 8.5版本新增开通德国(法兰克福)地域,可以在控制台上按需开通集群。 8.5版本 100%兼容开源新特性,包括基于HNSW算法实现向量相似度搜索、时序场景Time Series检索、支持上传PyTorch模型、系统索引保护和集群安全等功能。

【检索分析服务 Elasticsearch版】新功能 - 8.5版本机器学习功能默认开启

为帮助用户更好地体验ES高版本机器学习新特性,快速体验业务数据的智能搜索,默认为新购8.5版本的实例启用机器学习功能。

【开源大数据平台 E-MapReduce】新功能 - EMR Workflow公测

EMR Workflow于2023年6月29日开始,面向所有用户开放公测。

【开源大数据平台 E-MapReduce】新功能 -支持无状态集群

提供默认的数据湖架构,无需依赖HDFS,在不使用必须依赖Core节点的服务时,您可以去掉Core节点组,构建完全无状态的集群。

【开源大数据平台 E-MapReduce】新功能 - EMR on ACK形态支持Data Science类型集群

EMR on ACK形态支持Data Science类型集群,可以利用ACK在服务部署和容器应用管理的优势,减少对底层集群资源的运维投入,从而更专注于大数据和AI任务本身,并降低成本。 Data Science集群还提供了包括PyTorch、DeepSpeed等在内的多种模型训练框架,以及CPU+GPU异构计算框架,以满足高性能计算的需求。

【机器学习平台 PAI】新功能 -支持用户自定义算法组件的创建和管理

PAI提供自定义组件功能,支持用户自定义算法组件的创建和管理。

【智能开放搜索 OpenSearch】新功能 - LLM智能问答版计算资源包发布

智能开放搜索 OpenSearch LLM智能问答版推出计算资源抵扣包,方便开发者通过更低价格预先购买计算资源。

【智能开放搜索 OpenSearch】新功能 - LLM智能问答版支持非结构化数据

智能开放搜索OpenSearch LLM智能问答版支持doc、pdf、html等非结构化数据导入,方便开发者快速构建对话式搜索系统。

二、产品活动

阿里云大数据计算&机器学习产品免费试用持续火爆中

阿里云大数据计算&机器学习推出免费试用活动,其中包含Maxcompute、Hologres、实时计算Flink版、机器学习PAI等多款热门产品,点击了解详细试用规则,一键参与试用。

云服务器免费领用,体验PAI-EAS 5分钟部署Stable Diffusion webUI

本文以阿里云机器学习平台PAI的模型在线服务平台PAI-EAS和大家分享【如何5分钟一键部署 Stable Diffusion 文生图模型和启动 WebUI 进行推理服务】。快速入门 Stable Diffusion,一起领取福利免费体验。

Github实时数据分析与可视化训练营火热开启!免费领取5000元云上资源

此次训练营内容基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项目、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项目、编程语言等多个维度了解GitHub实时数据变化情况。快来领取免费云资源,一起参与吧!

图片 1.png

基于EMR Serverless StarRocks,极速全面多维分析21届世界杯

EMR Serverless StarRocks 5000CUH 计算资源,48000GBH存储资源免费试用进行中,提供极致的性能和丰富的 OLAP 场景模型,包括 OLAP 多维分析、数据湖分析、高并发查询以及实时数据分析,快来体验吧!

三、产品快讯

Forrester云数仓报告:阿里云,国内唯一卓越表现者

近日,国际权威咨询机构Forrester 发布最新云数据仓库研究报告 《The Forrester Wave™: Cloud Data Warehouses, Q2 2023》,报告显示,阿里云云数仓产品丰富,涵盖MaxCompute、AnalyticDB、Hologres和E-MapReduce等,以支持各种大规模数据仓库客户案例,可支持各种大规模数据仓库客户,并在数据湖集成、机器学习平台优化、产品性能和规模方面表现强劲。凭借产品性能和市场规模等方面的表现,阿里云连续第二次进入卓越表现者象限,是国内唯一挺进该象限的科技公司。

快速玩转Llama2!阿里云机器学习PAI推出最佳实践

近期,Meta宣布大语言模型Llama2 开源,包含7B、13B、70B不同尺寸,分别对应70亿、130亿、700亿参数量,并在每个规格下都有专门适配对话场景的优化模型Llama-2-Chat。阿里云机器学习平台PAI针对 Llama2 系列模型进行适配,推出全量微调、Lora微调、推理服务等场景最佳实践,助力AI开发者快速开箱。

NLP领域再创佳绩!阿里云机器学习平台PAI多篇论文入选ACL 2023

近期,阿里云机器学习平台PAI主导的多篇论文在ACL 2023 Industry Track上入选。ACL是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选意味着阿里云机器学习平台PAI自研的自然语言处理和多模态算法,以及算法框架能力达到了全球业界先进水平,获得了国际学者的认可,展现了中国人工智能技术创新在国际上的竞争力。

基于Hologres向量计算与大模型免费定制专属聊天机器人

大模型广泛应用于各行各业。使用大模型定制聊天机器人,除了训练大模型的方式外,还可以使用提示词微调(Prompt-tuning)的方法,在提问时提供特定行业的相关语料,结合大模型的阅读理解和信息整合能力,对该垂直行业的问题提供更贴切的回答。Hologres是一站式实时数仓引擎,与达摩院自研高性能向量计算软件库Proxima深度整合,支持高效、易用的向量计算能力,可以将Hologres作为向量实时存储和检索引擎,把定制语料作为向量存储并输出给大模型,最终实现定制聊天机器人的快速搭建。

四、产品学习指南

【最佳实践】金蝶管易云 X Hologres:新一代全渠道电商ERP最佳实践

金蝶管易云成立于2008年,是国内最早的电商ERP服务商之一,目前已与300+主流电商平台建有合作关系。针对海量的数据分析和极速探索需求,金蝶管易云将底层的数据库升级成了实时数仓技术DataWorks+Hologres+Flink,助力企业数据查询秒级响应,业务需求变得更加敏捷,月IaaS费用节省了50%,促进业务的高效增长。

【产品运维】Elasticsearch基础检索(全文检索/多语言检索/地理位置查询)

Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎,设计用于云计算中能够达到实时搜索,稳定,可靠,快速,并支持RESTFUL风格的url访问。全文检索、多语言检索以及基于地理位置信息检索在Elasticsearch上应用广泛,本场实验将分别介绍如何使用Elasticsearch8.5版本进行全文检索、多语言检索和地理位置查询三个Elasticsearch基础检索子场景的实现。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
20天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
17天前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
1月前
|
SQL 存储 人工智能
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
DataAgent如何助理业务和研发成为业务参谋?如何快速低成本的创建行业数据分类标准?如何管控数据源表的访问权限?如何满足企业安全审计需求?
591 1
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
|
27天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
79 10
zdl
|
9天前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
38 0
|
1月前
|
消息中间件 人工智能 Cloud Native
|
1月前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
43 0
|
1月前
|
SQL 运维 大数据
大数据实时计算产品的对比测评
在使用多种Flink实时计算产品后,我发现Flink凭借其流批一体的优势,在实时数据处理领域表现出色。它不仅支持复杂的窗口机制与事件时间处理,还具备高效的数据吞吐能力和精准的状态管理,确保数据处理既快又准。此外,Flink提供了多样化的编程接口和运维工具,简化了开发流程,但在界面友好度上还有提升空间。针对企业级应用,Flink展现了高可用性和安全性,不过价格因素可能影响小型企业的采纳决策。未来可进一步优化文档和自动化调优工具,以提升用户体验。
124 0
|
1月前
|
SQL 存储 监控
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
52 0
|
人工智能 大数据 Apache
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载
2020年9月18日下午13:00云栖大会正式发布 《大数据&AI的16种可能,2020阿里云客户最佳实践合集》
72865 4
大数据&AI的16种可能,2020阿里云客户最佳实践合集下载

热门文章

最新文章

下一篇
无影云桌面