大数据&AI产品月刊【2024年1月】

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 大数据&AI产品技术月刊【2024年1月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据&AI方面最新动态。

一、产品功能发布

【人工智能平台 PAI】新功能/规格 - 分布式训练DLC 算力健康检测发布    

支持对训练任务的资源健康度与性能进行检查,提升训练成功率及问题诊断效率。


【云原生大数据计算服务 MaxCompute】新功能/规格 - 计算成本优化功能发布    

计算成本优化功能进一步方便客户优化计算成本和提高资源利用效率。


【云原生大数据计算服务 MaxCompute】新功能/规格 - 支持通过控制台编辑外部网络地址    

支持通过控制台添加或删除项目可用的外部网络地址。


【云原生大数据计算服务 MaxCompute】功能优化 - 控制台资源观测支持修改指标聚合算法    

控制台资源观测支持修改指标聚合算法,方便开发者依据自身需求查看相关指标。


【云原生大数据计算服务 MaxCompute】新地域/新可用区 - 按量付费闲时版新增中国站国际地域及国际站发布    

MaxCompute按量付费闲时版新增开通中国站:中国香港、新加坡、英国(伦敦)、日本(东京)、马来西亚(吉隆坡)、德国(法兰克福)、印度尼西亚(雅加达)、美国(弗吉尼亚)、美国(硅谷)地域,国际站:华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)、中国香港、新加坡、英国(伦敦)、日本(东京)、马来西亚(吉隆坡)、德国(法兰克福)、印度尼西亚(雅加达)、美国(弗吉尼亚)、美国(硅谷)地域。


【大数据开发治理平台 DataWorks】新功能/规格 - 新增适配E-MapReduce Hadoop集群17个    

新增适配E-MapReduce Hadoop集群17个。


【大数据开发治理平台 DataWorks】新功能/规格 - 新增适配StarRocks数据源    

DataWorks全面适配StarRocks数据源。


【大数据开发治理平台 DataWorks】新功能/规格 - 安全中心增加实时风险识别规则

支持管理员将风险识别能力以扩展程序的方式注册至DataWorks。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据开发增加PAI-DLC与Check节点    

数据开发增加PAI-DLC与Check节点。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据治理中心新增SQL效率优化检查项    

帮助用户在研发环节进行事前主动检查和及时优化,避免出现大量计算资源浪费。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据开发与数据分析查表结果支持脱敏展示    

查询数据时,如被识别为敏感数据,平台将会按照脱敏规则展示。


【大数据开发治理平台 DataWorks】新功能/规格 - 数据地图支持展示实时同步链路数据血缘    

新增支持7种常用实时同步链路的数据血缘解析及展示。


【开源大数据平台 E-MapReduce】新功能/规格 - Workflow商业化发布    

2024年1月10日起EMR Workflow正式商业化发布。


【开源大数据平台 E-MapReduce】新功能/规格 - Workflow 新增工作空间管理    

EMR Workflow 新增工作空间管理。


【开源大数据平台 E-MapReduce】新功能/规格 - Workflow 工作流支持提交至集群模板执行    

EMR Workflow 工作流支持提交至集群模板执行。


【开源大数据平台 E-MapReduce】新功能/规格 - 通过DMS连接StarRocks实例

主要介绍如何通过DMS连接StarRocks实例。


【开源大数据平台 E-MapReduce】新功能/规格 - 通过Quick BI连接StarRocks实例如何通过Quick BI连接StarRocks实例。


【智能开放搜索 OpenSearch】新功能/规格 - LLM智能问答版表格问答功能发布    

OpenSearch智能问答版支持表格数据,提供针对表数据的智能问答能力。


【智能开放搜索 OpenSearch】新功能/规格 - LLM智能问答版支持对接MaxCompute数据源    

OpenSearch智能问答版支持MaxCompute数据源快速导入。


【智能开放搜索 OpenSearch】新功能/规格 - 向量检索版新增电商增强图片转向量模型    

基于电商场景数据训练,适用于电商商品图片的转向量模型,提升向量搜索效果。


【智能开放搜索 OpenSearch】新功能/规格 - 向量检索版支持单数据节点购买    

购买实例时可以仅选择数据节点,无需购买查询节点,进一步降低起步门槛。


【智能开放搜索 OpenSearch】新功能/规格 - 向量检索版支持混合检索    

混合搜索的方式能将语义搜索与关键词搜索相结合,获得更好的搜索效果。


【智能开放搜索 OpenSearch】新功能/规格 - 向量检索版新增多长度中英文文本转向量模型    

新模型支持128、512、1024token长度中英文文本进行向量化处理。


【智能开放搜索 OpenSearch】新功能/规格 - 向量检索版控制台支持主键查询、图片文本查询、混合查询    

控制台查询测试支持更多查询语法,并提供表单模式查询功能。


【智能开放搜索 OpenSearch】新功能/规格 - 向量检索版支持图片搜索多主体识别

能够识别同一张图片中的多个主体,并针对某一主体进行进一步搜索。


【智能开放搜索 OpenSearch】价格调整 - 向量检索版新增云盘型节点与2核规格、调整实例租用费    

支持客户选用更多节点规格,提升购买灵活度,降低起购门槛。


二、产品快讯

Mixtral 8X7B MoE模型基于阿里云人工智能平台PAI实践合集    


Mixtral 8x7B大模型是Mixtral AI推出的基于decoder-only架构的稀疏专家混合网络(Mixture-Of-Experts,MOE)开源大语言模型。这一模型具有46.7B的总参数量,对于每个token,路由器网络选择八组专家网络中的两组进行处理,并且将其输出累加组合,在增加模型参数总量的同时,优化了模型推理的成本。本文介绍如何在PAI平台针对Mixtral 8x7B大模型的微调和推理服务的最佳实践,助力AI开发者快速开箱。


流式湖仓增强,Hologres + Flink构建企业级实时数仓    


近日,阿里云实时数仓Hologres研发负责人姜伟华分享Hologres+Flink构建的企业级实时数仓,实现全链路的数据实时计算、实时写入、实时更新、实时查询。同时,随着流式湖仓的兴起,Hologres除了支持Delta、Hudi等通用湖格式,在今年新增了对Paimon的深度集成,不断拓展湖仓一体能力。


Hologres V2.1版本发布,新增计算组实例构建高可用实时数仓    


Hologres是阿里云自研一站式实时数仓,统一数据平台架构,将OLAP查询、即席分析、在线服务、向量计算多个数据应用构建在统一存储之上,实现一份数据,多种计算场景。Hologres V2.1版本发布, 新增弹性计算组实例,解决实时数仓场景下分析性能、资源隔离、高可用、弹性扩缩容等核心问题,同时新增多种用户分析函数与实时湖仓Paimon格式支持,COUNT DISTINCT优化显著提升查询效率。


image.png


三、产品学习指南


【最佳实践】搭建大模型RAG对话系统的最佳实践

大模型RAG对话系统最佳实践,旨在指引AI开发人员如何有效地结合LLM大语言模型的推理能力和外部知识库检索增强技术,从而显著提升对话系统的性能,使其能更加灵活地返回用户查询的内容。适用于问答、摘要生成和其他依赖外部知识的自然语言处理任务。通过该实践,可以掌握构建一个大模型RAG对话系统的完整开发链路。


【最佳实践】基于Megatron-Core的稀疏大模型训练工具:阿里云MoE大模型最佳实践


阿里云PAI和NVIDIA团队深入合作,基于Megatron-Core MoE框架,解决了MoE大模型训练落地时会遇到的可拓展性、易用性、功能性以及收敛精度等核心问题,在下游任务上取得了很好的模型效果。PAI团队将上述MoE训练框架和技术与阿里云AI平台产品深度整合,使云上大模型用户能方便地进行MoE大模型的训练和部署。


【最佳实践】通义千问Qwen-72B-Chat基于PAI的低代码微调部署实践    


通义千问-72B(Qwen-72B)是阿里云研发的通义千问大模型系列的720亿参数规模模型。Qwen-72B-Chat是在Qwen-72B的基础上,使用对齐机制打造的基于大语言模型的AI助手。本文以 Qwen-72B-Chat 为例,介绍通过PAI平台的快速开始(PAI-QuickStart)部署和微调千问大模型。


【客户案例】基于Hologres+Flink的曹操出行实时数仓建设    


曹操出行创立于2015年,是吉利控股集团布局“新能源汽车共享生态”的战略性投资业务,致力于打造服务口碑最好的出行品牌。针对其业务痛点分析,曹操采用Hologres+Flink构建企业级实时数仓,业务成果分析:曹操出行架构清晰简单、开发效率提高、运维体验提升、成本减少等。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
14天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
10天前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
30天前
|
SQL 存储 人工智能
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
DataAgent如何助理业务和研发成为业务参谋?如何快速低成本的创建行业数据分类标准?如何管控数据源表的访问权限?如何满足企业安全审计需求?
576 1
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
|
20天前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
72 10
zdl
|
3天前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
17 0
|
1月前
|
消息中间件 人工智能 Cloud Native
|
25天前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
36 0
|
1月前
|
SQL 运维 大数据
大数据实时计算产品的对比测评
在使用多种Flink实时计算产品后,我发现Flink凭借其流批一体的优势,在实时数据处理领域表现出色。它不仅支持复杂的窗口机制与事件时间处理,还具备高效的数据吞吐能力和精准的状态管理,确保数据处理既快又准。此外,Flink提供了多样化的编程接口和运维工具,简化了开发流程,但在界面友好度上还有提升空间。针对企业级应用,Flink展现了高可用性和安全性,不过价格因素可能影响小型企业的采纳决策。未来可进一步优化文档和自动化调优工具,以提升用户体验。
115 0
|
1月前
|
SQL 存储 监控
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
47 0
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势

相关产品

  • 云原生大数据计算服务 MaxCompute