DataWorks

首页 标签 DataWorks
# DataWorks #
关注
18449内容
云上一指禅:大数据产品DataWorks每日问答
每天,阿里巴巴集团数万名数据/算法开发工程师正在使用DataWorks,承载阿里巴巴集团99%数据业务构建。
阿里云PAI-EAS共享GPU,一卡部署多个模型(EasyRec/TorchEasyRec Processor)
本文介绍在阿里云PAI-EAS平台单GPU卡(如A10/gu30/L20)上部署多个模型实例的实践方案:需购买GPU专有资源组,通过显存划分(如24G卡分3×7G)、配置`gpu_memory`参数实现共享,禁用`gpu_core_percentage`防RT毛刺,并合理设置BatchCount提升吞吐。
阿里云MaxCompute云原生大数据计算服务全方位对接使用指南
本文系统性地介绍了阿里云MaxCompute的多种对接与使用方式。从服务开通、项目创建等基础准备入手,详细讲解了命令行客户端odpscmd、DataWorks数据集成、Java SDK、PyODPS Python SDK、JDBC以及开放存储Storage API等核心对接路径。针对每种方式均提供了完整的配置步骤与代码示例,涵盖批量数据上传、流式数据写入、跨源数据同步、第三方引擎集成等典型场景。文章还深入探讨了Endpoint选择、权限管理、开放存储架构等关键技术要点,并结合最佳实践给出了成本优化与性能调优建议,旨在帮助数据工程师快速掌握MaxCompute的接入方法并高效运用于生产环境。
阿里云DataWorks对接使用全攻略:从环境搭建到数据集成与API服务
本文全面解析阿里云DataWorks的对接与使用流程。从工作空间创建、计算资源绑定等环境准备开始,详细讲解数据源配置的两种模式与网络打通方案。深入剖析数据集成模块的向导模式与脚本模式配置,附带完整的JSON脚本示例和Python SDK调用代码。系统梳理任务调度配置中的周期设置、依赖关系与调度参数应用,以及数据服务API的生成与调用方式。最后介绍数据质量监控、数据治理等高级功能,并总结常见问题与解决方案,帮助读者快速掌握DataWorks的核心对接能力。
2万字揭秘阿里巴巴数据治理平台DataWorks建设实践
阿里巴巴一直将数据作为自己的核心资产与能力之一,从最早的淘宝、天猫等电商业务,到后续的优酷、高德、菜鸟等板块,DataWorks、MaxCompute、Hologres等产品用一套技术体系来支持不同业务的发展与创新,为企业带来整体的“数据繁荣”。 数据繁荣为我们带来了红利,同时也带动了各类数据治理需求的井喷,特别是降本等需求的不断出现,阿里云DataWorks团队将13年的产品建设经验整理成最佳实践,从数据生产规范性治理、数据生产稳定性治理、数据生产质量治理、数据应用提效治理、数据安全管控治理、数据成本治理、数据治理组织架构及文化建设等7个方面为大家揭秘数据治理平台建设实践
DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型,数据开发与分析效率再升级!
阿里云DataWorks平台正式接入Qwen3模型,支持最大235B参数量。用户可通过DataWorks Copilot智能助手调用该模型,以自然语言交互实现代码生成、优化、解释及纠错等功能,大幅提升数据开发与分析效率。Qwen3作为最新一代大语言模型,具备混合专家(MoE)和稠密(Dense)架构,适应多种应用场景,并支持MCP协议优化复杂任务处理。目前,用户可通过DataWorks Data Studio新版本体验此功能。
DataWorks产品使用合集之如何访问周期任务运维
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
阿里云DataWorks数据集成(Data Integration)对接配置完全指南
本文提供了一份完整的阿里云DataWorks数据集成(Data Integration)对接配置指南。从数据集成的核心概念与架构入手,详细讲解了数据源配置、资源组选择与网络连通方案,这是数据集成任务能够成功执行的前提。文章深入剖析了离线同步与实时同步两大任务类型的配置流程,覆盖向导模式与脚本模式两种配置方式,并提供了完整的JSON脚本示例。在网络连通方面,系统梳理了VPC内网、公网、跨账号等不同场景下的解决方案。同时,本文还涵盖了调度参数应用、性能优化策略、常见错误排查等高级主题,帮助读者构建从入门到精通的知识体系。无论是数据开发工程师、架构师还是运维人员,都能从中获得实用的技术指导。
免费试用