开发者社区> 大数据与机器学习> 大数据开发治理DataWorks

大数据开发治理DataWorks

关注

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

0
今日
18296
内容
9
活动
3163
关注
|
14天前
|
定位技术 DataWorks
|

dataworks数据地图

26 0
|
22天前
|
SQL 分布式计算 DataWorks
|

使用DataWorks PyODPS节点调用XGBoost算法

本文介绍如何在DataWorks中通过PyODPS3节点调用XGBoost算法完成模型训练与测试,并实现周期离线调度。主要内容包括:1) 使用ODPS SQL构建数据集;2) 创建PyODPS3节点进行数据处理与模型训练;3) 构建支持XGBoost的自定义镜像;4) 测试运行并选择对应镜像。适用于需要集成机器学习算法到大数据工作流的用户。

96 23
|
24天前
|
SQL DataWorks 大数据
|

DataWorks x 婚礼纪:智能一站式数据开发治理平台让千万新人的幸福时刻“数智化”

婚礼纪是杭州火烧云科技推出的结婚服务平台,覆盖婚宴酒店、婚纱摄影等全产业链,年服务超2000万对新人。为应对海量数据处理挑战,婚礼纪选择阿里云DataWorks作为一站式大数据开发治理平台,解决数据血缘不清、指标口径混乱等问题。通过湖仓一体架构与全链路数据治理,实现多源异构数据高效整合,支撑精准营销、交易风控等核心场景。DataWorks新版数据开发Data Studio大幅提升开发效率,Copilot智能助手优化SQL代码生成与测试,助力婚礼纪构建数据驱动的结婚产业服务中枢。

123 5
|
26天前
|
传感器 人工智能 自然语言处理
|

火热邀测!DataWorks数据集成支持大模型AI处理

阿里云DataWorks数据集成新增大模型AI处理功能,支持在数据同步中无缝调用通义千问等AI模型,实现文本翻译、情感分析、摘要生成等功能。适用于电商客服、智能汽车、供应链、医疗、金融、法律及教育等多个场景,大幅提升数据处理效率与洞察深度。用户可通过自然语言配置,快速完成高级数据分析与处理,无需额外部署调试。立即申请测试资格,体验智能化数据处理!

344 3
|
2月前
|
人工智能 自然语言处理 DataWorks
|

DataWorks Copilot 集成Qwen3-235B-A22B混合推理模型,数据开发与分析效率再升级!

阿里云DataWorks平台正式接入Qwen3模型,支持最大235B参数量。用户可通过DataWorks Copilot智能助手调用该模型,以自然语言交互实现代码生成、优化、解释及纠错等功能,大幅提升数据开发与分析效率。Qwen3作为最新一代大语言模型,具备混合专家(MoE)和稠密(Dense)架构,适应多种应用场景,并支持MCP协议优化复杂任务处理。目前,用户可通过DataWorks Data Studio新版本体验此功能。

219 22
|
2月前
|
人工智能 自然语言处理 DataWorks
|

Qwen3 X DataWorks :为数据开发与分析加满Buff !

阿里云DataWorks平台正式接入Qwen3模型,支持最大235B参数量。用户可通过DataWorks Copilot智能助手调用该模型,以自然语言交互实现代码生成、优化、解释及纠错等功能,大幅提升数据开发与分析效率。Qwen3作为最新一代大语言模型,具备混合专家(MoE)和稠密(Dense)架构,适应多种应用场景,并支持MCP协议优化复杂任务处理。目前,用户可通过DataWorks Data Studio新版本体验此功能。

147 27
|
2月前
|

DataWorks X MCP:数据开发治理Agent发布!

DataWorks X MCP产品演示:使用DataWorks MCP Server和Hologres MCP Server来自动化完成数据集成实时数据同步任务开发和Hologres数据分析。

134 0
|
2月前
|
自然语言处理 运维 DataWorks
|

智能体Agent解析:用自然语言重构数据开发工作方式

大数据开发治理平台DataWorks基于MCP协议,正式发布了DataWorks Agent,内置DataWorks MCP Server V1.0。该功能支持在DataWorks Data Studio中通过自然语言交互完成数据开发任务,实现了需求即代码的开发体验。本文将详细介绍如何通过配置使用DataWorks MCP Server进行任务的开发和运维管理。

193 2
|
2月前
|
数据采集 SQL 人工智能
|

长文详解|DataWorks Data+AI一体化开发实战图谱

DataWorks是一站式智能大数据开发治理平台,内置阿里巴巴15年大数据建设方法论,深度适配阿里云MaxCompute、EMR、Hologres、Flink、PAI 等数十种大数据和AI计算服务,为数仓、数据湖、OpenLake湖仓一体数据架构提供智能化ETL开发、数据分析与主动式数据资产治理服务,助力“Data+AI”全生命周期的数据管理。

466 4
|
3月前
|
自然语言处理 DataWorks 数据挖掘
|

使用DataWorks Notebook实现智能图片标注,给你的图片加个“注释”

本文介绍如何使用DataWorks Notebook结合视觉识别模型RAM和自然语言处理模型BERT实现多模态图片标注,为智能内容生成和多模态数据分析的广泛应用提供支持。

206 2
|
4月前
|
人工智能 DataWorks 大数据
|

大数据AI一体化开发再加速:DataWorks 支持GPU类型资源

大数据开发治理平台 DataWorks 的Serverless资源组支持GPU资源类型,以免运维、按需付费、弹性伸缩的Serverless架构,将大数据处理与AI开发能力无缝融合。面向大数据&AI协同开发场景,DataWorks提供了交互式开发和分析工具Notebook。开发者在创建个人开发环境时,可以选择GPU类型的资源作为Notebook运行环境,以支持进行高性能的计算工作。本教程将基于开源多模态大模型Qwen2-VL-2B-Instruct,介绍如何使用 DataWorks Notebook及LLaMA Factory训练框架完成文旅领域大模型的构建。

411 24
|
4月前
|
人工智能 自然语言处理 DataWorks
|

DataWorks X DeepSeek : 用AI实现数据开发治理!

阿里云DataWorks正式接入DeepSeek-R1系列模型,用户可通过DataWorks Copilot智能助手,以自然语言交互完成代码操作,实现数据开发、分析与治理全流程。DataWorks内置阿里巴巴16年大数据建设方法论,支持多种大数据引擎和AI计算服务,助力“Data+AI”全生命周期管理。开通DataWorks后即可免费体验DataWorks Copilot。

318 3
|
4月前
|

DataWorks X DeepSeek : 用AI实现数据开发治理!

DataWorks Copilot × DeepSeek-R1产品演示:以2025年春节杭州的旅游热点分析为例,通过DataWorks Copilot使用DeepSeek-R1满血版模型,进行SQL代码的自动生成、改写和测试操作,实现高效的数据开发流程。

185 0
|
5月前
|
数据采集 存储 DataWorks
|

DataWorks Copilot:让你的数据质量覆盖率一键飞升!

在数据加工链路中,如何确保高质量的数据产出是一个一直需要重点解决的问题。阿里云DataWorks的数据质量规则模板可以帮助用户建设数据质量,在离线表上定义相关的规则。为优化手动配置规则的工作量,DataWorks的智能助手 DataWorks Copilot 推出了数据质量规则推荐功能,您可以使用这一功能,一键提升数据质量覆盖度。

488 20
|
5月前
|
JSON API 数据格式
|

1688 满足跨境业务需求而提供的一组 API 接口

1688跨境属性接口系列是1688开放平台为满足跨境业务需求提供的API接口,核心接口1688.item_get用于查询商品的跨境属性,帮助开发者和商家获取关键信息,更好地开展跨境贸易。公共参数包括key、secret等,支持多种返回格式,默认json。Python示例代码展示了如何调用该接口获取海关编码、税率等信息。使用步骤包括注册、构建请求、发送请求和处理响应。

167 0
|
5月前
|
安全 前端开发 数据库
|

Python 语言结合 Flask 框架来实现一个基础的代购商品管理、用户下单等功能的简易系统

这是一个使用 Python 和 Flask 框架实现的简易代购系统示例,涵盖商品管理、用户注册登录、订单创建及查看等功能。通过 SQLAlchemy 进行数据库操作,支持添加商品、展示详情、库存管理等。用户可注册登录并下单,系统会检查库存并记录订单。此代码仅为参考,实际应用需进一步完善,如增强安全性、集成支付接口、优化界面等。

213 1
|
5月前
|
SQL 分布式计算 DataWorks
|

如何让DataWorks调度依赖一个非DataWorks的任务结点,如数据上传任务?

如何让DataWorks调度依赖一个非DataWorks的任务结点,如数据上传任务?创建一个表的空分区,然后通过DataWorks去检查这个分区。

138 7
|
6月前
|
运维 监控 DataWorks
|

DataWorks 稳定性保障全解析:深入监控与资源调配

DataWorks 的稳定性保障体系涵盖精细监控与资源调配,确保企业数据业务高效、稳定运行。监控模块包括资源、任务和质量监控,及时预警并处理异常;资源调配策略则针对集成、调度、数据服务及计算资源进行科学配置,保障数据同步、任务优先级和高并发需求。通过全方位的监控和合理的资源配置,DataWorks 为企业筑牢数据根基,助力数字化转型。

207 10
|
6月前
|
SQL DataWorks 大数据
|

DataWorks产品体验测评

一文带你了解DataWorks大数据开发治理平台的优与劣

363 11
|
6月前
|
安全 架构师 大数据
|

DataWorks 安全中心

DataWorks的安全中心,作为云上大数据体系的安全门户,致力于向您提供面向数据安全生命周期全过程的安全能力,同时在符合安全规范要求的前提下,提供各类安全诊断的最佳实践。帮助您快速构建平台的数据内容、个人隐私等相关的安全能力,满足企业面向高风险场景的各类安全要求。

130 0
|
6月前
|
运维 监控 架构师
|

DataWorks 运维中心

DataWorks 运维中心是一站式大数据运维监控平台,支持实时查看任务运行状态,提供智能诊断、重跑等运维操作,帮助您对异常任务进行基础运维;提供智能基线,帮助您解决重要任务产出时间不可控,海量任务监控难的问题,保障任务产出的时效性;提供引擎、资源、调度等多方位的运维能力。

108 0
|
6月前
|

DataWorks 数据资产治理

DataWorks 数据资产治理(原数据治理中心)可根据预先配置的治理计划,自动发现平台使用过程中数据存储、任务计算、代码开发、数据质量及安全等维度存在的问题,并通过健康分量化评估,从全局、工作空间、个人等多个视角,以治理报告及排行榜呈现治理成果,帮助您高效达成治理目标。同时,还提供业务资产管理、资产分析、任务资源消耗明细、费用预估等功能,帮助您有效掌握各类资源的使用详情。

274 58
|
6月前
|
SQL 架构师 数据管理
|

DataWorks 数据集成

DataWorks 数据集成是一个稳定高效、弹性伸缩的数据同步平台,致力于提供在复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。

144 0
|
6月前
|

DataWorks Copilot

DataWorks Copilot是您在DataWorks的智能助手,当前阶段可根据自然语言快速转换为需要的SQL命令,包括SQL生成、SQL改写、SQL纠错、生成注释等,帮助您轻松高效地完成数据ETL及数据分析工作。本文为您介绍在各个场景下DataWorks Copilot的智能SQL能力。

170 0
|
6月前
|
SQL 数据可视化 架构师
|

DataWorks Notebook

DataWorks的Notebook提供了一个交互式、灵活且可复用的数据处理和分析环境,增强了直观性、模块化和交互性,帮助您更轻松地进行数据处理、探索、可视化和模型构建。

140 0
|
6月前
|
数据可视化 架构师 数据管理
|

DataWorks Data Studio 数据开发

Data Studio是阿里巴巴基于15年大数据经验打造的智能湖仓一体数据开发平台,兼容阿里云多项计算服务,提供智能化ETL、数据目录管理及跨引擎工作流编排的产品能力。通过个人开发环境实例支持Python开发、Notebook分析与Git集成,Data Studio还支持丰富多样的插件生态,实现了实时离线一体化、湖仓一体化、大数据AI一体化,助力“Data+AI”全生命周期的数据管理。

5304 56
|
6月前
|
机器学习/深度学习 数据采集 DataWorks
|

数据分析经典案例重现:使用DataWorks Notebook 实现Kaggle竞赛之房价预测,成为数据分析大神!

Python是目前当之无愧的数据分析第一语言,大量的数据科学家使用Python来完成各种各样的数据科学任务。本文以Kaggle竞赛中的房价预测为例,结合DataWorks Notebook,完成数据加载、数据探索、数据可视化、数据清洗、特征分析、特征处理、机器学习、回归预测等步骤,主要Python工具是Pandas和SKLearn。本文中仅仅使用了线性回归这一最基本的机器学习模型,读者可以自行尝试其他更加复杂模型,比如随机森林、支持向量机、XGBoost等。

488 8
|
6月前
|
分布式计算 DataWorks 搜索推荐
|

DataWorks产品评测:大数据开发治理平台的最佳实践与体验

DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。

256 0
|
6月前
|
SQL DataWorks 数据可视化
|

阿里云DataWorks评测:大数据开发治理平台的卓越表现

阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。

309 4
|
6月前
|
SQL 分布式计算 DataWorks
|

DataWorks智能交互式数据开发与分析之旅

本次实验将带您进行DataWorks Notebook的快速入门,包含:Notebook新建、多引擎SQL开发与分析、Python开发、交互式分析等,同时,使用DataWorks Copilot体验智能数据开发,体验智能交互式数据探索之旅。

2770 11
|
6月前
|
分布式计算 DataWorks Serverless
|

通过函数计算节点实现GitHub实时数据分析与结果发送

开发人员在基于GitHub开源项目进行开发时会产生海量事件,GitHub会记录每次事件的类型、详情、开发者和代码仓库等信息,并开放其中的公开事件。DataWorks提供“Github十大热门编程语言”模板,通过对GitHub中公开数据集进行加工和分析,并将分析结果以邮箱的方式发送给指定用户。运行本案例后,您将得到Github中Top10编程语言每小时被提交的次数与排行。

147 10
|
7月前
|
数据采集 人工智能 DataWorks
|

限时优惠体验!DataWorks数据治理中心全新升级为数据资产治理

DataWorks进行全面升级,从数据治理中心转型为数据资产治理,强调业务视角下的数据分类与管理,引入Data+AI全链路数据血缘追踪,提升数据质量和安全性,促进跨部门协作。同时,提供限时优惠活动,助力企业高效利用数据资产。

1124 2
|
7月前
|
数据采集 运维 DataWorks
|

DataWorks on EMR StarRocks,打造标准湖仓新范式

本文整理自阿里云计算平台产品专家周硕(簌篱)在阿里云DataWorks on EMR StarRocks解决方案介绍中的分享。介绍了阿里云DataWorks与EMR Serverless StarRocks的结合使用,详细阐述了在数据同步、数据消费、数据治理三大场景中的核心能力。DataWorks作为大数据开发治理平台,提供了从数据建模、数据集成、数据开发到数据治理的全链路解决方案,结合StarRocks的高性能分析能力,帮助企业实现OLAP分析、湖仓一体开发及数据综合治理,满足复杂业务场景下的需求,提升数据处理和分析效率。

235 4
|
7月前
|
SQL 人工智能 DataWorks
|

DataWorks:新一代 Data+AI 数据开发与数据治理平台演进

本文介绍了阿里云 DataWorks 在 DA 数智大会 2024 上的最新进展,包括新一代智能数据开发平台 DataWorks Data Studio、全新升级的 DataWorks Copilot 智能助手、数据资产治理、全面云原生转型以及更开放的开发者体验。这些更新旨在提升数据开发和治理的效率,助力企业实现数据价值最大化和智能化转型。

1795 6
|
9月前
|
SQL 人工智能 DataWorks
|

【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台

在9月21日的云栖大会上,DataWorks发布了新一代智能湖仓一体数据开发与治理平台。DataWorks历经Kubernetes改造与云原生调度系统的优化,实现了资源组全面Serverless化,降低了使用成本,最高可节省40%。新推出的DataWorks Data Studio,支持多种计算引擎,提供更开放的云原生WebIDE,提升开发效率。DataWorks Copilot智能助手也得到升级,支持多种SQL方言和Python代码生成,平均提升数据开发效率35%。此外,DataWorks还推出了全方位的数据资产治理体系,涵盖业务和技术视角,助力企业实现数据智能化管理和转型。

671 0
|
10月前
|
关系型数据库 Oracle 数据库
|

DataWorks离线同步任务源数据预览为空

129 1
我要发布