DataWorks

首页 标签 DataWorks
# DataWorks #
关注
18439内容
基于DataWorks的多场景实践及数据开发Data Studio最新体验测评
DataWorks是阿里云推出的一站式智能大数据开发治理平台,自2009年发布以来,历经多次迭代,成为企业数字化转型的重要工具。本文通过多个实践案例,如公共电影票房数据预处理,展示了DataWorks如何帮助企业高效处理大数据,涵盖数据集成、ETL开发、数据分析及治理等全流程。最新版DataWorks引入了智能助手Copilot,进一步提升了用户体验和工作效率。
数据分析经典案例重现:使用DataWorks Notebook 实现Kaggle竞赛之房价预测,成为数据分析大神!
Python是目前当之无愧的数据分析第一语言,大量的数据科学家使用Python来完成各种各样的数据科学任务。本文以Kaggle竞赛中的房价预测为例,结合DataWorks Notebook,完成数据加载、数据探索、数据可视化、数据清洗、特征分析、特征处理、机器学习、回归预测等步骤,主要Python工具是Pandas和SKLearn。本文中仅仅使用了线性回归这一最基本的机器学习模型,读者可以自行尝试其他更加复杂模型,比如随机森林、支持向量机、XGBoost等。
|
9月前
|
《鱼与熊掌兼得:DataWorks中AI驱动的数据脱敏与可用性平衡术》
在数字化时代,数据成为企业核心资产,驱动业务决策与创新。DataWorks作为大数据处理平台,利用AI技术进行数据脱敏,确保隐私保护的同时维持数据可用性。通过生成对抗网络(GAN)和自然语言处理,DataWorks能生成既保留特征又符合隐私要求的脱敏数据,支持机器学习模型训练。此外,建立数据映射关系和应用数据增强技术,进一步提升脱敏数据的实用性和多样性。尽管面临挑战,DataWorks正不断优化算法,结合新兴技术,实现数据隐私与价值挖掘的平衡,助力数字经济健康发展。
使用DataWorks调度DLA循环任务
DataWorks是阿里云上的一款热门产品,可以为用户提供大数据开发调度服务。它支持了Data Lake Analytics(后文简称DLA)以后,DLA用户可以通过它进行定时任务调度,非常方便。本文将主要介绍如何使用DataWorks调度DLA的循环任务。
DataWorks数据集成与开源Sqoop的对比
阿里巴巴技术专家张雅静为大家带来DataWorks数据集成与开源Sqoop的对比演讲。主要从介绍Sqoop开始谈起,接着详细介绍了DataWorks数据集成与开源Sqoop对比以及注意事项,然后着重说明了DataWorks数据集成并进行了实操演示,最后对全文进行了总结。 以下是精彩视频内容整理:
DataWorks数据建模公开课上线啦!
数据建模是数据标准化的核心内容,企业在搭建自己的数据平台时需要先建设适合公司业务的数据模型。好的数据模型可以帮助企业构建合理的数据基础结构,帮助企业少走弯路,节省长期开发成本。 本次阿里云DataWorks数据建模公开课邀请到Datablau创始人&CEO王琤老师为大家带来数据建模系列讲座,内容涵盖数据建模基本知识和企业级标准、架构与模型设计,以及阿里云DataWorks数据中台模型管理平台解决方案。
DataWorks数据治理介绍及实践 | 《一站式大数据开发治理DataWorks使用宝典》
当我们在谈论数据治理时,经常会跟数据管理这一概念一起讨论。DataWorks设计数据治理产品功能时,参考的主要也是数据管理领域内的三大理论依据:第一个是数据管理协会知识体系,也就是大家熟知的DAMA、DMBOK2;第二个是DCMM数据管理能力成熟度评估;第三个是信通院的数据资产管理实践白皮书。
亿滋中国X阿里云,释放新零售的数字化力量
亿滋中国基于阿里云DataWorks与MaxCompute搭建新零售数据中台系统,通过强大的技术平台和数据分析能力,亿滋中国可以提早预知市场动向,制定市场,销售和供应链战略, 更高效地触及消费者锁定消费人群,优化成本模型提升投资回报率,提高销售预测的准确性,实现供应链的柔性生产。
阿里大淘系模型治理阶段性分享
阿里大淘系数据体系经过多年发展,通过丰富的数据和产品支撑了复杂的业务场景,在数据领域取得了非常大的领先优势。随着数据规模越来越大,开发人员越来越多,虽有阿里大数据体系规范进行统一管理,但是由于没有在产品侧进行有效的模型设计和管控,在模型规范性、应用层效率、通用层复用性等方面的问题逐渐凸显。计存成本提升、效率降低、规范减弱、数据使用难度变大、运维负担增加等。为了解决这些问题,我们进行了大淘系模型治理专项,在数据服务业务的同时,追求极致的降本提效目标。
免费试用