大数据开发治理平台 DataWorks

首页 标签 大数据开发治理平台 DataWorks
小打卡:基于MaxCompute+PAI的推荐算法实践
小打卡是国内最大的兴趣社群平台,每天能够产生上百万条新的内容。依托于阿里云MaxCompute,小打卡已经完成了TB级数据仓库方案。在此基础之上,结合机器学习PAI,实现了千人千面的推荐算法。
DataWorks中业务日期和定时时间的理解
很多同学不明白,业务日期和定时时间的区别。我们做离线统计,最常见的是今天处理昨天的数据。这里今天就是运行日期(也叫定时时间),昨天就是业务日期。
DataWorks实时同步/实时ETL/批同步ETL灰度邀测中
DataWorks实时同步功能可以支持多种实时数据源(Kafka、MySQL Binlog,Oracle CDC等),可以将实时消息数据经过一些列处理后再写入目的数据源。同时在此前DataWorks数据集成强大EL(Extract-Load)能力基础之上,增加了数据处理能力(Transform),实现了完整了ETL链路。
为了让开发者写MaxCompute SQL更爽,DataWorks 增强SQL 编辑器功能
众所周知,数据开发和分析的同学每天都要花大量时间写MaxCompute SQL;Dataworks作为数据开发的IDE直接影响着大家的开发效率,这次新上线的Dataworks我们在编辑体验上做了很多工作,在前端实现MaxCompute SQL和编辑器参数等扩展语法的AST解析,并实现更好更智能的代
DataWorks新推出在线开发UDF的产品——Function Studio
DataWorks新推出在线开发UDF的产品——Function Studio。她免去了您下载安装本地IDE、配置维护环境变量的繁琐工作,您只需要一个浏览器即可编写、运行和调试应用程序,体验和本地IDE一样的编程效果。
天任务依赖分钟任务
本文主要是描述天任务依赖分钟任务的一个业务流程,数据同步每天5分钟跑一次,下游依赖一个天任务来计算今天所有同步任务的数据。
数据进入Maxcompute的N种方式,大数据实战Demo系统数据上云实践
2018 “MaxCompute开发者交流”钉钉群直播分享,由阿里云数据技术专家彬甫带来以“数据进入MaxCompute的N种方式”为题的演讲。本文讲述了在阿里云内部开发了一个实战Demo系统,它能够实现自动全链路的大数据处理流程,其中包括离线的和实时数据的,接下来将为大家揭晓实战Demo系统是怎样实现自动全链路的大数据处理流程的。
北京云栖大会workshop:《数据处理:数据建模与加工》篇
本手册为云栖大会Workshop《云数据·大计算:快速搭建互联网在线运营分析平台》的《数据处理:数据建模与加工》篇而准备。主要阐述在使用DataWorks/MaxCompute过程中如何直读TableStore中的日志数据并进行加工、用户画像,学员可以根据本实验手册,去学习如何创建外部表、编写SQL。
浅谈PyODPS
在我看来,PyODPS就是阿里云上的Python。值得注意的是,这里的定语“阿里云上的”一定不能精简掉,因为PyODPS不等于单机版的Python!
阿里云大数据计算服务MaxCompute命令行工具——odpscmd的操作使用
在MaxCompute生态中,命令行工具究竟处于什么样的位置?它又发挥着什么样的作用?能够帮助开发者如何更好使用MaxCompute?在本文中,阿里巴巴计算平台产品专家曲宁将通过一个完整简单的小例子为大家介绍MaxCompute命令行工具odpscmd的使用以及其所具有的各种能力。
免费试用