【Spark Summit East 2017】在AdTech使用Spark对于产品管道进行研发

简介: 本讲义出自Maximo Gurmendez , Saket Mengle与Sunanda Parthasarathy 在Spark Summit East 2017上的演讲,主要介绍了DataXu,其核心能力是应用数据分析来获取更好的市场,其核心是每天处理2 Petabytes数据并且每秒响应来自五大洲的210万个请求的广告拍卖的实时竞价平台,演讲中将分享使用Apache Spark 框架和Databricks的DataXu成功用例,演讲将分享整个从研发到ETL处理以及建模等工作的整个过程。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Maximo Gurmendez , Saket Mengle与Sunanda Parthasarathy 在Spark Summit East 2017上的演讲,主要介绍了DataXu,其核心能力是应用数据分析来获取更好的市场,其核心是每天处理2 Petabytes数据并且每秒响应来自五大洲的210万个请求的广告拍卖的实时竞价平台,演讲中将分享使用Apache Spark 框架和Databricks的DataXu成功用例,演讲将分享整个从研发到ETL处理以及建模等工作的整个过程。


9fd0b4c2c2d1d2ffb60a7b1a7bc155281a0ed4fe

9019d6c7c12342313fd663981e010e96ab3586a3

374d1345e84c9db0fea404637f7390b4dd001aab

b6536d184be3e09e852359fc4beb96ae3b55bb1a

f8a38cc90a5237cb3e3e9bb1866465d7a8f5b19b

b244ca4ff05c1373bb537a1b98db210dccf67777

8089794338f7b0987ebb4899899e93d800ec05b5

407aed168bbdff656ac4163106866f9074ecb0e6

e3301bb15456647c8fa167ac1214d15c81729a9e

16ffc2abca7d24d44e8c3a1d8feedf2b3e292d68

994b3763a93127b3686ba06baf38642deb284d13

c501056aeec367afbb3d4cfbbb2dc89f4993abf0

相关文章
|
3月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何开发ODPS Spark任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
存储 分布式计算 Serverless
|
4月前
|
SQL 弹性计算 资源调度
云服务器 ECS产品使用问题之bin/spark-sql --master yarn如何进行集群模式运行
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
3月前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之如何引用在spark jar中引用密文的空间参数
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
分布式计算 运维 数据挖掘
【评测有奖】参加 EMR Serverless Spark 产品评测,赢机械键盘、充电宝等礼品!
即日起至2024年7月18日,参加 EMR Serverless Spark 产品评测,赢机械键盘、充电宝等礼品!
160 7
【评测有奖】参加 EMR Serverless Spark 产品评测,赢机械键盘、充电宝等礼品!
|
4月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之怎么编写和执行Spark SQL
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
分布式计算 数据处理 流计算
实时计算 Flink版产品使用问题之使用Spark ThriftServer查询同步到Hudi的数据时,如何实时查看数据变化
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
5月前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之ODPS Spark找不到自己的stdout,该如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
48 2
|
5月前
|
弹性计算 分布式计算 DataWorks
DataWorks产品使用合集之spark任务如何跨空间取表数据
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
39 1
|
5月前
|
SQL 分布式计算 HIVE
实时计算 Flink版产品使用问题之同步到Hudi的数据是否可以被Hive或Spark直接读取
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。