备案控制台

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 正文

Databricks如何获取数据？

Databricks如何获取数据？求大佬解答

展开

收起

爱吃鱼的程序员 2020-12-28 13:56:14 841 0

1 条回答

写回答

取消提交回答

爱吃鱼的程序员

https://developer.aliyun.com/profile/5yerqm5bn5yqg?spm=a2c6h.12873639.0.0.6eae304abcjaIB

YipitData公司的数据量是非常大的，有压缩后大小超过1PB的Parquet，60K的Tables和1.7K的Databases。他们的数据收集使用的是Readypipe，简单理解就是一个网络爬虫，在有了URL之后，将网页内存download下来然后进行存储，实现从URLs到Parquet。首先，使用Readypipe对网页进行爬取，然后以流的方式源源不断的写入kinesisFirehose，kinesisFirehose会接着将数据写入AWS的S3上。在这个阶段所存储的数据都是原始JSON数据，是没有schema的，这类数据对于数据分析师来说是很难进行使用的。因此，第二步我们要对数据进行一些格式转换和清理，比较典型的做法是将JSON文件转换成Bucket，这一步也自带了压缩效果。转换完成之后会有两个输出，如下图所示，一个是元数据，会写入GlueMetastore，另外一个是数据，会写入ParquetBucket中。通过上面的过程，就完成了数据的收集和清理过程，整个过程是非常经典，非常有参考价值的。

2020-12-28 14:35:19

赞同展开评论打赏

问答分类：

开源大数据平台 E-MapReduce

问答标签：

Databricks 数据洞察数据

问答地址：

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

《Databricks数据洞悉》介绍了哪些内容？

532

1

0

《Databricks数据洞悉》这本书从哪里下载？

584

1

0

Databricks数据洞察产品功能是什么？

602

1

0

Databricks数据洞察产品关键信息与优势是什么？

549

1

0

Databricks数据洞察产品引擎与服务是什么？

655

1

0

什么是阿里云Databricks数据洞察产品？

711

1

0

Databricks数据洞察产品核心是什么？

515

1

0

请问datax可以同步数据到aws s3么？

789

0

0

Databricks数据洞察如何构成？

803

1

0

Databricks数据洞察主要应用于哪两个方面？

457

1

0

大数据与机器学习

开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

我要提问

热门讨论

热门文章

hdfs 文件块过多（1亿）每个datanode 占3000万块(分16G内),某时刻内存陡然增加？

Databricks 和 Dataworks 都是一站式的数据分析平台，两者的区别是什么？

大佬，可以请教下，有没有遇到 com.aliyun.oss

阿里云E-MapReduce notebook 大概什么时候会正式上线？

Mem usage has exceed the limit of BE - com.mysql.j

EMR StarRocks有hive或spark的炸裂函数，类似explode可以用吗?

sqoop，任务日志刷新到这里，就一直卡住了，也没有提交到yarn，请问大神这个是什么情况？该怎么排

阿里云E-MapReduce中starrocks 2.4的mysql外部表哪个字段类型，映射不上吗？

Mlflow的核心功能是什么？

展开全部

Presto实现原理（转）

使用Spark Streaming SQL基于时间窗口进行数据统计

开源大数据周刊-第73期

开源大数据周刊-第80期

SparkSQL Catalyst解析

开源大数据周刊-第76期

开源大数据周刊-第62期

玩转阿里云EMR三部曲-高级篇交互式查询及统一数据源

如何从根源上解决 HDFS 小文件问题

展开全部

相关课程

更多

Databricks数据洞察公开课

74

5

去学习

基于阿里云MaxCompute搭建数据仓库（离线）

1199

70

去学习

基于阿里云Hologres&Flink实时计算平台搭建数据仓库（实时）

352

23

去学习

实时数据分析：使用Flink实时发现最热Github项目

1078

1

去学习

基于Flink的实时大数据应用Demo

268

1

去学习

大数据实时计算框架Spark快速入门

1015

93

去学习

相关电子书

更多

Databricks数据洞察：从入门到实践 立即下载

基于HBase和Spark构建企业级数据处理平台 立即下载

《阿里云基于Hudi构建Lakehouse实践》 立即下载

相关实验场景

更多