数据湖构建

首页 标签 数据湖构建
# 数据湖构建 #
关注
51内容
数禾云上数据湖最佳实践
数禾科技从成立伊始就组建了大数据团队并搭建了大数据平台。并在ECS上搭建了自己的Cloudera Hadoop集群。但随着公司互联网金融业务的快速扩张发展,大数据团队承担的责任也越来越重,实时数仓需求,日志分析需求,即席查询需求,数据分析需求等,每个业务提出的需求都极大的考验这个Cloudera Hadoop集群的能力。为了减轻Cloudera集群的压力,我们结合自身业务情况,在阿里云上落地一个适合数禾当前现实状况的数据湖。
数禾云上数据湖最佳实践
数禾科技从成立伊始就组建了大数据团队并搭建了大数据平台。并在ECS上搭建了自己的Cloudera Hadoop集群。但随着公司互联网金融业务的快速扩张发展,大数据团队承担的责任也越来越重,实时数仓需求,日志分析需求,即席查询需求,数据分析需求等,每个业务提出的需求都极大的考验这个Cloudera Hadoop集群的能力。为了减轻Cloudera集群的压力,我们结合自身业务情况,在阿里云上落地一个适合数禾当前现实状况的数据湖。
数禾云上数据湖最佳实践
数禾科技从成立伊始就组建了大数据团队并搭建了大数据平台。并在ECS上搭建了自己的Cloudera Hadoop集群。但随着公司互联网金融业务的快速扩张发展,大数据团队承担的责任也越来越重,实时数仓需求,日志分析需求,即席查询需求,数据分析需求等,每个业务提出的需求都极大的考验这个Cloudera Hadoop集群的能力。为了减轻Cloudera集群的压力,我们结合自身业务情况,在阿里云上落地一个适合数禾当前现实状况的数据湖。
金融科技数据湖构建和管理之道
上海数禾信息科技有限公司是一家拥有小贷牌照和融资担保牌照的金融科技公司(下称“数禾科技”),公司的核心产品是“还呗”。本文要分享的主题是数禾科技如何在云上构建和管理数据湖。
官宣!阿里云重磅发布云原生数据湖体系
介绍如何基于阿里云 OSS 、JindoFS 和数据湖构建(Data Lake Formation,DLF)等基础服务,同时结合阿里云上丰富的计算引擎,打造一个全新云原生数据湖体系。
数据湖构建服务搭配Delta Lake玩转CDC实时入湖
Change Data Capture(CDC)用来跟踪捕获数据源的数据变化,并将这些变化同步到目标存储(如数据湖或数据仓库),用于数据备份或后续分析,同步过程可以是分钟/小时/天等粒度,也可以是实时同步。CDC方案分为侵入式(intrusive manner)和非倾入性(non-intrusive manner)两种。
多引擎集成挖掘湖上数据价值
在 EMR 集群创建阶段已经自动安装了数据构建服务的相关SDK,同时EMR上的开源计算引擎 Spark、Hive 和 Presto 都完成了对数据湖构建服务的兼容支持,所以用户通过 EMR 引擎可获得数据湖分析的最佳体验。
| |
来自: 数据库
一步即可!阿里云数据湖分析服务构建MySQL低成本分析方案
作为最为流行的开源数据库,MYSQL正成为越来越多企业的选择。MySQL数据库大量应用在各种业务系统,除了在线业务逻辑的读写,还会有一些额外的数据分析需求,如BI报表、可视化大屏、大数据应用等。但受限于MySQL架构等问题,在面对数据分析场景时,其往往力不从心。
免费试用