数据进入Maxcompute的N种方式,大数据实战Demo系统数据上云实践

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 2018 “MaxCompute开发者交流”钉钉群直播分享,由阿里云数据技术专家彬甫带来以“数据进入MaxCompute的N种方式”为题的演讲。本文讲述了在阿里云内部开发了一个实战Demo系统,它能够实现自动全链路的大数据处理流程,其中包括离线的和实时数据的,接下来将为大家揭晓实战Demo系统是怎样实现自动全链路的大数据处理流程的。

2018 “MaxCompute开发者交流”钉钉群直播分享,由阿里云数据技术专家彬甫带来以“数据进入MaxCompute的N种方式”为题的演讲。本文讲述了在阿里云内部开发了一个实战Demo系统,它能够实现自动全链路的大数据处理流程,其中包括离线的和实时数据的,接下来将为大家揭晓实战Demo系统是怎样实现自动全链路的大数据处理流程的。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧!
直播视频回顾
PPT下载请点击
以下内容根据现场分享整理而成。

大数据中心的架构

image001


上图为大数据实战Demo的整体架构,它的上云方式是离线的。要实现大数据实战Demo的应用,架构必需包含数据源系统、数据仓库、大数据应用系统平台、Web/应用平台、流程调度、数据加工及展现、实时处理平台,其中数据仓库包含临时层、基础数据层和应用层三个层次。
在整个架构中,数据上云是重中之重,它可以针对不同的数据源使用不同的上云方式。
首先,数据上云到MAXCOMPUTE(数据存储)大数据存储及处理平台上,并将数据进行处理;接着,将数据传输到临时层,再经过简单转换进到基础数据层;最后,将数据进一步汇总到应用层进而提供服务。
在这个架构中,是通过协议工具DataWorks、DataX进行流程调度的,通过QuickBI、DataV进行数据展现的,通过DATEHUB+STREAMCOMPUTE进行数据处理实时数据的,最后系统将处理后的数据存放到大数据应用平台的RDS里面,并通过QuickBI、DataV进行展现。

数据上云(同步)方式

数据上云有许多种方式,对于MAXCOMPUTE产品而言,它使用的典型的自带工具有tunnel、dataX、DataWorks,具体介绍如下:

  • 使用tunnel:使用tunnel命令可进行数据的上传、数据的下载、数据文件的处理等。
  • 使用dataX:dataX是离线数据的同步工具,可高效地实现各异构数据源之间的数据同步功能,以及把数据上传到MAXCOMPUTE中去。其中,异构数据源包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、OTS、OSS、MaxCompute 等。总之,Tunnel工具是非常重要的,如果没有Tunnel工具,在数据同步后数据上云到MAXCOMPUTE时会出现不统一的问题,最终造成开发困难。
  • 使用DataWorks:使用DataWorks数据集成来定义数据同步任务,通过同步任务最终达到数据上云的目的。它的模式是向导模式或脚本模式,是基于DataX协议的图形界面来进行操作的。在使用DataWorks进行数据集成中需要做到四步,第一步,配置数据来源(库和表)和数据流向(库和表);第二步,对字段映射关系进行配置,且左侧“源表字段”和右侧“宿表字段”为一一对应的关系;第三步,对源表的字段进行过滤和数据加载控制,但要注意的是对源表的字段进行过滤必须在WHERE条件上,且不需要写WHERE关键字;第四步,对同步速率需进行限速控制,切分键一般用源表主键,当容错记录数和比率指超过阈值时,作业报错必须终止。最终,使得数据上云到MAXCOMPUTE大数据存储及处理平台上。

实时数据上云(同步)方式

Logstash

Logstash是一种分布式日志收集框架,简洁强大,经常与ElasticSearch,Kibana配置组成著名的ELK技术栈,非常适合用来做日志数据的分析。 阿里云流计算为了方便用户将更多数据采集进DataHub中,提供了针对Logstash的DataHub Output/Input插件。使用Logstash,便可以轻松享受到Logstash开源社区多达30多种数据源的支持,同时Logstash还支持filter对传输字段进行自定义加工等功能。

DataHub API

阿里云流数据处理平台DataHub是流式数据(Streaming Data)的处理平台,可提供对流式数据的发布、订阅和分发功能,还可以轻松地构建基于流式数据的分析和应用。DataHub服务可以对各种移动设备、应用软件、网站服务、传感器等产生的大量流式数据进行持续不断的采集、存储和处理。可以编写应用程序或者使用流计算引擎来处理写入到DataHub中的流式数据,例如,实时web访问日志、应用日志、各种事件等,并产出各种实时的数据处理结果,例如,实时图表、报警信息、实时统计等。它相较于Logstash而言,这种方式性能更优,更适于处理复杂的数据需求。

数据迁移及实时数据同步(上云)

数据传输服务(Data Transmission Service) DTS支持关系型数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。 它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。相对于第三方数据流工具而言,数据传输服务 DTS 可提供更丰富多样、高性能、高安全可靠的传输链路,同时它提供了诸多便利功能,极大地方便了传输链路的创建及管理。
数据传输致力于在公有云、混合云场景下,解决远距离、毫秒级异步数据的传输难题。它底层的数据流基础设施为阿里双11异地多活基础架构,为数千下游应用提供实时数据流,已在线上稳定运行三年之久。

数据架构层的实现

企业数据模型在数据架构层的实现

image003


企业数据模型在实现数据架构层时,每一层都有每一层的规范。数据上云到MAXCOMPUTE(数据存储)大数据存储及处理平台后,将数据进行处理,并把数据放到临时层,在经过简单转换进到基础数层,最后将数据进一步汇总到应用层。临时层的模型设计方式与源系统模型一致,都是统一命名规范的,它设计具有仅保存临时数据的原则,可应用于ETL用户数据加工与处理。基础数据层偏3NF设计,它是面向数据整合、长期历史数据存储、详细数据、通用汇总数据的设计,可应用于席查询、应用层数据源等。应用层的设计方式是反正则化设计、星型/雪花模型设计,它是面向一个或几个应用进行模型设计的,可应用于报表查询、数据挖掘等。

数据生成

在TPC官网上下载TPC-DS工具,使用下载后的工具生成TPC-DS数据文件,数据文件再生成hdfs、Hbase、OSS、RDS数据源。Hdfs和Hbase数据源是使用Hadoop客户端命令把TPC-DS数据文件加载到hdfs和Hbase中,数据源OSS是通过OSS客户端命令把TPC-DS数据文件加载到OSS中,数据源 RDS是通过dataworks数据集成把数据文件加载到RDS中。

数据上云

数据上云任务在设计目录架构和命名规范时,根目录应为01_数据导入格式,目录架构应遵循数据源的不同创建子目录,且相同数据源的数据导入任务放到同一个目录下的规则,命名为源名称+”To”+目标名称格式,值得注意的是任务类型和命名规则的脚本模式和向导模式是不同的。
数据上云任务开发分为数据源配置、脚本模式任务开发、向导模式任务开发、任务调度属性配置四个模块,四个模块具体操作步骤介绍如下:

  • 数据源配置模块:以FTP配置为例,操作步骤为新增数据源、结构化存储-FTP、属性选择及填写、测试连通性、点击完成,最后,在数据源页面就可以看到已配置的数据源。
  • 脚本模式任务开发模块:以ftp->MaxCompute为例,操作步骤为在数据集成界面新建任务、选择脚本模式、点击确认、生成配置文件模板、Ftp Reader配置、MaxCompute Writer配置、点击保存按钮,最终根据命名规范保存该任务。
  • 向导模式任务开发模块:以RDS->MaxCompute为例,具体操作步骤为数据集成->同步任务->向导模式、选择数据源、选择表、添加数据过滤条件(可选)、配置切分键(可选)、选择目标数据源、选择目标表、填写分区信息、选择清理规则、字段映射配置、通道控制相关参数配置、与切分键结合使用、填写任务名称、选择保存位置,最后确认任务创建已完成。
  • 任务调度属性配置模块:DataWorks任务创建成功后,可以对其相关属性进行配置。当数据集成->点击提交按钮时,适用于刚刚创建完成的任务和初始属性的配置,当数据开发->调度配置时,适用于修改和添加任务属性。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
传感器 监控 大数据
指挥学校大数据系统解决方案
本系统集成九大核心平台,包括中心化指挥、数据处理、学生信息、反校园欺凌大数据、智慧课堂、学生行为综合、数据交换及其他外部系统云平台。通过这些平台,系统实现对学生行为、课堂表现、校园安全等多维度的实时监控与数据分析,为教育管理、执法机关、心理辅导等提供强有力的数据支持。特别地,反校园欺凌平台利用多种传感器和智能设备,确保及时发现并处理校园霸凌事件,保障学生权益。同时,系统还涵盖超市、食堂、图书馆、消防安全等辅助云平台,全面提升校园智能化管理水平。
|
5月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
370 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
3月前
|
传感器 人工智能 大数据
高科技生命体征探测器、情绪感受器以及传感器背后的大数据平台在健康监测、生命体征检测领域的设想与系统构建
本系统由健康传感器、大数据云平台和脑机接口设备组成。传感器内置生命体征感应器、全球无线定位、人脸识别摄像头等,搜集超出现有科学认知的生命体征信息。云平台整合大数据、云计算与AI,处理并传输数据至接收者大脑芯片,实现实时健康监测。脑机接口设备通过先进通讯技术,实现对健康信息的实时感知与反馈,确保身份验证与数据安全。
|
6月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
489 1
|
2月前
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。
|
1月前
|
存储 分布式计算 运维
课时6:阿里云MaxCompute:轻松玩转大数据
阿里云MaxCompute是全新的大数据计算服务,提供快速、完全托管的PB级数据仓库解决方案。它拥有高效的压缩存储技术、强大的计算能力和丰富的用户接口,支持SQL查询、机器学习等高级分析。MaxCompute兼容多种计算模型,开箱即用,具备金融级安全性和灵活的数据授权功能,帮助企业节省成本并提升效率。
|
6月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
112 3
|
5月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
6月前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
119 0
|
1月前
|
SQL 分布式计算 数据挖掘
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
川航选择引入 SelectDB 建设湖仓一体大数据分析引擎,取得了数据导入效率提升 3-6 倍,查询分析性能提升 10-18 倍、实时性提升至 5 秒内等收益。
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 下一篇
    oss创建bucket