多来源数据采集、处理的数据流程

简介:

数据平台数据处理流程图

  1. 数据准备:
    主要分为几个来源:FTP数据来源,合作方推送的数据,从携程对外开放的API接口获取数据,酒店管理系统日志数据以及在线旅行社网站的数据源。
  2. 数据接入:
    针对数据多来源的特性开发针对特定场景的数据接入方式。
    a.FTP来源的数据:采用shel脚本开发,包括检查数据是否准备就绪、开始下载、解密解包、lzop压缩、put方式上传文件到HDFS
    b.合作方推送的数据:搭建简单的web服务,接受携程推送的请求,利用Nginx完成请求负载,并利用Nginx记录请求中的数据,写入文件。后续通过日志收集系统获取数据(其实可以从合作方直接将数据推送Kafka的)
    c.合作方API接口数据:开发程序形成生产者消费者模式,生产者将任务写入队列,消费者从队列中获取任务并利用线程池并发从合作方API接口获取数据
    d.PMS日志数据:主要由开源Flume组件完成
    e.网站数据:利用爬虫抓取网站数据

3.数据存储:
分为实时和离线数据存储两种方式,分别通过Kafka和HDFS进行存储
4.数据处理:
在数据处理环节,主要利用MapReduce和Spark进行数据处理任务的开发。
5、数据查询:
将Hive定义在数据查询这一流程,用户在使用数据平台过程中,通过Hive对数据进行查询。

多来源数据采集、处理的数据流程



     本文转自巧克力黒 51CTO博客,原文链接:http://blog.51cto.com/10120275/2044014,如需转载请自行联系原作者



相关文章
大数据的数据来源 - 数据采集的方式(数据接入的方式)
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。下面主要介绍下大数据采集
5218 0
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(一)
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(一)
平台设计-用户数据来源
平台的基本理念是一个组织只有一套系统
大数据数据采集的数据采集(收集/聚合)的Logstash之数据采集流程的input
在大数据领域,数据采集是非常重要的一环。而Logstash作为一个开源的数据收集引擎,可以帮助我们轻松地实现数据的采集、聚合和传输等功能。本文将会对Logstash之数据采集流程的Input进行详细介绍。
163 1
大数据数据采集的数据来源的第三方服务数据之第三方埋点数据
在大数据应用中,数据采集是非常重要的一步。除了从自有渠道、应用程序和设备中收集数据外,现在越来越多的企业开始使用第三方埋点服务提供商来获取更丰富的数据。本文将重点介绍第三方埋点数据在数据采集中的作用。
463 0
大数据数据采集的数据采集(收集/聚合)的Flume之数据采集流程的Selector的复制模式
在大数据处理和管理中,数据采集是非常重要的一环。为了更加高效地进行数据采集,Flume作为一种流式数据采集工具得到了广泛的应用。其中,Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector复制模式,讲解其数据采集流程。
145 0
大数据数据采集的数据来源的日志数据之埋点访问数据
在大数据采集中,埋点访问数据是一种常见的日志数据类型。本文将介绍什么是埋点访问数据以及如何高效地从该类型的数据中采集和处理数据。
211 0
大数据数据采集的数据来源的第三方服务数据之第三方平台的请求数据
大数据是当今数字化时代最重要的资源之一。它可以帮助企业更好地理解客户,提高生产效率和利润,并改善商业决策。但是,要让大数据发挥其价值,需要正确而有效地采集数据。数据来源是大数据采集的重要组成部分,其中第三方服务数据平台也是一种常见的方式。
472 0
大数据数据采集的数据来源的日志数据之接口请求数据
在大数据采集中,数据来源多种多样,其中日志数据是一种常见的数据类型。接口请求数据是日志数据的一种形式,本文将介绍如何高效地从接口请求数据中采集和处理数据。
208 0