备案控制台登录注册

开发者社区开发与运维文章正文

多来源数据采集、处理的数据流程

2017-11-07 2513

版权

举报

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

数据平台数据处理流程图

数据准备：
主要分为几个来源：FTP数据来源，合作方推送的数据，从携程对外开放的API接口获取数据，酒店管理系统日志数据以及在线旅行社网站的数据源。
数据接入：
针对数据多来源的特性开发针对特定场景的数据接入方式。
a.FTP来源的数据：采用shel脚本开发，包括检查数据是否准备就绪、开始下载、解密解包、lzop压缩、put方式上传文件到HDFS
b.合作方推送的数据：搭建简单的web服务，接受携程推送的请求，利用Nginx完成请求负载，并利用Nginx记录请求中的数据，写入文件。后续通过日志收集系统获取数据（其实可以从合作方直接将数据推送Kafka的）
c.合作方API接口数据：开发程序形成生产者消费者模式，生产者将任务写入队列，消费者从队列中获取任务并利用线程池并发从合作方API接口获取数据
d.PMS日志数据：主要由开源Flume组件完成
e.网站数据：利用爬虫抓取网站数据

3.数据存储：
分为实时和离线数据存储两种方式，分别通过Kafka和HDFS进行存储
4.数据处理：
在数据处理环节，主要利用MapReduce和Spark进行数据处理任务的开发。
5、数据查询：
将Hive定义在数据查询这一流程，用户在使用数据平台过程中，通过Hive对数据进行查询。

多来源数据采集、处理的数据流程

本文转自巧克力黒 51CTO博客，原文链接：http://blog.51cto.com/10120275/2044014，如需转载请自行联系原作者

文章标签：

应用服务中间件

监控

API

数据采集

数据处理

技术小胖子

目录

相关文章

天落色

|

数据采集存储监控

大数据的数据来源 - 数据采集的方式（数据接入的方式）

大数据处理关键技术一般包括：大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用（大数据检索、大数据可视化、大数据应用、大数据安全等）。下面主要介绍下大数据采集

天落色

5218 0 0

星光下的赶路人

|

消息中间件数据采集 SQL

1、电商数仓（用户行为采集平台）数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume（一）

1、电商数仓（用户行为采集平台）数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume（一）

星光下的赶路人

785 0 0

大道不孤，众行致远

|

11月前

|

存储供应链容灾

平台设计-用户数据来源

平台的基本理念是一个组织只有一套系统

大道不孤，众行致远

58 0 0

阿甘兄

|

数据采集分布式计算数据挖掘

80 网站点击流数据分析案例（数据采集功能）

80 网站点击流数据分析案例（数据采集功能）

阿甘兄

102 0 0

安然AR

|

数据采集消息中间件监控

大数据数据采集的数据采集（收集/聚合）的Logstash之数据采集流程的input

在大数据领域，数据采集是非常重要的一环。而Logstash作为一个开源的数据收集引擎，可以帮助我们轻松地实现数据的采集、聚合和传输等功能。本文将会对Logstash之数据采集流程的Input进行详细介绍。

安然AR

163 1 1

安然AR

|

数据采集安全大数据

大数据数据采集的数据来源的第三方服务数据之第三方埋点数据

在大数据应用中，数据采集是非常重要的一步。除了从自有渠道、应用程序和设备中收集数据外，现在越来越多的企业开始使用第三方埋点服务提供商来获取更丰富的数据。本文将重点介绍第三方埋点数据在数据采集中的作用。

安然AR

463 0 0

安然AR

|

数据采集缓存大数据

大数据数据采集的数据采集（收集/聚合）的Flume之数据采集流程的Selector的复制模式

在大数据处理和管理中，数据采集是非常重要的一环。为了更加高效地进行数据采集，Flume作为一种流式数据采集工具得到了广泛的应用。其中，Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector复制模式，讲解其数据采集流程。

安然AR

145 0 0

安然AR

|

存储数据采集 NoSQL

大数据数据采集的数据来源的日志数据之埋点访问数据

在大数据采集中，埋点访问数据是一种常见的日志数据类型。本文将介绍什么是埋点访问数据以及如何高效地从该类型的数据中采集和处理数据。

安然AR

211 0 0

安然AR

|

数据采集存储安全

大数据数据采集的数据来源的第三方服务数据之第三方平台的请求数据

大数据是当今数字化时代最重要的资源之一。它可以帮助企业更好地理解客户，提高生产效率和利润，并改善商业决策。但是，要让大数据发挥其价值，需要正确而有效地采集数据。数据来源是大数据采集的重要组成部分，其中第三方服务数据平台也是一种常见的方式。

安然AR

472 0 0

安然AR

|

存储数据采集大数据

大数据数据采集的数据来源的日志数据之接口请求数据

在大数据采集中，数据来源多种多样，其中日志数据是一种常见的数据类型。接口请求数据是日志数据的一种形式，本文将介绍如何高效地从接口请求数据中采集和处理数据。

安然AR

208 0 0

热门文章

最新文章

Zabbix自定义KEY报错ZBX_NOTSUPPORTED: Unsupported item key.

7个聚合导航网站，资源、工具、素材应有尽有！

Ubuntu 18.04 网络配置介绍

TCP的几个状态 (SYN, FIN, ACK, PSH, RST, URG)

JS获取音频的总时长，解决Audio元素duration为NaN || Infinity 问题

ASP.NET Core 2 学习笔记（十）视图

GNU make manual 翻译( 九十八)

Undelete Plus 2.53

检测锁死进程的ID

微软开窍！Win10 Redstone再改显示缩放

开源项目：一行代码，批量 PDF 转 Word 轻松搞定！

南京大学与阿里云联合启动人工智能人才培养合作计划，已将通义灵码引入软件学院课程体系

weixin163基于微信小程序的校园二手交易平台系统设计与开发ssm(文档+源码)_kaic

weixin168“返家乡”高校暑期社会实践微信小程序设计与开发ssm(文档+源码)_kaic

鸿蒙开发难题多到崩溃？然而 10 亿终端暗藏财富密码-卓伊凡

FlashTokenizer: 基于C++的高性能分词引擎，速度可以提升8-15倍

LLM 不断提升智能下限，MCP 不断提升创意上限

阿里云可观测 2025 年 3 月产品动态

GraalVM 24 正式发布阿里巴巴贡献重要特性 —— 支持 Java Agent 插桩

PaperBench：OpenAI开源AI智能体评测基准，8316节点精准考核复现能力

相关课程

更多

阿里云实时数仓实战 - 数据生成及采集

日志服务 SLS 可观测数据分析平台介绍

阿里云实时数仓实战 - 作业调度与数据可视化

实时数据分析：使用Flink实时发现最热Github项目

阿里云实时数仓实战 - 用户行为数仓搭建

相关电子书

更多

日志数据采集与分析对接

数据采集：日志数据上传

基于资产配置业务场景下全链路监控平台

相关实验场景

更多

基于DTS构建一站式实时数据服务

Github实时数据分析与可视化

数据上云实验：基于星轨工具的dataphin批量数据上云

基于工具的数据探查

实时数据及离线数据上云方案

日志服务之告警接入与管理

下一篇

阿里云oss简介和如何对接使用