大数据的数据来源 - 数据采集的方式(数据接入的方式)

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。下面主要介绍下大数据采集

相信大家对大数据分析应该都很熟悉,从各种信息途径(网文/广告/技术类刊物等)都可以获取到,在互联网上,也可以找到各类的大数据分析平台(如神策/诸葛IO/网易有数等),也有提供独立部署的数据服务公司(易观数科等),这些平台或公司以数据分析为输出,通过【数据接入(数据采集)】,让使用者(企业)将数据导入到平台上,依靠平台已经实现的算法/组合规则,为使用者(企业)提供结果数据展示/导出等功能服务。今天的早会,简单介绍下大数据的数据来源 - 数据采集的方式(数据接入的方式)。

随着大数据时代的来临,要想大数据被更好地认识和使用,从中提炼有价值的情报作为企业的数据资产,就需要进行大数据分析。通过大数据的分析,洞察产品应用场景、挖掘客户痛点、设计产品价值;通过用户行为偏好、购买习惯,来源渠道/媒体,构造用户画像,挖掘潜在客户。要想达到数据分析的价值,就要收集企业的各种类型的数据,将数据接入到大数据的数据仓库中,以备分析。

大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。下面主要介绍下大数据采集。
image.png

大数据数据流转图

大数据的主要数据来源有商业数据、互联网数据、传感器数据等,也可以分为线上行为数据(页面数据、交互数据、表单数据、会话数据等)和内容数据(应用日志、电子文档、机器数据、语音数据、社交媒体数据等)。由于数据来源广,数据量巨大,数据结构复杂(结构化/非结构化)等特点,决定数据必须采用数据仓库(非结构化数据结构)来存储,而不是传统的关系型数据库。

面对多种多样的数据,在设计大数据平台的的数据采集模块时,要考虑到数据采集的简便化与可用性,让企业在低成本的情况和开发下的情况进行数据的对接。目前可考虑到的数据采集方式有以下这些方式:

开放API接口

image.png

大数据平台提供一套标准化的API接口,并提供API接口的说明文档,示例程序,或者SDK包。方便用户及生态合作伙伴利用API开展基于分析模型的应用程序开发、细粒度的数据应用、自定义的分析模型与OLAP分析,多系统数据源融合治理等,支持实时及非实时的数据处理。通过API接口采集到数据,会传送到数据分发的服务上,通过数据分发服务来进行数据的实时分析,与存储。这种方式需要接入的企业具有开发能力,需要开发人员来进行数据对接的开发与调试。

数据导入的方式

image.png

大数据平台提供一套标准的数据格式文档(如Excel/csv/txt格式),按数据仓库需要的数据内容,定义好相对应的格式。在平台上提供相应文档的下载,使用者下载到文档后,按照文档的格式填充数据,再将数据导入到大数据平台上,大数据平台根据用户导入的数据,触发相应的分析程序,将分析的结果数据填充到数据结果库上,最终呈现到界面上给用户使用。这种方式需要通过人工的方式进行导入,难以做到实时的效果,适合于对数据及时性要求不高的业务场景。

数据源接入的方式

image.png

大数据平台提供使用者数据源接入的功能,通过监控数据源的数据,实现实时及离线数据的同步,如果是实时的数据,会转发到数据分发服务上,由数据分发服务对数据进行实时分析,与存储。计划支持关系型数据(如mysql, sql server, oracle等),或者通过监控数据库的binlog,来实现数据的同步。在数据同步方式建立好,需要通过配置的方式,将源数据的属性信息与大数据平台的数据仓库的属性进行关联,这样才能完成从数据源将数据转化为大数据仓库的数据结构,适应后面的数据清洗、计算、归总等处理过程。这种方式适合于企业没有开发人员,通过提供数据源,数据源的字典等信息,将数据导入到大数据平台。

数据埋点的方式

image.png

JS 埋点数据流程图
image.png

移动数据采集流程图

通过客户端的SDK(js SDK,小程序SDK),采集用户与应用界面产生交互的行为,这些行为只会在客户端发生,常见的比如页面打开、按钮点击等。这种方式适用于分析网站的流量及用户行为,用于网站或者平台的各类运营活动中,也可以实时推送到运营人员的工作台上,运营人员可以实时知道网站或平台的各类用户访问行为。需要用户有网站或平台的运维人员来嵌入SDK的程序。

日志采集方式

image.png

日志采集流程图
大数据平台按照数据仓库的源数据的结构,定义好一套标准的数据格式,用户按照此数据格式产生相应的日志文件,大数据平台通过监控日志文件的变化,将数据传输到数据仓库上,并进行实时/离线的数据处理与存储,这种方式适合于数据量巨大,及实时性要求比较高的场景。

文章来源公众号,ID:技术老男孩

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
21天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
22天前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
43 3
|
1天前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
5天前
|
SQL 存储 大数据
大数据中数据提取
【10月更文挑战第19天】
13 2
|
6天前
|
数据采集 传感器 大数据
大数据中数据采集 (Data Collection)
【10月更文挑战第17天】
31 2
|
21天前
|
SQL 消息中间件 大数据
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
33 1
|
21天前
|
SQL 大数据 Apache
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
59 1
|
21天前
|
分布式计算 监控 大数据
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
44 1
|
22天前
|
消息中间件 缓存 NoSQL
大数据-49 Redis 缓存问题中 穿透、雪崩、击穿、数据不一致、HotKey、BigKey
大数据-49 Redis 缓存问题中 穿透、雪崩、击穿、数据不一致、HotKey、BigKey
38 2
|
14天前
|
NoSQL 大数据 测试技术
想从事大数据方向职场小白看过来, 数据方面的一些英文解释
想从事大数据方向职场小白看过来, 数据方面的一些英文解释
30 0