大数据的数据来源 - 数据采集的方式(数据接入的方式)

简介: 大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。下面主要介绍下大数据采集

相信大家对大数据分析应该都很熟悉,从各种信息途径(网文/广告/技术类刊物等)都可以获取到,在互联网上,也可以找到各类的大数据分析平台(如神策/诸葛IO/网易有数等),也有提供独立部署的数据服务公司(易观数科等),这些平台或公司以数据分析为输出,通过【数据接入(数据采集)】,让使用者(企业)将数据导入到平台上,依靠平台已经实现的算法/组合规则,为使用者(企业)提供结果数据展示/导出等功能服务。今天的早会,简单介绍下大数据的数据来源 - 数据采集的方式(数据接入的方式)。

随着大数据时代的来临,要想大数据被更好地认识和使用,从中提炼有价值的情报作为企业的数据资产,就需要进行大数据分析。通过大数据的分析,洞察产品应用场景、挖掘客户痛点、设计产品价值;通过用户行为偏好、购买习惯,来源渠道/媒体,构造用户画像,挖掘潜在客户。要想达到数据分析的价值,就要收集企业的各种类型的数据,将数据接入到大数据的数据仓库中,以备分析。

大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。下面主要介绍下大数据采集。
image.png

大数据数据流转图

大数据的主要数据来源有商业数据、互联网数据、传感器数据等,也可以分为线上行为数据(页面数据、交互数据、表单数据、会话数据等)和内容数据(应用日志、电子文档、机器数据、语音数据、社交媒体数据等)。由于数据来源广,数据量巨大,数据结构复杂(结构化/非结构化)等特点,决定数据必须采用数据仓库(非结构化数据结构)来存储,而不是传统的关系型数据库。

面对多种多样的数据,在设计大数据平台的的数据采集模块时,要考虑到数据采集的简便化与可用性,让企业在低成本的情况和开发下的情况进行数据的对接。目前可考虑到的数据采集方式有以下这些方式:

开放API接口

image.png

大数据平台提供一套标准化的API接口,并提供API接口的说明文档,示例程序,或者SDK包。方便用户及生态合作伙伴利用API开展基于分析模型的应用程序开发、细粒度的数据应用、自定义的分析模型与OLAP分析,多系统数据源融合治理等,支持实时及非实时的数据处理。通过API接口采集到数据,会传送到数据分发的服务上,通过数据分发服务来进行数据的实时分析,与存储。这种方式需要接入的企业具有开发能力,需要开发人员来进行数据对接的开发与调试。

数据导入的方式

image.png

大数据平台提供一套标准的数据格式文档(如Excel/csv/txt格式),按数据仓库需要的数据内容,定义好相对应的格式。在平台上提供相应文档的下载,使用者下载到文档后,按照文档的格式填充数据,再将数据导入到大数据平台上,大数据平台根据用户导入的数据,触发相应的分析程序,将分析的结果数据填充到数据结果库上,最终呈现到界面上给用户使用。这种方式需要通过人工的方式进行导入,难以做到实时的效果,适合于对数据及时性要求不高的业务场景。

数据源接入的方式

image.png

大数据平台提供使用者数据源接入的功能,通过监控数据源的数据,实现实时及离线数据的同步,如果是实时的数据,会转发到数据分发服务上,由数据分发服务对数据进行实时分析,与存储。计划支持关系型数据(如mysql, sql server, oracle等),或者通过监控数据库的binlog,来实现数据的同步。在数据同步方式建立好,需要通过配置的方式,将源数据的属性信息与大数据平台的数据仓库的属性进行关联,这样才能完成从数据源将数据转化为大数据仓库的数据结构,适应后面的数据清洗、计算、归总等处理过程。这种方式适合于企业没有开发人员,通过提供数据源,数据源的字典等信息,将数据导入到大数据平台。

数据埋点的方式

image.png

JS 埋点数据流程图
image.png

移动数据采集流程图

通过客户端的SDK(js SDK,小程序SDK),采集用户与应用界面产生交互的行为,这些行为只会在客户端发生,常见的比如页面打开、按钮点击等。这种方式适用于分析网站的流量及用户行为,用于网站或者平台的各类运营活动中,也可以实时推送到运营人员的工作台上,运营人员可以实时知道网站或平台的各类用户访问行为。需要用户有网站或平台的运维人员来嵌入SDK的程序。

日志采集方式

image.png

日志采集流程图
大数据平台按照数据仓库的源数据的结构,定义好一套标准的数据格式,用户按照此数据格式产生相应的日志文件,大数据平台通过监控日志文件的变化,将数据传输到数据仓库上,并进行实时/离线的数据处理与存储,这种方式适合于数据量巨大,及实时性要求比较高的场景。

文章来源公众号,ID:技术老男孩

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
19天前
|
数据采集 SQL 数据可视化
大数据可视化技巧:借助PowerBI提升数据故事讲述力
【4月更文挑战第8天】Power BI助力大数据可视化,支持多种数据源连接,如SQL Server、Excel,提供数据清洗与转换功能。通过选择合适图表类型、运用颜色和大小强化表达,创建交互式仪表板。讲述数据故事时,注重故事主线设计,利用叙事技巧引导观众,并添加文本说明。分享已完成报告,提升数据驱动决策能力。动手实践,体验Power BI的强大与易用。
35 0
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
48 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
40 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 Cloud Native MaxCompute
MaxCompute数据问题之没有访问权限如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
40 0
|
1天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之怎样可以将大数据计算MaxCompute表的数据可以导出为本地文件
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
1天前
|
存储 分布式计算 大数据
MaxCompute产品使用合集之大数据计算MaxCompute中需要存储16进制的数据,我该怎么操作
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
1天前
|
存储 分布式计算 大数据
MaxCompute操作报错合集之大数据计算MaxCompute将数据存储为字符串后,在查询时发现数据变成了乱码而不是16进制,如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
1天前
|
SQL 分布式计算 DataWorks
MaxCompute操作报错合集之在大数据计算MaxCompute中,原表里面有数据不能删,用alter table报错DDL is not enabled,怎么修改字段类型
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
15天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
19 3

热门文章

最新文章