大数据平台应用 17 个关键技术处理

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 一、大数据中的数据仓库和Mpp数据库如何选型?在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto。Mpp架构的数据库主要用于即席查询场景,暨对数据查询效率有较高要求的场景,而对数据仓库的查询效率要求无法做大MPP那样,所以更多地适用与离线分析场景。

一、大数据中的数据仓库和Mpp数据库如何选型?


在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto。Mpp架构的数据库主要用于即席查询场景,暨对数据查询效率有较高要求的场景,而对数据仓库的查询效率要求无法做大MPP那样,所以更多地适用与离线分析场景。

Hadoop已经是大数据平台的实时标准,其中Hadoop生态中有数据仓库Hive,可以作为大数据平台的标准数据仓库,

对于面向应用的MPP数据库,可以选择MYCAT(mySql的分布式架构)或是impala(基于Hive和Hbase),包括对称式和非对称式两种分布式模式

e1e06d4eb8f9e9b14b68477db0fabb17d3eb7eb3


二、大数据分析中的实时推荐是如何实现的?


实时推荐需要使用实时处理框架结合推荐算法,从而做到对数据的实时处理和推荐。实时处理框架有Storm、Flink、SparkStreaming,组件可以对接Kafka,获取实时流数据,在实时框架内部实现对数据的处理过程。

1、实时推荐需要借助实时计算框架例如Spark或是Strom技术,

2、数据采集采用Flume+Kafka作为数据缓存和分发作用

3、同时还需要有非常适合的实时推荐算法,例如基于用户画像的实时推荐,或是基于用户行为的实施推荐、或是对商品相识度的实施推荐等不同的算法




三、数据治理有何高效的处理方法或工具?

数据治理没有具体的工具和方法,这是一项浩大的工程,可能牵扯到每个部门,既有技术人员参与,又要有业务人员参与,关键时刻还要有领导进行决策。每个公司的数据情况不同,处理方法也不尽相同,基本的方法是有的,暨通过对数据的梳理(元数据、主数据),发现数据质量问题,再通过质量标准或组织协调的方式,对数据进行标准化处理的。

数据治理是一项人力和辛苦活,没有捷径和什么有效的工具,而且在一个大数据项目中,数据治理是非常重要的一个环节,因为只有数据质量满足前端应用需求,才有可能挖掘和分析出准确的结果。

具体数据处理方法还需要看实际业务情况,例如数据库、数据类型、数据规模等

数据治理的过程是一个对业务系统数据梳理的过程,过程中发现的问题会反馈给业务部门,同时还要制定统一的质量和稽核标准,就好比给每个业务系统数据生成线上增加一个质量监管员。



四、大数据分析中针对日志分析的框架如何选型?


elk 常用组件, 上层业务封装还需要求其他组件完成

日志分析 elk + redis + mysql 热点数据 , 热点分析

等等, 看你的业务是什么模式和 开发人员偏好

现在免费且主流的均已采用Elastic公司的ELK框架,均为轻量级组件,且简单易用,从采集到界面展示几乎用不了多少时间即可搭建完毕,Kibana界面效果优异,包含地图、报表、检索、报警、监控等众多功能。



五、请问在大数据平台搭建过后,大数据平台的运维监控主要关注哪些?


大数据平台的运维监控主要包括硬件和软件层面,具体如下:

1、主机、网络、硬盘、内存、CPU等资源。

在拥有几十台以上的集群环境中,大量的数据计算对硬件尤其是硬盘的损耗是较大的,在大量计算中,网络也往往会成为一个瓶颈,这些都需要时刻关注。大数据学习交流扣裙:数字522+189+最后307

2、平台层面

主要监控平台各个组件的状态、负载情况,有异常及时报警。

3、用户层面

大数据平台建设是为了服务公司内部广大用户的,所以资源既是共享的,又需要是隔离的,所以需要对用户对平台资源的使用情况做好监控,及时发现异常使用情况,防止对其他用户产生不良影响,影响正常业务开展。

大数据平台搭建后,运维监控的主要内容包括

1、分布式架构的底层虚拟机的运行情况(CPU、内存、网络、硬盘等)

2、各个组件(HDFS 、MR、 SPark 、Hive 、Hbase、 IMpla、FLume、 Spooq等)的运行状态和告警信息



六、数据量大,数据类型繁杂的情况下,如何做性能保障?


如何保障大数据平台的处理性能,关键还是看应用场景和业务需求,不是每种业务都需要高性能。

1、在类OLTP场景下,大数据平台有像HBase一样的组件,保证数据读写具有极高的性能和吞吐量。

2、在OLAP场景下,大数据平台有像Impala、Kudu、Kylin、Druid这样引擎,通过内存或预计算的方式保证查询性能。

3、在离线分析场景,有像Hive、Spark、Mapreduce这样的引擎,分布式处理海量数据,在这种场景下,性能和响应时间已无法做到保证。

1、大数据的底层全部都是分布式架构,分布式架构具有很强的横向扩展能力,而且是使用廉价的PC服务器即可组件分布式架构,只有增加服务器数据,性能也可以横向扩展,

2、另外大数据平台在数据处理方面也均是采用分布式处理技术(例如 MR、 Hive、 Hbase 、 HDFS)

3、另外还有一些是基于内存的数据计算和处理架构Spark技术,大数据平台下对性能的要求没有和传统的交互式的响应不太一样,大数据分为实时和离线计算,实时计算要求响应时间,离线计算对于响应时间没有太高的要求。



七、数据预处理问题?


钢铁行业的数据比较复杂,对于对生产工艺不是特别了解的IT人员如何进行数据处理,或是应该由谁来进行数据处理?

数据预处理的过程包括数据的清洗、集成、整合、标准化等过程。

1、数据预处理的过程是由承建大数据项目的供应商来处理,或是专门做数据治理的公司来负责这项工作。

2、大数据项目中,数据的预处理会花费大量的时间,而且是手工工作量较多,如果对业务部太数据,势必会有很多问题,最好是由对业务相对了解的人员来参与数据的预处理的工作。

只有高质量的数据才会有分析的价值,所以预处理过程显得尤为重要。数据是业务的数字化形式,对于比较复杂的行业数据,技术人员是不会知道怎么处理才能满足业务分析的需求的,必须要业务分析人员提出具体的数据处理需求,技术人员才能设计满足相应需求。

bec25fe83b23412856c18df06c9d7ebd6c1c1620


八、从传统数仓向大数据平台迁移的规划?


传统数仓很多用oracle做的,现在想转入大数据平台,有什么好的迁移规划方案,以及迁移可能遇到的问题,谢谢!

1、数据仓库无论是用oracle,还是其他数据库,此类型的数据转入大数据平台都有个ETL的过程,将数据统一存放在HDFS分布式文件系统中,上层则借助于Hive构建数据仓库,用于离线数据跑批计算,Hbase,用于支持数据高并发在线查询和非结构化数据的对象存储来满足前段的应用分析需求

2、可以利用数据仓库中原有的数据共享交换平台,实时将数据推送到共享平台,例如Sqoop数据导入结构化数据,利用Flume和Kafka对非结构化类数据进行采集并将之转为结构化数据落地HDFS进行存储



九、传统数仓转向大数据平台的必要性?


如题,或者什么场景的的传统数仓适合转向大数据平台。转向大数据平台后都解决了什么样的问题,暴露出什么样的问题?

大数据平台采用分布式架构,用于解决海量数据的存储和分析问题,传统数仓无法解决上百TB及PB级的分析问题。大数据平台由于架构新,使用模式也不尽相同,有的使用sql,有的使用spark编程,有的使用mapreduce编程,所以存在一定的学习成本;大数据平台还在逐步完善中,尤其是用户管理、安全、元数据管理等方面还存在一定问题,使用时需要注意。



十、大数据底层保持数据强一致性是如何实现的?


大数据底层的数据强一致性是通过HDFS的分布式架构中的冗余副本策略和心跳检测机制实现的。

1、冗余副本策略:HDFS处理节点失效的一个方法就是数据冗余,即对数据做多个备份,在HDFS中可以通过配置文件设置备份的数量,默认是3副本,只有数据在3个副本上均完成写成功,才返回。

2、心跳机制:检测节点失效使用“心跳机制”。每个 Datanode 节点周期性地向 Namenode 发送心跳信号。 Namenode 通过心跳信号的缺失来检测这一情况,并将这些近期不再发送心跳信号 Datanode 标记为宕机,不会再将新的 IO 请求发给它们。

N: 3 (数据备份的数目)

W: 1 (数据写入几个节点返回成功),默认是1

R: 1 (读取数据的时候需要读取的节点数)

W + R < N

Hadoop没有办法保证所有数据的强一致性,但是通过副本机制保证一定程度的一致性,如果某一个datanode宕机,将会在其他datanode上重建一个副本,从而达到副本一致性的目的,且在写入的时候可以采用一次写入多个副本的方式保证即使某个副本对应机器挂掉,也不影响整个数据。



十一、大数据平台加入到灾备怎么做?有成熟的思路或者方案吗?


1、灾备解决的是业务连续性的问题,大数据平台本身提供多副本机制是保障业务的稳定和可靠运行的

2、目前大数据平台基本是都是部署在虚拟机或是容器之上,很少有直接部署在物理服务器+存储架构之上

3、这样虚拟化和容器本身就带来很强的业务连续性的功能,例如虚拟机的热迁移、HA、DRS等功能



十二、大数据底层平台对硬件的要求有哪些?


1、在企业内部,最好保证集群中所有机器的配置保持一直,否则容易出现一台机器运行较慢,从而拖慢整体任务运行速度的情况。

2、大数据平台对网络要求较高,在几十台机器的集群下,如果采用千兆网络,极其容易出现某一个大任务把带宽占满的情况。

3、平台对CPU、硬盘的需求相对网络要低点,但也不能太低,否则IO上不来,任务也会被拖慢。

4、平台对内存的要求高,尤其在一个平台内搭建Impala、Spark、MR、Hive、HBase等组件共享资源的情况下,更应该配备高内存。

支持楼上,X86分布式部署即可。尤其注意系统IO性能,可配置SSD。

大吞吐量、大容量,高带宽。

1、Hadoop现在已经是大数据的事实标准,而 Hadoop的出现就是运行在廉价商用服务器上,以集群之力,分而治之地解决先前传统数据库、传统存储、传统计算模型束手无策的问题,让大规模数据的处理成为了可能。

2、对于硬件没有太高的要求,普通的PC服务器即可,但是为了高更的性能,服务器内可以增加SSD固态硬盘或是内容等资源。



十三、大数据人才培养?


向大数据平台转型成功的关键,人才占了很大的比例,如何有效平滑的推动人才队伍的建设?

大数据涉及数据采集、数据的清洗集成、治理、大数据平台的安装调试和运维、大数据的开发、大数据的算法工程师、大数据的挖掘工程师等。

大数据人才需求是一种金字塔架构,最底层需求量最大的是数据采集、清洗和治理的人员(基本上以人工为主),在上层就是数据平台的安装调试(必须有linux基础),往上就是大数据的开放、算法和挖掘工程师了。

如果是用户单位,需要提前培养大数据的意识,要认识到大数据的重要性和可行性,培养可以为项目后期提供运维的人员为主。



十四、用户画像用到了哪些大数据技术和工具,做的时候应该注意什么?


所谓用户画像就是用多维度的数据来描述一个用户的整体特征,涉及到特征工程的提取,打标签的过程。

例如用户的属性、偏好、生活习惯、行为、运动、作息等信息,抽象出来的标签化用户模型。通俗来讲就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。

涉及到数据采集、数据建模、挖掘分析等,需要注意一下几点:

1、在画像创建之前需要知道用户关心的的特征维度和用户的行为等因素,从而从总体上掌握对用户需求需求。

2、创建用户画像不是抽离出典型进行单独标签化的过程,而是要融合边缘环境的相关信息来进行讨论。

3、用户画像有时候需要变化、分为短期内的画像、或是长期的画像等。

4.大数据学习交流扣裙:数字522+189+最后307

28d92425aac491aaa0346fd704c209526575b5d4


十五、一般一个大数据项目实施过程中应该注意什么?


这个过程与一般的项目没有本质区别,基本的需求、分析、设计、开发、测试都是要有的。不同的地方是大数据项目采用的技术不像传统的基于数据库的SQL开发那么简单,对编程能力的要求较高,同时对遇到问题的排查能力要求也较高,因为是分布式运行,导致问题排查变得非常复杂。

1、大数据项目实施过程中涉及到和客户的众多业务系统进行对接的,也就是数据的采集,到数据的清洗、集成、标准、数据治理、数据的建模、挖掘分析和最后的可视化等过程。

2、在和业务系统对接的过程中需要注意的必须拿到业务系统的数据字典(如果没有,拿到数据对数据的识别和分析非常困难)。

3、数据业务分析维度,需要项目经理进场需要客户明确的需求后确定系统的范围和边界(否则需求和范围不停的变,开发周期遥遥无期)。

4、准备好大数据平台要求的底层环境和资源(CPU、内存、硬盘、网络等),大数据项目对于这些资源的要求还是相对比较高的,例如硬盘容量,例如要分析日志类的数据或是流水数据。



十六、企业级大数据平台如何选型?


现在,大数据平台基本特指Hadoop平台了,选型主要还是指Haoop管理平台。现在主流的厂商有cloudera和Hortonworks,国内有华为的fusion insight和星环科技的产品。相对来说,cloudera具有较大优势,市场占有率也较高,管理平台非常实用,对与平台管理人员来说是不可多得的好帮手

Hadoop现在已经是大数据的事实标准了,企业级大数据平台建议选择基于Hadoop开源的生态,目前对于Hadoop开源商业推广最大的两个场景及cloudera(CDH版本,适合于linux系统上运行)和Hortonworks(HDP版本,支持运行在windows系统上运行),目前是一家公司了,可以选择其中一家产品即可



十七、大数据中的实时计算SPark和Storm优缺点是什么?分别适合于哪些场景?


SparkStreaming和Strom都属于实时计算框架,有点都是可以做到对数据的实时处理。SparkStreaming是基于Spark Core实现的,所以对数据的处理要形成RDD,暨要形成数据窗口,所以其处理过程可以称之为微批处理,而storm是可以做到实时处理每一条数据的,所以相对来说,实时性比sparkstreaming更高。所以storm更适合处理实时性要求极高的场景。

SPark体系中的 Spark Streaming严格意义上属于批处理计算框架,准实时,基于内存的计算框架,性能可以达到秒级,大数据除了实时计算之外,还包括了离线批处理、交互式查询等业务功能,而且实时计算中,可能还会牵扯到高延迟批处理、交互式查询等功能,就应该首选Spark生态,用Spark Core开发离线批处理,用Spark SQL开发交互式查询,用Spark Streaming开发实时计算,三者可以无缝整合,给系统提供非常高的可扩展性。

Storm是纯实时计算框架,来一条数据,处理一条数据,可以达到毫秒级,适合于要求可靠的事务机制和可靠性机制,即数据的处理完全精准,一条也不能多,一条也不能少,也可以考虑使用Storm。

形象点比喻,SPark就好比商城的直梯,Storm就好比商场的扶梯。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
9天前
|
存储 分布式计算 大数据
数据仓库与数据湖在大数据架构中的角色与应用
在大数据时代,数据仓库和数据湖分别以结构化数据管理和原始数据存储见长,共同助力企业数据分析。数据仓库通过ETL处理支持OLAP查询,适用于历史分析、BI报表和预测分析;而数据湖则存储多样化的原始数据,便于数据探索和实验。随着技术发展,湖仓一体成为趋势,融合两者的优点,如Delta Lake和Hudi,实现数据全生命周期管理。企业应根据自身需求选择合适的数据架构,以释放数据潜力。【6月更文挑战第12天】
31 5
|
10天前
|
分布式计算 Hadoop 分布式数据库
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Hadoop生态系统介绍(二)大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
28 2
|
17天前
|
数据采集 传感器 大数据
利用大数据进行精准农业:技术与挑战
【6月更文挑战第6天】大数据技术正变革农业,推动精准农业发展。通过实时收集农田数据(如土壤条件、作物生长情况),运用数据分析预测病虫害,优化生产管理。示例代码显示了如何使用Python进行产量预测。然而,数据质量、整合、农民技术接受度及隐私安全等问题挑战重重。需强化数据管理,统一标准,提升农民数字素养,并保障数据安全。随着技术进步,大数据在精准农业的应用将更加广泛,助力农业高效可持续发展。
30 0
|
2天前
|
数据采集 数据可视化 大数据
Python在大数据处理中的应用实践
Python在大数据处理中扮演重要角色,借助`requests`和`BeautifulSoup`抓取数据,`pandas`进行清洗预处理,面对大规模数据时,`Dask`提供分布式处理能力,而`matplotlib`和`seaborn`则助力数据可视化。通过这些工具,数据工程师和科学家能高效地管理、分析和展示海量数据。
22 4
|
5天前
|
监控 数据可视化 大数据
大数据技术在公共交通系统规划中的应用
大数据技术在公共交通系统规划中的应用
|
10天前
|
分布式计算 大数据 数据处理
Apache Spark在大数据处理中的应用
Apache Spark是大数据处理的热门工具,由AMPLab开发并捐赠给Apache软件基金会。它以内存计算和优化的执行引擎著称,提供比Hadoop更快的处理速度,支持批处理、交互式查询、流处理和机器学习。Spark架构包括Driver、Master、Worker Node和Executor,核心组件有RDD、DataFrame、Dataset、Spark SQL、Spark Streaming、MLlib和GraphX。文章通过代码示例展示了Spark在批处理、交互式查询和实时数据处理中的应用,并讨论了其优势(高性能、易用性、通用性和集成性)和挑战。【6月更文挑战第11天】
38 6
|
5天前
|
机器学习/深度学习 自然语言处理 供应链
深度学习在大数据分析中的应用非常广泛
深度学习在大数据分析中的应用非常广泛
|
7天前
|
分布式计算 Hadoop 大数据
大数据技术:Hadoop与Spark的对比
【6月更文挑战第15天】**Hadoop与Spark对比摘要** Hadoop是分布式系统基础架构,擅长处理大规模批处理任务,依赖HDFS和MapReduce,具有高可靠性和生态多样性。Spark是快速数据处理引擎,侧重内存计算,提供多语言接口,支持机器学习和流处理,处理速度远超Hadoop,适合实时分析和交互式查询。两者在资源占用和生态系统上有差异,适用于不同应用场景。选择时需依据具体需求。
|
16天前
|
存储 大数据 分布式数据库
使用Apache HBase进行大数据存储:技术解析与实践
【6月更文挑战第7天】Apache HBase,一个基于HDFS的列式存储NoSQL数据库,提供高可靠、高性能的大数据存储。其特点是列式存储、可扩展至PB级数据、低延迟读写及多版本控制。适用场景包括大规模数据存储、实时分析、日志存储和推荐系统。实践包括集群环境搭建、数据模型设计、导入、查询及性能优化。HBase在大数据存储领域扮演关键角色,未来有望在更多领域发挥作用。
|
20天前
|
分布式计算 Spark 大数据
深入探究Apache Spark在大数据处理中的实践应用
【6月更文挑战第2天】Apache Spark是流行的开源大数据处理框架,以其内存计算速度和低延迟脱颖而出。本文涵盖Spark概述、核心组件(包括Spark Core、SQL、Streaming和MLlib)及其在数据预处理、批处理分析、交互式查询、实时处理和机器学习中的应用。通过理解Spark内部机制和实践应用,可提升大数据处理效率,发挥其在各行业的潜力。