1工业企业大数据平台构建的一些思路和方法

简介: 大数据平台统一管理、集中存储大数据资源,满足高并发,海量数据对高性能计算能力和大容量存储能力的需求,提供数据采集,数据计算,数据存储,数据分析,数据可视化等大量开放能力,确保各系统之间数据的互联互通和共享,为数据的全链条透明化、运营决策的高度智能化提供依据,尽早建立大数据平台具有重要意义。

数据平台的概述
大数据平台统一管理、集中存储大数据资源,满足高并发,海量数据对高性能计算能力和大容量存储能力的需求,提供数据采集,数据计算,数据存储,数据分析,数据可视化等大量开放能力,确保各系统之间数据的互联互通和共享,为数据的全链条透明化、运营决策的高度智能化提供依据,尽早建立大数据平台具有重要意义。

构建大数据平台的必要性

大数据平台承载所有数据的管理,为上层应用提供数据支撑。传统的开发模式中,各个应用开发独立进行,各自沉淀自己的数据。各个应
用的数据缺乏整合,形成数据孤岛,后续无法沉淀数据资产。同时,因为没有一个统一的大数据平台,各个应用都会有自己的数据存储和计算体系,存在大量的重复建设。
以数据中台为核心的上层智能应用的开发,离不开大数据平台的支持。大数据平台提供统一的数据数据存储,计算能力。上层应用不需要再重复开发,只需要使用数据中台提供的能力。同时,多个上层应用的数据也集中沉淀到一起,形成有效的数据资产。

大数据平台建设

一般来说大数据主要具有以下特征

  • 数据海量性
  • 数据稀疏性
  • 数据复杂性
  • 数据丰富性

大数据平台架构一般包含以下组件

  • 数据采集
  • 数据存储
  • 数据计算
  • 数据管理
  • 数据服务

大数据集成子系统

大数据平台需要提供数据采集能力,完成从传统数据库到大数据平台的数据采集,包含批量采集和基于流处理的实时采集,平台提供如下能力:

  • 批量数据采集:大数据平台支持数据批量采集,对于大量、实时性要求不高的数据适宜采用定时执行批量采集。
  • 实时数据采集:对于实时性要求较高的数据,支持实时数据采集的方式,保障平台数据及时性。
  • 互联网数据采集:互联网的数据采集方式主要以页面文本或文档形式的数据为主,为了兼容不同类型的互联网输入方式,一般先将数据进行流式数据清洗后,再送到搜索引擎或者其他数据库中。

大数据开发子系统

大数据平台需要提供对海量数据汇总后的多种数据并行处理,包括离线的批处理、SQL 处理、以及近实时的内存处理等,大数据平台提供如下数据开发功能,帮助实现数据治理,数据聚合和数据转换,平台提供如下能力:

  • 数据查询:数据开发支持各种常用数据库的SQL语句,例如Oracle、MySql、SQLite、PostgreSQL、Hive等等。
  • 数据开发编辑器:数据开发编辑器支持常见语言及脚本编辑模式,可以结合实际情况,自由选择开发形式,轻松实现数据治理任务开发的模块化、组件化。
  • 数据处理工作流配置:在数据开发编辑器中,写好数据处理的任务后,可以将这些任务添加到数据处理工作流中,让这些处理任务按顺序逐个执行,实现数据处理工作流程的自动化。如下图所示,拖动任务类型图标至工作流中即可,所有任务将按照箭头顺序从上到下执行。
  • 数据工作流定时执行设置:新增定时任务,选择需要定时执行的工作流,配置工作流运行周期、时区和运行时间区间,即可实现数据处理任务的自动定时执行。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
21天前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用合集之MaxCompute读取外部表的速度较慢,有什么方法来提升读取速度
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
21天前
|
存储 大数据 数据处理
PHP 与大数据:构建高效数据处理系统
传统的数据处理系统往往难以应对大规模数据的处理需求,而PHP作为一种常用的服务器端脚本语言,在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统,结合实际案例分析其应用场景及优势所在。
24 2
|
21天前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之可以使用什么方法将MySQL的数据实时同步到MaxCompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
18天前
|
Python
平台组成-仿真数据平台
平台里内建了一个数据产生平台
|
21天前
|
分布式计算 Hadoop Java
大数据实战平台环境搭建(下)
大数据实战平台环境搭建(下)
|
21天前
|
分布式计算 Hadoop Java
大数据实战平台环境搭建(上)
大数据实战平台环境搭建(上)
|
21天前
|
存储 关系型数据库 MySQL
Mysql大数据批量插入方法
Mysql大数据批量插入方法
28 0
|
21天前
|
存储 运维 监控
|
21天前
|
SQL 分布式计算 资源调度
一文解析 ODPS SQL 任务优化方法原理
本文重点尝试从ODPS SQL的逻辑执行计划和Logview中的执行计划出发,分析日常数据研发过程中各种优化方法背后的原理,覆盖了部分调优方法的分析,从知道怎么优化,到为什么这样优化,以及还能怎样优化。
103701 1
|
21天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
124 1

热门文章

最新文章