大数据智能平台的构建策略与步骤

简介: 大数据智能平台的构建策略与步骤

01、数据业务的构建过程


通用的开展大数据业务的过程总结起来如下图所示。

image.png

首先是数据系统的建设,数据系统是基础。从确定要进行哪些方面的数据收集开始,需要把收集到的数据进行清洗、筛选、格式转换、存入系统中,并且按照技术平台的要求,投入人力、设备等进行大数据系统的搭建。其次是数据业务建模。有了系统,就可以基于这个系统来观察数据,可以由建模人员利用其专业知识进行基于机器学习方法理论的建模,在得到一个合适的模型之后,需要把此模型放置到大数据系统中进行运行。一般来说,这个大数据系统需要有大数据工程师一起参与,将模型转换成适合在平台上运行的代码,当然逐渐地会出现很多高效率的工具来帮助这种代码化的转换。最后是数据业务开展,需要把数据价值体现到业务上去,也就是数据业务的发展,通过分析人员对数据进行再整理、可视化呈现、洞察后来指导业务开展。而如果从中可以抽象出新的产品,那么通过产品设计来形成创新,创造出新的商业价值。


1●数据系统建设

为了把这个事情说明白,特别是对里面的要点、难点等有一个清晰的呈现,下面采用一个现实中的基础建设的例子来说明。


假设我们目前需要在一个靠近大海的地方建设一个新型设备的工厂,这个设备可以用于我们日常生活,应该会大大提高我们的生活水平,但是目前市场的前景也不是特别明朗。而建造这个设备所需要的原材料很大一部分又需要从各个分散的城市或者城镇中运送过来。


作为工厂进行生产制造的基础,我们需要建造公路来连接原料产地和工厂所在的地方,也需要建造厂房来进行生产,也就是需要基础设施的建设,那么对于大数据技术层次来说,大数据系统建设就属于基础建设要求。


依据我们对于市场的认识以及资源(资金、能力等)的准备情况,建设基础设施(以构造公路作为主要的工作为例),首先至少必须明确以下几点:


● 造路的主要目的是什么?

● 连接哪里到哪里、中间多少出入口?

● 什么时间满足多少交通流量?(阶段、造多宽的路、车辆类型、可以运载什么货物、允许最大数量等)

● 目前拥有的资源是什么?(预算、团队、时间等)

● 阶段的规划是什么?(资源、目标、实施)


这时候最主要的一点就是需要清晰造路的主要目的,也就是建设这个系统的近期、远期目标是什么?这个目的也是在图1中最上面的部分决定的。这个目标的指导下,我们需要去盘点我们的哪些城市、城镇里面有哪些需要接入到这个公路系统上面去。这些城镇就好比我们公司中不同的业务系统。对于有些公司来说,系统比较单一、异构程度不大,那么应该还好处理;对于另外一些公司而言,业务系统比较多,异构程度也比较大,这个时候难点就在于梳理下面的几个方面:

● 哪些城市需要接入(也就是需要哪些原料、生产出来的设备会运往哪里)

● 这些城市到达各个入口的支路是否建设好

● 建设这些支路对于原有系统的影响多大

● 如果影响比较大的话,如何解决

● 原料是否还需要再加工

● 原料的量是多少


对应到大数据系统,这些也就是需要回答以下问题:

● 是否确定了数据源头对应的业务系统是哪些

● 这些系统通过何种方式来准备数据

● 数据如何被接入到大数据系统

● 源数据是否已经被收集

● 数据格式是否已标准化

● 数据量是多少


在把城市通往厂房的路造好后,也并不是一劳永逸的事情,后续依然需要根据需要不断去打造、维护、升级。同时,我们也还需要建造厂房、购置生产设备、建立流水线、建造仓库用于存放原料和生产出来的设备等等。


对应到系统建设方面也就是大致下面几个:

● 数据收集系统:确定数据源,数据格式,数据传输方法,数据清洗工具等。

● 搭建存储集群:确定存储规模、服务器配置和数量、网络规划及建设、安装和调试集群、确定存储方式等

● 搭建计算集群:确定计算方式、计算规模、服务器配置和数量、网络规划及建设、安装和调试集群、任务调度机制等

● 数据安全策略设计(可以按阶段进行)


2●数据业务建模

沿着上面的过程,我们来看看数据业务建模方面需要做什么。


在我们把厂房、流水线等初步建设完成后,我们陆续把所需要的材料经过多种方式拉到工厂之后,接下去我们需要有一些专业的工程师进行以下活动:

● 为了保证后续生产的效率,我们需要对原料进行分门别类,确定存放地点和存放顺序,必要时还需要进行一定的搭配

● 从这些材料中,挑选出一些进行化验,来确定其成色和质量。最后确定哪些可以用,哪些不可以用。

● 然后进行加工工艺的设计,哪些材料什么时候通过什么方式进入生产线。哪些零件先生产出来,哪些后生产出来,如何装配。

● 对生产出来的设备需要确定调试和验证方法,确定其在质量要求范围之内。


这个工作对应到大数据技术中,就是数据建模。数据建模就是建立数据存放模型和处理,把各个数据源过来的各种数据根据一定的业务规则或者应用需求对数据重新进行规划、设计和整理。然后根据这个产品的要求,利用这些数据的样本来进行模型的建立,确定输入的数据要求,送入处理流水线,一直到产生最终的结果。


这个阶段的难点和要点在于:

● 需要有具有行业专业技能的人才,这类人才首要的能力是具有行业相关的业务知识和洞察,掌握行业内常用的建模经验。

● 特征工程,确定哪些特征可以用于业务模型。由于数据在收集过程中,数据输送方由于各种原因,事先并不一定清楚或者预见到会服务于何种业务,而在实际使用时需要进行再处理(标准化)以满足建模的需要。所以对于各种形式的数据,需要通过特征工程来进行特征筛选、特征组合、特征变换等,才能为后续的模型所使用。

● 对数据确定高效的存取模型。经过特征工程后的数据是可以作为模型的输入进行建模了,为了保证在生产环境中的模型运行效率,需要确定数据的存取模型,还需要进行宽表、数据仓库的设计和构造,否则会导致资源的浪费。

● 模型架构的确定。采用流失处理还是批量处理,采用何种调度方式,需要多少运算资源,输出结果如何存放等,也是一个难点和要点。


下面我们描述一下AI建模的方法论。


建模过程中使用 AI /机器学习技术是内核能力,所以我们来看一下这个方法论,包括其中的难点分别是什么。如下图所示:

image.png


业务理解

把业务问题理解透,理解项目目标和需求,将目标转换成问题定义。

难点: 在于需要对业务领域有比较深入的理解,而且不仅仅是业务专家,还需要具备数据和技术感觉


建立假设模型

设计出达到目标的一个初步计划。根据直觉和知识提出合理假说,如类比相关性等。

难点:在于如何设计合理的目标函数,使得能够达到业务初始设计要求。


数据收集

收集初步的数据,进行各种熟悉数据的活动。包括数据描述,数据探索和数据质量验证等。要有数据,而且的确需要足够多的数据。

难点:如何解决数据收集成本大的问题,或者说如何自动化收集数据。需要收集多少数据才够,学术界尚未有固定的理论指导,一般从成功案例中提炼经验公式。


数据准备

需要首先弄清楚数据来源,然后进行探索性数据分析 (Explore Data Analysis -EDA),去了解数据的大体情况,通过描述性统计方法,去提升数据质量,将最初的原始数据构造成最终适合建模工具处理的数据集。包括表、记录和属性的选择,数据转换(稀疏,异构)和数据清理(缺失,矛盾)等。

难点:对于优质数据的判断标准等。


建模分析

选择和应用各种建模技术,并对其参数进行优化。一般的,为了让模型更好的达到效果,在偏差和方差方面得到最优结果,常常把数据集分为两个部分,一部分用于开发训练(训练集、验证集),一部分用于预测(测试集)。

难点:在于选用算法和参数如何选择,目前看到选择是根据类比的方法,寻找与待解决工程相似的已成功的工程,并使用相似的方法,但工程相似没有统一标准。对于参数的选择,目前常用方法还是尽可能多实验,选择测试结果最好的参数。


解释和模型评估

对模型进行较为彻底的评价,并检查构建模型的每个步骤,确认其是否真正实现了预定的目的。

难点:目前还没有看到对于效果不好的原因定位方法,只能具体案例具体分析。


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
24天前
|
存储 大数据 数据处理
PHP 与大数据:构建高效数据处理系统
传统的数据处理系统往往难以应对大规模数据的处理需求,而PHP作为一种常用的服务器端脚本语言,在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统,结合实际案例分析其应用场景及优势所在。
15 2
|
4月前
|
存储 SQL 分布式计算
开源大数据比对平台设计与实践—dataCompare
开源大数据比对平台设计与实践—dataCompare
69 0
|
4月前
|
SQL 存储 大数据
某互联网大厂亿级大数据服务平台的建设和实践
某互联网大厂亿级大数据服务平台的建设和实践
68 0
|
4月前
|
SQL 存储 分布式计算
从0到1介绍一下开源大数据比对平台dataCompare
从0到1介绍一下开源大数据比对平台dataCompare
121 0
|
14天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
55 1
|
1月前
|
SQL 存储 监控
构建端到端的开源现代数据平台
构建端到端的开源现代数据平台
54 4
|
1月前
|
人工智能 DataWorks 数据可视化
心动基于阿里云DataWorks构建游戏行业通用大数据模型
心动游戏在阿里云上构建云原生大数据平台,基于DataWorks构建行业通用大数据模型,如玩家、产品、SDK、事件、发行等,满足各种不同的分析型应用的要求,如AI场景、风控场景、数据分析场景等。
334 1
|
2月前
|
存储 数据可视化 JavaScript
基于Echarts构建大数据招聘岗位数据可视化大屏
基于Echarts构建大数据招聘岗位数据可视化大屏
55 0
|
2月前
|
监控 物联网 大数据
智慧工地管理平台系统源码基于物联网、云计算、大数据等技术
智慧工地平台APP通过对施工过程人机料法环的全面感知、互联互通、智能协同,提高施工现场的生产效率、管理水平和决策能力,实现施工管理的数字化、智能化、精益化。
56 0
|
3月前
|
SQL 分布式计算 HIVE
开源湖仓一体平台(二):Arctic(上篇)
开源湖仓一体平台(二):Arctic(上篇)
开源湖仓一体平台(二):Arctic(上篇)