一、数据开发流程
将业务数据汇聚到数据仓库中进行数据清洗、数据建模、算法开发、数据质量校验、最终将数据结果以服务化输出。
- 数据汇聚:创建数据清洗、加工任务并编排,将编排后的任务提交发布进行周期调度。
- 模型工厂:在数据仓库中,定义数据分层,虚拟ODS层、ODS层、DW层,ADS层等,并将集成的数据,进行分层打标签和数据粗出。
- 运维监控:将发布至生产环境的任务进行统一运维监控保证任务稳定运行。
- 数据质量:对数据加工全流程提供质量监管和校验及时发现问题,减少数据污染。
- 数据服务:将加工、融合后的数据表快速生成数据API、加速数据流动,对外部数据应用提供数据支持。
- 数据集成:支持多种数据仓库引擎配置,包括oracle、mysql、sqlserver、hbase、es、hive等数十种,同时支持在线数据源连接配置,可以同时配置多种数据源连接。支持数据表采集、Excel文件数据采集、自定义SQL数据集采集功能。
- 数据仓库:构建高效健全的大数据仓库管理功能,为用户提供数据分层分类管理功能,基础库、标准库、主题库的构建能力,同时提供给数据编目、数据接入、数据集管理、字段管理和数据预览等功能。
- 数据资产:对数据资产进行统一管理,把数据采集、汇聚后的数据,对其数据进行统一编目,分层分类,形成数据资产目录;对已经发布的数据或者API支持按照数据分层管理和API分层管理进行展示数据和API,并提供数据预览、数据样例下载、API接口详情和API接口调用测试等功能。
- 数据分析:包含模型算子、模型工厂、应用超市、应用管理、调度中心等功能模块,用户可通过模型工厂,完成模型分类、模型管理、模型设计等功能,整个操作过程都是可视化布局。
- 数据大屏:提供平台化、场景化、定制化的数据应用服务工具,可实现针对多行业、多场景数据可视化的快速搭建,零门槛打造专业大屏数据展示。
二、数据挖掘
**数据挖掘(Data Mining)**就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
包括几层含义:
- 数据源必须是真实的、大量的、含噪声的;
- 发现的是用户感兴趣的知识;
- 发现的知识要可接受、可理解、可运用;
- 并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
- 这里的知识一般指规则、概念、规律及模式等。
从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。
数据挖掘过程是一个反复循环的过程,每一个步骤如果没有达到预期目标,都需要回到前面的步骤,重新调整并执行。
- 信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。
- 数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
- 数据规约:如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长的时间,而做商业运营数据挖掘时数据量往往非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。
- 数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。不然,挖掘的结果会差强人意。
- 数据变换:通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。
- 数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。
- 模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。
- 知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。
三、数据集市与数据集
(一)、数据集市(Data Mart):
是数据仓库架构中的一个概念,它提供了一种更加集中和优化的方式来访问和分析特定业务领域的数据,数据集市主要拥有以下特点:
- 特定领域数据:数据集市通常专注于特定业务领域或部门的数据,如销售、财务或人力资源等。
- 数据优化:数据集市中的数据通常会经过优化,以支持快速查询和报告生成。
- 查询性能:由于数据集市中的数据量相对较小,且针对特定查询进行了优化,因此查询性能通常比在大型数据仓库中要快。
- 数据更新:数据集市的数据可以是实时更新的,也可以是定期更新的,这取决于业务需求。
- 报告和分析:数据集市通常与报告和分析工具集成,使得用户可以轻松地生成所需的报告和进行数据分析。
- 可扩展性:虽然数据集市专注于特定领域,但它们也可以设计成可扩展的,以便随着业务需求的变化而扩展。
- 成本效益:与大型数据仓库相比,数据集市可能更加经济,因为它们只需要存储和管理特定领域的数据。
(二)、数据集(Data Set):
是指一组数据的集合,这些数据可以是结构化的、半结构化的或非结构化的。数据集可以用于各种目的,包括数据分析、机器学习、研究以及教育等。以下是数据集的一些关键特点和功能:
- 多样性:数据集可以包含不同类型的数据,如文本、数字、图像、音频和视频。数据集的大小可以从几个字节到数TB不等,取决于数据的复杂性和数量。
- 结构:数据集可以是结构化的,如关系数据库中的表格数据;也可以是半结构化的,如XML或JSON文件;还可以是非结构化的,如自由文本或图像。
- 来源:数据集可以来自多种来源,包括企业内部数据、公共数据集、在线数据服务、传感器数据等。
- 访问和共享:数据集可以通过不同的方式访问和共享,包括数据接口、文件系统、云服务API等。
- 元数据:数据集通常包含元数据,这是关于数据的描述性信息,如数据的来源、创建日期、格式等。
- 清洗和预处理:在使用数据集之前,通常需要进行清洗和预处理,以去除错误、填补缺失值、标准化数据格式等。
- 标注:对于机器学习应用,数据集可能需要进行标注,以提供训练模型所需的标签或分类。
- 版本控制:在数据科学项目中,对数据集进行版本控制是很重要的,以跟踪数据的变化和更新。