打破数据统一的七大原则

简介:

数据统一在数据分析领域里是个长期的挑战,从事数据分析的从业者希望在数据分析之前,来自不同实体的数据能够在同一个地方呈现出来。数据统一由七部分组成:1、获取数据 2、清洗数据 3、转换数据、4、模式集成 5、重复数据删除、6、分类 7、导出

image

一般而言,企业实现数统一有两种方法,提取转换加载(ETL)和主数据管理(MDM)。

提取转换加载(ETL)具有灵活性的优势,适合不同的数据来源,使程序员可以手工编写转换程序,能够确保源数据模式与集中式数据仓库项目采用的全局模式匹配。但由于自动化程度低,提取转换加载带宽能超过20个数据源没有多少家公司。

主数据管理(MDM),它与ETL类似的地方在于,预设一个“主记录”,每一个有专门的类别选项。如客户、部件和供应商等的所有文件符合主记录格式。但和ETL有所区别的是,MOM不是使用手动的定制脚本,而是依靠一套“模糊合并”规则,把所有不同的文件转换成主格式。

可难解的是,在数据量过大的情况下,不管是ETL还是MDM,都无法解决数据统一难题。加上大数据集的庞大规模以及对程序员的苛刻要求任何的可规模化数据统一项目都必须在很大程度上实现自动化,不能依靠手动编写的程序。

著名计算机科学家、Tamr联合创始人兼首席技术官迈克尔·斯通布雷克(Michael Stonebraker)针对数据统一存在的限制难题,提出数据统一的七条原则。

一、所有的可规模化系统,都必须自动进行绝大多数的操作。

二、模式为先(schema-first)的产品永远无法规模化。唯一的选择是采用‘模式为后’(schema-last)的产品。

三、需要进行具体的域操作时,只有协作性的系统才可实现规模化。

四、为了实现可规模化,任何的统一计算必须在多个核心和多个处理器上运行。

五、尽管存在第四条原则,但真正的可扩展应用需要复杂性低于N ** 2的并行算法。

六、规则系统实现是无法规模化的。只有机器学习系统才能将规模扩展到大公司所需要的程度。

七、必须支持实时增量统一。

本文转自d1net(转载)

相关文章
|
负载均衡 测试技术 应用服务中间件
性能测试常见瓶颈分析及调优方法总结
性能测试常见瓶颈分析及调优方法总结
672 0
|
机器学习/深度学习 人工智能 算法
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
772 0
社交网络分析4(上):社交网络链路预测分析、Logistic回归模型、LLSLP方法(LightGBM 堆叠链路预测)、正则化方法、多重共线性
|
SQL 安全 前端开发
如何做好研发FO角色?
如何做好研发FO角色?角色定位包含哪些能力要求和权利责任,项目过程中包含哪些核心里程碑节点以及交付物,FO对于项目过程管理需要具备哪些把控原则,针对风险和问题的治理手段和干预策略,协作过程的核心动作
1865 0
如何做好研发FO角色?
|
消息中间件 网络协议 Linux
|
前端开发 Java 容器
SpringBoot中注册Servlet、Filter和Listener(代码和注解两种方式)
SpringBoot中注册Servlet、Filter和Listener(代码和注解两种方式)
412 0
|
存储 机器学习/深度学习 编解码
阿里云服务器内存型r5、r6、r7与r8y实例区别及选择参考
阿里云服务器实例规格经过多次升级之后,目前已经推出了最新的第八代云服务器,如果我们是想购买内存型实例规格的阿里云服务器,主要可选的实例规格有内存型r5、r6、r7和r8y等,其中r7和r8y是目前阿里云活动中主打的内存型云服务器,它们分别属于阿里云的第五代、六代、七代和八代云服务器,每一代云服务器的计算能力、网络收发包及存储与网络能力都比上一代有所提升,下面小编为大家分享一下它们之间具体的区别及选择建议。
|
存储 SQL 运维
淘菜菜 (一):基于Flink和Hologres的实时数仓架构升级之路
淘菜菜 (一):基于Flink和Hologres的实时数仓架构升级之路
3084 0
淘菜菜 (一):基于Flink和Hologres的实时数仓架构升级之路
阿里云软著申请入口及申请流程
阿里云软著申请从哪里进去?阿里云计算机软件著作权登记20天下证,那么如何申请阿里云软件著作权登记呢?阿里云百科来详细说下注册账号、实名认证、软件著作权选择、信息填写、纸质材料邮寄一直到版权中心审查和下证详细说明:
840 0
阿里云软著申请入口及申请流程
|
Java Maven Spring
SpringBoot - 无需idea联网的springboot项目
SpringBoot - 无需idea联网的springboot项目
SpringBoot - 无需idea联网的springboot项目
|
存储 监控 前端开发
APM 组件选型
常用监控手段: 按监控层次分:业务监控、应用监控和基础监控等; 按监控日志来源分:基于日志文件监控、基于数据库监控和基于网络监控等; 按监控领域分:前端监控、后端监控、全链路监控、业务间监控等; 按监控目标分:系统故障监控、业务指标监控、应用性能监控、用户行为监控、安全合规监控等。
APM 组件选型