大数据与机器学习:实践方法与行业案例.2.6 本章小结-阿里云开发者社区

开发者社区> 华章计算机> 正文

大数据与机器学习:实践方法与行业案例.2.6 本章小结

简介:
+关注继续查看

2.6 本章小结


本章围绕数据体系提出了数据闭环的概念,对数据闭环的特征进行了描述,并且进一步介绍了构建数据闭环所涉及的方法和技术。

这里着重介绍了在数据闭环中扮演重要作用的“数据缓冲区”的设立理念和实现方式。通过设立数据缓冲区,可以实现系统解耦,让数据闭环具备良好的扩展性,让公司组织间职责更加分明,使数据环境更加安全等。

数据缓冲区中涉及的数据批量导出/导入技术,需要使用到各个RDMS系统的批量操作命令。另外在大数据平台中,需要使用hadoop shell和hive shell脚本来实现批量操作,对于Hbase,则提供了Java实现的bulk load批量导入方式。

ETL作业为数据闭环中定义数据流转方式的环节。为了实现ETL作业的自动化运行和监控,需要引入ETL作业规范:命名规范和日志规范。

作业调度则是保证ETL作业能够实现自动化的手段,监控和预警则进一步保证了ETL作业能够正常运行。

第3章将根据这两章提出的数据理念,通过实战的方式完成数据闭环中关键环节的构建。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器大数据实例规格族d1ne和d1特点及具体型号介绍
本文介绍阿里云服务器大数据型实例规格族d1ne和d1实例规格族的特点,具体型号,适用场景等基本参数,并列出了具体的实例规格。 大数据网络增强型实例规格族 d1ne 规格族特点 I/O优化实例 支持IPv6 仅支持SSD云盘和高效云盘 实例配备大容量、高吞吐SATA HDD本地盘,辅以最大35 Gbit/s实例间网络带宽 处理器与内存配比为1:4,为大数据场景设计 处理器:2.
1564 0
《中国人工智能学会通讯》——12.58 大数据不确定性学习的研究
本节书摘来自CCAI《中国人工智能学会通讯》一书中的第12章,第12.58节, 更多章节内容可以访问云栖社区“CCAI”公众号查看。
1005 0
持续探索行业新趋势,PAI平台获得联邦学习评测证书
2021 年 6 月 24 日,阿里云机器学习平台PAI获得“大数据产品能力评测”联邦学习项目基础能力专项评测证书,持续探索行业新趋势,不断在前沿的热门领域尝试AI应用落地。
225 0
Django学习笔记----数据库操作实例
上上篇>Django学习笔记----环境搭建基于Windows 上一篇>Django学习笔记----快速入门 修改settings.py配置 在环境搭建篇, 我们已经安装了mysql-client包 安装好后, 在settings.
1198 0
十大行业经典案例!Apache Flink 的 40 个最佳实践
如今,Apache Flink 行业应用几何?在降本增效的需求驱动下,企业如何实现数据与算力价值最大化?本文整理了 Flink 社区近一年的社区案例,并按照行业进行分类,供大家参考!
6839 0
10059
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载