助力工业物联网,工业大数据之DWD层构建:数据抽取分析【十一】

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 助力工业物联网,工业大数据之DWD层构建:数据抽取分析【十一】

知识点18:DWD层构建:数据抽取分析

  • 目标实现DWD层的构建思路分析
  • 路径
  • step1:抽取目标
  • step2:抽取语法
  • 实施
  • 抽取目标:将ODS层中每张表的数据抽取到DWD层对应的数据表中
  • 抽取语法
insert overwrite table dwd.tbname partition(dt = '20210101')
select
  字段1,
  字段2,
  字段3,
  ……
from ods.tbname
where dt = '20210101';
  • 小结
  • 实现DWD层的构建思路分析

知识点19:DWD层构建:数据抽取测试

  • 目标实现DWD层数据抽取的测试
  • 路径
  • step1:代码讲解
  • step2:代码测试
  • 实施
  • 代码讲解
  • step1:如何获取所有表名?
  • 所有表名都在list中
  • step2:如何获取所有字段的信息?
  • 从Oracle中获取
  • 代码测试
  • 取消第6段代码的注释
  • 运行代码,查看结果
  • 小结
  • 实现DWD层数据抽取的测试

知识点20:整体代码重难点回顾

  • 目标掌握整体代码的重难点
  • 实施
  • 问题1:怎么读取表名的?
  • 表名:文件
  • FileUitil:读取文件
  • TableNameUtil:将表名拆分全量列表和增量列表
  • 问题2:怎么构建连接的?
  • Oracle:cx_Oracle
  • conn(hostname,port,username,password,sid)
  • Hive/SparkSQL:PyHive
  • conn(hostname,port,username,password)
  • 执行SQL规则
  • step1:必须构建一个连接
  • step2:从连接中获取游标,定义SQL
  • step3:使用游标执行SQL语句
  • step4:释放资源
  • 问题3:为什么要把连接地址写在文件里?
  • 开发规范
  • df.write.jdbc(url,table,properties)
  • 地址
  • 端口
  • 用户名
  • 密码
  • 表名
  • 问题4:怎么拼接SQL语句的?
  • 字符串的拼接
  • 问题5:怎么执行SQL语句的?
  • 游标:execute(SQL)
  • 问题6:怎么获取Oracle的表的信息的?
  • Oracle将每张表的每一列的信息都存储Oracle系统表中
  • 通过SQL就可以查询到表的这些信息
  • TableMeta:表的信息
  • 表名:String
  • 表的注释:String
  • 列的信息:List[ColumnMeta]
  • ColumnMeta:列的信息
  • 列名
  • 列注释
  • 列类型
  • 长度
  • 精度
  • 小结
  • 掌握整体代码的重难点


相关实践学习
钉钉群中如何接收IoT温控器数据告警通知
本实验主要介绍如何将温控器设备以MQTT协议接入IoT物联网平台,通过云产品流转到函数计算FC,调用钉钉群机器人API,实时推送温湿度消息到钉钉群。
阿里云AIoT物联网开发实战
本课程将由物联网专家带你熟悉阿里云AIoT物联网领域全套云产品,7天轻松搭建基于Arduino的端到端物联网场景应用。 开始学习前,请先开通下方两个云产品,让学习更流畅: IoT物联网平台:https://iot.console.aliyun.com/ LinkWAN物联网络管理平台:https://linkwan.console.aliyun.com/service-open
目录
相关文章
|
1月前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
125 2
|
8天前
|
机器学习/深度学习 数据可视化 大数据
机器学习与大数据分析的结合:智能决策的新引擎
机器学习与大数据分析的结合:智能决策的新引擎
78 15
|
14天前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
12天前
|
分布式计算 DataWorks 搜索推荐
用户画像分析(MaxCompute简化版)
通过本教程,您可以了解如何使用DataWorks和MaxCompute产品组合进行数仓开发与分析,并通过案例体验DataWorks数据集成、数据开发和运维中心模块的相关能力。
|
1月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
74 4
|
1月前
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
36 4
|
1月前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
216 5
|
1月前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
168 14
|
1月前
|
人工智能 监控 物联网
深度探索人工智能与物联网的融合:构建未来智能生态系统###
在当今这个数据驱动的时代,人工智能(AI)与物联网(IoT)的深度融合正引领着一场前所未有的技术革命。本文旨在深入剖析这一融合背后的技术原理、探讨其在不同领域的应用实例及面临的挑战与机遇,为读者描绘一幅关于未来智能生态系统的宏伟蓝图。通过技术创新的视角,我们不仅揭示了AI与IoT结合的强大潜力,也展望了它们如何共同塑造一个更加高效、可持续且互联的世界。 ###
|
1月前
|
传感器 安全 算法
物联网发布者在数据传输过程中如何防止数据被篡改
在物联网数据传输中,为防止数据被篡改,可采用加密技术、数字签名、数据完整性校验等方法,确保数据的完整性和安全性。