助力工业物联网,工业大数据之DWD层构建:数据抽取分析【十一】

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 助力工业物联网,工业大数据之DWD层构建:数据抽取分析【十一】

知识点18:DWD层构建:数据抽取分析

  • 目标实现DWD层的构建思路分析
  • 路径
  • step1:抽取目标
  • step2:抽取语法
  • 实施
  • 抽取目标:将ODS层中每张表的数据抽取到DWD层对应的数据表中
  • 抽取语法
insert overwrite table dwd.tbname partition(dt = '20210101')
select
  字段1,
  字段2,
  字段3,
  ……
from ods.tbname
where dt = '20210101';
  • 小结
  • 实现DWD层的构建思路分析

知识点19:DWD层构建:数据抽取测试

  • 目标实现DWD层数据抽取的测试
  • 路径
  • step1:代码讲解
  • step2:代码测试
  • 实施
  • 代码讲解
  • step1:如何获取所有表名?
  • 所有表名都在list中
  • step2:如何获取所有字段的信息?
  • 从Oracle中获取
  • 代码测试
  • 取消第6段代码的注释
  • 运行代码,查看结果
  • 小结
  • 实现DWD层数据抽取的测试

知识点20:整体代码重难点回顾

  • 目标掌握整体代码的重难点
  • 实施
  • 问题1:怎么读取表名的?
  • 表名:文件
  • FileUitil:读取文件
  • TableNameUtil:将表名拆分全量列表和增量列表
  • 问题2:怎么构建连接的?
  • Oracle:cx_Oracle
  • conn(hostname,port,username,password,sid)
  • Hive/SparkSQL:PyHive
  • conn(hostname,port,username,password)
  • 执行SQL规则
  • step1:必须构建一个连接
  • step2:从连接中获取游标,定义SQL
  • step3:使用游标执行SQL语句
  • step4:释放资源
  • 问题3:为什么要把连接地址写在文件里?
  • 开发规范
  • df.write.jdbc(url,table,properties)
  • 地址
  • 端口
  • 用户名
  • 密码
  • 表名
  • 问题4:怎么拼接SQL语句的?
  • 字符串的拼接
  • 问题5:怎么执行SQL语句的?
  • 游标:execute(SQL)
  • 问题6:怎么获取Oracle的表的信息的?
  • Oracle将每张表的每一列的信息都存储Oracle系统表中
  • 通过SQL就可以查询到表的这些信息
  • TableMeta:表的信息
  • 表名:String
  • 表的注释:String
  • 列的信息:List[ColumnMeta]
  • ColumnMeta:列的信息
  • 列名
  • 列注释
  • 列类型
  • 长度
  • 精度
  • 小结
  • 掌握整体代码的重难点


相关实践学习
钉钉群中如何接收IoT温控器数据告警通知
本实验主要介绍如何将温控器设备以MQTT协议接入IoT物联网平台,通过云产品流转到函数计算FC,调用钉钉群机器人API,实时推送温湿度消息到钉钉群。
阿里云AIoT物联网开发实战
本课程将由物联网专家带你熟悉阿里云AIoT物联网领域全套云产品,7天轻松搭建基于Arduino的端到端物联网场景应用。 开始学习前,请先开通下方两个云产品,让学习更流畅: IoT物联网平台:https://iot.console.aliyun.com/ LinkWAN物联网络管理平台:https://linkwan.console.aliyun.com/service-open
目录
相关文章
|
9天前
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
27 1
Spark快速大数据分析PDF下载读书分享推荐
|
7天前
|
数据采集 自然语言处理 大数据
​「Python大数据」词频数据渲染词云图导出HTML
使用Python,本文展示数据聚类和办公自动化,焦点在于通过jieba分词处理VOC数据,构建词云图并以HTML保存。`wordCloud.py`脚本中,借助pyecharts生成词云,如图所示,关键词如"Python"、"词云"等。示例代码创建了词云图实例,添加词频数据,并输出到"wordCloud.html"。
18 1
​「Python大数据」词频数据渲染词云图导出HTML
|
8天前
|
机器学习/深度学习 数据可视化 物联网
物联网设备的数据可视化与分析:解锁未来智能世界的钥匙
【7月更文挑战第6天】物联网设备的数据可视化与分析是解锁未来智能世界的关键。通过不断探索和实践,我们可以更好地利用物联网数据,推动技术创新,提升社会运行效率,为人们的生活带来更多便利和惊喜。面对技术挑战,我们应保持开放心态,积极学习新技术、新方法,不断优化数据可视化与分析的流程和效果,为物联网的繁荣发展贡献力量。
|
7天前
|
数据采集 自然语言处理 大数据
​「Python大数据」LDA主题分析模型
使用Python进行文本聚类,流程包括读取VOC数据、jieba分词、去除停用词,应用LDA模型(n_components=5)进行主题分析,并通过pyLDAvis生成可视化HTML。关键代码涉及数据预处理、CountVectorizer、LatentDirichletAllocation以及HTML文件的本地化处理。停用词和业务术语列表用于优化分词效果。
12 0
​「Python大数据」LDA主题分析模型
|
11天前
|
物联网
好的资源链接,gitee全糖咖啡,B站视频转成mp4,全糖咖啡 / 物联网网关数据上传,,全糖咖啡 / springboot+百度智能车牌检测
好的资源链接,gitee全糖咖啡,B站视频转成mp4,全糖咖啡 / 物联网网关数据上传,,全糖咖啡 / springboot+百度智能车牌检测
|
17天前
|
存储 人工智能 OLAP
深度|大模型时代下,基于湖仓一体的数据智能新范式
本次文根据峰会演讲内容整理:分享在大模型时代基于湖仓一体的数据产品演进,以及我们观察到的一些智能开发相关的新范式。
|
13天前
|
数据采集 存储 运维
物联网设备的数据处理与分析技术探讨
【7月更文挑战第2天】探索物联网(IoT)数据处理技术,涵盖数据采集(传感器、无线通信)、存储(分布式系统、NoSQL)、处理(清洗、压缩、转换)和分析(描述性、聚类、分类、异常检测)。未来趋势涉及AI集成、边缘计算、多模态处理和系统自主化。随着技术演进,期待更智能、高效的解决方案。
|
12天前
|
人工智能 自然语言处理 小程序
政务VR导航:跨界融合AI人工智能与大数据分析,打造全方位智能政务服务
政务大厅引入智能导航系统,解决寻路难、指引不足及咨询台压力大的问题。VR导视与AI助手提供在线预览、VR路线指引、智能客服和小程序服务,提高办事效率,减轻咨询台工作,优化群众体验,塑造智慧政务形象。通过线上线下结合,实现政务服务的高效便民。
41 0
政务VR导航:跨界融合AI人工智能与大数据分析,打造全方位智能政务服务
|
7天前
|
存储 分布式计算 并行计算
使用Hadoop构建Java大数据分析平台
使用Hadoop构建Java大数据分析平台
|
13天前
|
分布式计算 Java 大数据
实战:基于Java的大数据处理与分析平台
实战:基于Java的大数据处理与分析平台