简单三步骤,使用 DataWorks 建立每日天气预报推送

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: DataWorks 数据开发提供强大的工作流及调度能力,且近期上线了数据推送节点,这篇文章简单利用 Shell + 数据推送节点来完成每日天气预报的推送工作。

前言


DataWorks 数据开发提供强大的工作流及调度能力,且近期上线了数据推送节点,这边我们就简单利用 Shell + 数据推送节点来完成每日天气预报的推送工作。


效果图


步骤一: 决定信息来源

打开飞猪天气预报页面,找到想要推送的城市天气,这边我们选杭州,打开页面的开发者工具,定位以下信息来源。


  • 温度 (右边为 css 定位): div.header-info-detail-section-weather-temperature span.header-info-detail-section-weather-temperature-text
  • 天气预报 (右边为 css 定位): p.bottom-summary


步骤二: 开发工作流

因为飞猪天气预报页面为 SSR (Server Side Rendering),我们可用 Shell 节点的 curl 及 xmllint 语法根据 DOM 位置就能解析出页面信息,这边需要三个节点。


节点1 新建赋值节点,选用 Shell 语言 (解析飞猪天气预报):


result="$(curl 'https://tianqi.fliggy.com/330100/' -H 'Content-Type: text/html' | xmllint --html --format --recover --nowarning --xpath '//p[@class="'"bottom-summary"'"]//text()' -)";
echo $result | sed 's/\\n/\n/g';



节点2 新建赋值节点,选用 Shell 语言 (解析飞猪天气温度):


result="$(curl 'https://tianqi.fliggy.com/330100/' -H 'Content-Type: text/html' | xmllint --html --format --recover --nowarning --xpath '(//div[@class="'"header-info-detail-section-weather-temperature"'"]//span[@class="'"header-info-detail-section-weather-temperature-text"'"]//text())[1]' -)";
echo $result;


节点3 新增数据推送节点,编辑推送内容:



组织工作流,建立上下游关系:



工作流的推送测试,可以查阅此篇文章


步骤三: 发布工作流


将三个节点的调度时间安排在每日早上八点,提交到发布中心后发布,并于运维中心查看调度状况。透过上述三步骤后,即可于每天早上定时收到天气预报信息。


钉钉展示:



飞书展示:


小结

以上三步骤简单演示如何从网页信息中截取信息,基于同样的方式也能用于股票、机票、酒店等信息截取,而更进一步操作,我们还能利用这些信息再加工,组织出更有价值的资讯。



相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
目录
相关文章
|
运维 DataWorks 关系型数据库
DataWorks产品使用合集之DataWorks还有就是对于mysql中的表已经存在数据了,第一次全量后面增量同步的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
113 2
|
分布式计算 DataWorks 监控
DataWorks产品使用合集之设置任务监控的步骤是什么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
存储 分布式计算 DataWorks
DataWorks产品使用合集之表从开发环境提交到线上生产环境的步骤什么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
113 7
|
分布式计算 DataWorks NoSQL
DataWorks产品使用合集之DataWorks 中同步 MongoDB 数据的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
153 4
|
数据采集 DataWorks 监控
DataWorks产品使用合集之DataWorks中,完成周期任务的开发的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
140 4
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之DataWorks项目分配与安全项目权限配置的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
122 2
|
数据采集 分布式计算 DataWorks
DataWorks产品使用合集之在阿里云的DataWorks中,使用CREATE AS创建分区表的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
169 2
|
SQL JSON 分布式计算
DataWorks产品使用合集之DataWorks一键maxcompute数据同步的操作步骤是什么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
270 1
|
分布式计算 DataWorks MaxCompute
DataWorks产品使用合集之在DataWorks中,运行诊断进入运行诊断的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
127 1
|
分布式计算 DataWorks 监控
DataWorks产品使用合集之在DataWorks中创建FTP Check节点的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
168 1

热门文章

最新文章