Golang+chromedp+goquery 简单爬取动态数据 |Go主题月

简介: 胖sir,最近一段时间正在使用golang来进行开发项目,慢慢的对golang有了一些了解,突然有一天,我想用golang来实现爬取网站上的数据,例如天气预报,每日一句等等,发现这些网站的数据都是javascript动态生成,苦恼呀,不知道如何才能把网站上的动态数据获取下来,为我所用呀,例如我抓取到动态数据之后发邮件给我哟

兵长:

胖sir,最近一段时间正在使用golang来进行开发项目,慢慢的对golang有了一些了解,突然有一天,我想用golang来实现爬取网站上的数据,例如天气预报,每日一句等等,发现这些网站的数据都是javascript动态生成,苦恼呀,不知道如何才能把网站上的动态数据获取下来,为我所用呀,例如我抓取到动态数据之后发邮件给我哟

胖sir撩撩了自己的长发,温和的对兵长说,小伙子,golang做应用开发效率很快的,当然爬取网站上的数据也是不在话下的哟,动态的也有动态的方法,来我给你娓娓道来

Golang的安装

此步骤主要是为了照顾没有在linux上安装过golang的童鞋们,若自己做过安装过golang的童鞋可以直接跳过golang简单安装步骤

下载golang软件

解压golang

bash


tar -C /usr/local -xzf go1.16.linux-amd64.tar.gz

配置golang

  • 将go的二进制目录添加到PATH环境变量
  • bash

vim /etc/profileexport GOROOT=/usr/local/goexport PATH=PATH:PATH:GOROOT/bin

重新导入配置

bash


source /etc/profile

chromedp框架的使用

chromedp框架是github开源的,童鞋们可以放心食用,若是有想法,可以在github上为此添砖加瓦,为开源做出自己的一份贡献

可以通过如下命令来进行下载

bash


github.com/chromedp/chromedp

实际的代码编写

兵长,你想爬取每日一句的网站,我给你找一个例子,如爬取这个网站http://news.iciba.com/,我们将网站上每天都会更新的一句话爬取出来

image.png

image-20210303224355228

开始编码


//获取网站上爬取的数据
func GetHttpHtmlContent(url string, selector string, sel interface{}) (string, error) {
        options := []chromedp.ExecAllocatorOption{
                chromedp.Flag("headless", true), // debug使用
                chromedp.Flag("blink-settings", "imagesEnabled=false"),
                chromedp.UserAgent(`Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36`),
        }
        options = append(chromedp.DefaultExecAllocatorOptions[:], options...)
        c, _ := chromedp.NewExecAllocator(context.Background(), options...)
        // create context
        chromeCtx, cancel := chromedp.NewContext(c, chromedp.WithLogf(log.Printf))
        // 执行一个空task, 用提前创建Chrome实例
        chromedp.Run(chromeCtx, make([]chromedp.Action, 0, 1)...)
        timeoutCtx, cancel := context.WithTimeout(chromeCtx, 40*time.Second)
        defer cancel()
        var htmlContent string
        err := chromedp.Run(timeoutCtx,
                chromedp.Navigate(url),
                chromedp.WaitVisible(selector),
                chromedp.OuterHTML(sel, &htmlContent, chromedp.ByJSPath),
        )
        if err != nil {
                logger.Info("Run err : %v\n", err)
                return "", err
        }
        //log.Println(htmlContent)
        return htmlContent, nil
}
  • GetHttpHtmlContent做为一个爬取网站动态数据的接口,主要功能是爬取js生成的动态数据(当然静态数据更是不在话下)
  • 第一个参数 url即为我们需要传入的要爬取的网站地址,页面如上
  • 第二个参数 selector即为我们爬取的数据对应的选html择器, 通过谷歌浏览器进入网站,按F12 -> 点击左上角的鼠标 -> 再点击我们需要爬取的数据 -> 就可以看到实际的html源码(目前看到的是通过javascript动态生成数据后的)
    image.png
    image-20210303230303671
    右键点击item-bottom -> Copy-> Copy selector 即可得到如下结果
    image.png
    image-20210303230803415

body > div.screen > div.banner > div.swiper-container-place > div > div.swiper-slide.swiper-slide-0.swiper-slide-visible.swiper-slide-active > a.item.item-big > div.item-bottom
  • 此字符串即为GetHttpHtmlContent 函数的第二个参数selector
  • 第三个参数 我们暂时先写
  • dart

document.querySelector("body") //从body里面获取数据
  • 返回值 即为 爬取到的数据,是字符串格式的,内容是 html

如下是拓展和解释上述代码的内容

  • chromedp.Flag 给 chromedp设置参数,设置为 无头模式 headless,无头模式即Chrome浏览器的无GUI的命令行版浏览器,但功能上和我们平常使用的chrome没有区别,若该参数不设置为true,则在程序运行的时候,chromedp会拉取我们环境中的chrome浏览器,显示页面
  • chromedp.Flag("blink-settings", "imagesEnabled=false")设置为不显示图片
  • htmlContent用于接收爬取的结果,是一个字符串格式,具体内容是html
  • chromedp.ByJSPath 是只以什么方式进行解析,这是一个回调函数,这个参数还可以填下面几个,按需索取
  • chromedp.ByNodeID
  • chromedp.BySearch
  • chromedp.ByID
  • chromedp.ByQueryAll
  • chromedp.ByQuery
  • chromedp.ByFunc
  • 关于chromedp涉及的接口如下给兵长介绍几个

兵长: 使用这个框架我得到的是一串html的字符串,我也不会解析他呀,我要如何才能找到刚才在页面上看到的每日一句?

胖sir:别担心,我一步一步给你说,直播教学呢,看好了, 现在我们已经完成了最核心的一步了,现在数据已经获取到了,咯,我给你介绍一个神奇,goquery就可以解决下面这一串html的解析问题了

image.png

image-20210303232139506

goquery第三方库的使用

我之前写过一个小接口,可以给你看看,兵长

goquery也是github开源的,童鞋们可以放心食用哦,通过如下命令在下载goquery第三方库

arduino

复制代码

go get github.com/PuerkitoBio/goquery

开始编码


//得到具体的数据
func GetSpecialData(htmlContent string, selector string) (string, error) {
        dom, err := goquery.NewDocumentFromReader(strings.NewReader(htmlContent))
        if err != nil {
                logger.Error(err)
                return "", err
        }
        var str string
        dom.Find(selector).Each(func(i int, selection *goquery.Selection) {
                str = selection.Text()
        })
        return str, nil
}
  • 第一个参数 htmlContent 就是 上面 chromedp爬取到的数据,是字符串,内容是html
  • 第二个参数即是html的选择器 ,对于这个网站,这个参数可以填 .chinese,如
  • scss
  • 复制代码
GetSpecialData(htmlContent, ".chinese")
  • 返回值就是我们要抓取的结果了 当你是在为梦想成真努力时,就不会有压力。

如下是关于goquery一些用法

主要是关于html各种选择器的写法使用方式,下面简单介绍一下种类,如果需要详细了解,可以给我留言哟

  • 基于HTML Element 元素的选择器
  • ID 选择器
  • Class选择器
  • 属性选择器
  • parent > child选择器
  • element + next 相邻选择器
  • element~next 兄弟选择器

胖sir:兵长,我说的这些还算清楚吧,你知道怎么用了吗?

兵长:明~明白了,我还要多加练习,多多爬取一下不同的站数据看看效果

胖sir:诶,兵长刚才你说你想将数据处理完毕后,发邮件给你自己吗?

兵长:对呀,诶呀,这又是个问题。我不知道把程序放在那里呢,放在我自己电脑里面的话,我电脑每天是要关机的,我休息了,我的电脑也要跟着我休息,诶,咋办呀

胖sir:好办,这个我可以推荐你用一下 阿里云服务器

如何将自己的程序部署到阿里云服务器上

自己买一个云服务器就可以很方便的将自己的监控程序或者需要一直运行的程序放在上面,这就可以7*24小时不间断的跑了,我最近感受了一下,确实好用。具体的阿里云购买方式可以尝试扫描下面的二维码或者点击链接进行购买,亲测真的好用,如何使用和简单配置,可以给我留言获取资料。

当然,需要上述整个小案例源码的,也可以给我留言哦,让我们一起实践我们的每一个想法,一步一步往上爬。

胖sir:兵长,我需要提醒一点哦,阿里云服务器会自动把你的运行程序关闭掉了的

兵长:啊?那么你还让我买服务器,你这不是坑我吗

胖sir:别急,我推荐的肯定是好东西啦,还附带解决方案哟

screen工具

screen工具可以帮助我们将可执行程序部署到阿里云服务器上面,且能够一直不间断的运行

原理:

screen是在服务器上单独开一个进程,让他专门来执行后台任务。

具体操作:

  • 安装
  • bash

//ubuntu安装sudo apt-get install screen//centosyum install screen
  • 创建screen窗口
screen -S  name例如:screen -S  ssh
  • 查看进程
  • bash

screen -ls
  • image.png
  • image-20210303234906943
  • 进入自己的manager
  • bash

screen -r -d 自己的id如:screen -r -d 5295
  • 关闭screen进程

screen -S 进程名 -X quit

大家如果有需要,可以通过此链接购买阿里云服务器,目前萌新有优惠,亲测很可,别问我是谁,我是小魔童哪吒。

ini

https://www.aliyun.com/activity?taskCode=messenger2101&recordId=337686&usercode=&share_source=copy_link

欢迎点赞,关注,收藏

朋友们,你的支持和鼓励,是我坚持分享,提高质量的动力

image.png

好了,本次就到这里

技术是开放的,我们的心态,更应是开放的。拥抱变化,向阳而生,努力向前行。

我是阿兵云原生,欢迎点赞关注收藏,下次见~


相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1月前
|
JSON Go 开发者
go-carbon v2.5.0 发布,轻量级、语义化、对开发者友好的 golang 时间处理库
carbon 是一个轻量级、语义化、对开发者友好的 Golang 时间处理库,提供了对时间穿越、时间差值、时间极值、时间判断、星座、星座、农历、儒略日 / 简化儒略日、波斯历 / 伊朗历的支持。
39 4
|
1月前
|
存储 Cloud Native Shell
go库介绍:Golang中的Viper库
Viper 是 Golang 中的一个强大配置管理库,支持环境变量、命令行参数、远程配置等多种配置来源。本文详细介绍了 Viper 的核心特点、应用场景及使用方法,并通过示例展示了其强大功能。无论是简单的 CLI 工具还是复杂的分布式系统,Viper 都能提供优雅的配置管理方案。
|
1月前
|
Unix Linux Go
go进阶编程:Golang中的文件与文件夹操作指南
本文详细介绍了Golang中文件与文件夹的基本操作,包括读取、写入、创建、删除和遍历等。通过示例代码展示了如何使用`os`和`io/ioutil`包进行文件操作,并强调了错误处理、权限控制和路径问题的重要性。适合初学者和有经验的开发者参考。
|
3月前
|
Go
golang语言之go常用命令
这篇文章列出了常用的Go语言命令,如`go run`、`go install`、`go build`、`go help`、`go get`、`go mod`、`go test`、`go tool`、`go vet`、`go fmt`、`go doc`、`go version`和`go env`,以及它们的基本用法和功能。
93 6
|
3月前
|
存储 Go
Golang语言基于go module方式管理包(package)
这篇文章详细介绍了Golang语言中基于go module方式管理包(package)的方法,包括Go Modules的发展历史、go module的介绍、常用命令和操作步骤,并通过代码示例展示了如何初始化项目、引入第三方包、组织代码结构以及运行测试。
74 3
|
4月前
|
存储 算法 Java
Go 通过 Map/Filter/ForEach 等流式 API 高效处理数据
Go 通过 Map/Filter/ForEach 等流式 API 高效处理数据
|
4月前
|
数据采集 缓存 IDE
Go中遇到http code 206和302的获取数据的解决方案
文章提供了解决Go语言中处理HTTP状态码206(部分内容)和302(重定向)的方案,包括如何获取部分数据和真实请求地址的方法,以便程序员能快速完成工作,享受七夕时光。
214 0
Go中遇到http code 206和302的获取数据的解决方案
|
4月前
|
存储 负载均衡 算法
[go 面试] 一致性哈希:数据分片与负载均衡的黄金法则
[go 面试] 一致性哈希:数据分片与负载均衡的黄金法则
|
4月前
|
消息中间件 Kafka Go
从Go channel中批量读取数据
从Go channel中批量读取数据
|
4月前
|
数据采集 网络协议 测试技术
使用Go Validator在Go应用中有效验证数据
使用Go Validator在Go应用中有效验证数据