Golang爬虫

2023-01-10 353 发布于江西

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 示例爬去美女图

申明仅供学习

一、准备工作

网站：亿图网爬取美女图（https://www.yeitu.com）
go语言基础

二、爬取美女区域（/meinv/）

先梳理流程（暂不编码）
找到对应的导航栏

复制标签对应的selector

body > div:nth-child(4) > div.yt-title > h3 > a

删除:nth-child(4)保留所需的： body > div > div.yt-title > h3 > a

代码获取到对应的链接后，请求地址（例：https://www.yeitu.com/meinv/xinggan/）

同理找到对应的标签，复制selector
body > div.list_tags.w > div.list_tags_box > a
代码获取对应的地址，拼接上https://www.yeitu.com（例：https://www.yeitu.com/tag/siwameitui/）
请求该地址

找到具体的图片标签，复制selector

tag_box > div > a > img

获取所需美女图片的地址

三、代码爬取

package main

import (
    "bufio"
    "fmt"
    "github.com/gocolly/colly"
    "os"
    "strconv"
)


func main() {
    yeitu()
}

// 亿图网爬取美女图
var baseUrl = "https://www.yeitu.com"

func yeitu() {
    var homeUrl = baseUrl + "/meinv/"
    fetch1(homeUrl)
}
func fetch1(url string) {
    col := colly.NewCollector()
    // 检测请求
    col.OnRequest(func(req *colly.Request) {
        fmt.Println("检测一个请求......")
    })
    // 检测响应
    col.OnResponse(func(r *colly.Response) {
        fmt.Println("检测一个响应......")
    })
    // 定位img标签。注册该函数，框架内部回调
    col.OnHTML("body > div > div.yt-title > h3 > a", func(elem *colly.HTMLElement) {
        // 获取标签对应属性的值。
        attr := elem.Attr("href")
        fetch2(attr)
    })

    col.Visit(url)
}
func fetch2(url string) {
    col := colly.NewCollector()
    // 检测请求
    col.OnRequest(func(req *colly.Request) {
        fmt.Println("检测一个请求......")
    })
    // 检测响应
    col.OnResponse(func(r *colly.Response) {
        fmt.Println("检测一个响应......")
    })
    // 定位img标签。注册该函数，框架内部回调
    col.OnHTML("body > div.list_tags.w > div.list_tags_box > a", func(elem *colly.HTMLElement) {
        // 获取标签对应属性的值。
        attr := elem.Attr("href")
        fetch3(baseUrl + attr)
    })

    col.Visit(url)
}
func fetch3(url string) {
    col := colly.NewCollector()
    // 检测请求
    col.OnRequest(func(req *colly.Request) {
        fmt.Println("检测一个请求......")
    })
    // 检测响应
    col.OnResponse(func(r *colly.Response) {
        fmt.Println("检测一个响应......")
    })
    // 定位img标签。注册该函数，框架内部回调
    col.OnHTML("#tag_box > div > a > img", func(elem *colly.HTMLElement) {
        // 获取标签对应属性的值。
        attr := elem.Attr("src")
        fmt.Println(attr + "\n")
    })
    col.Visit(url)
}

        
          
        
        
        
          
          AI 代码解读

四、优化

可以使用多线程，并且分页爬取，保存的时候按图片分类存储

Golang爬虫

一、准备工作

二、爬取美女区域（/meinv/）

tag_box > div > a > img

三、代码爬取

四、优化

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Golang爬虫

一、准备工作

二、爬取美女区域（/meinv/）

tag_box > div > a > img

三、代码爬取

四、优化

热门文章

最新文章

相关课程

相关电子书

推荐镜像