Go编程:使用 Colly 库下载Reddit网站的图像

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,1000CU*H 3个月
简介: Reddit是一个社交新闻网站,用户可以发布各种主题的内容,包括图片。本文将介绍如何使用Go语言和Colly库编写一个简单的爬虫程序,从Reddit网站上下载指定主题的图片,并保存到本地文件夹中。为了避免被目标网站反爬,我们还将使用爬虫代理服务,通过动态切换代理IP来提高爬取效率和稳定性。

亿牛云.png

概述

Reddit是一个社交新闻网站,用户可以发布各种主题的内容,包括图片。本文将介绍如何使用Go语言和Colly库编写一个简单的爬虫程序,从Reddit网站上下载指定主题的图片,并保存到本地文件夹中。为了避免被目标网站反爬,我们还将使用亿牛云爬虫代理服务,通过动态切换代理IP来提高爬取效率和稳定性。

正文

Colly库简介

Colly是一个用Go语言编写的功能强大的爬虫框架。它提供了简洁的API,拥有强劲的性能,可以自动处理cookie和session,还有提供灵活的扩展机制。Colly支持多种数据格式的解析,如HTML、XML、JSON等,还支持分布式爬取、限速、缓存、重试等功能。

亿牛云爬虫代理简介

亿牛云爬虫代理是一种专业的代理服务,通过固定云代理服务地址,建立专线网络链接,代理平台自动实现海量IP池管理及负载均衡,实时无感的毫秒级代理IP切换,提供企业级云服务的网络稳定性及请求响应速度,同时降低了客户端运算负载压力,避免了爬虫客户在代理IP策略优化上投入精力,整体提升了爬虫效率。

爬虫程序设计

我们的爬虫程序主要分为以下几个步骤:

  • 创建一个Colly实例,并设置相关选项和回调函数
  • 登录亿牛云后台,获取代理相关信息(域名、端口、用户名、密码),并设置到Colly实例中
  • 访问Reddit网站,根据指定的主题(subreddit)和过滤条件(filter),获取图片链接
  • 下载图片,并保存到本地文件夹中

爬虫程序代码

package main

import (
    "fmt"
    "io"
    "log"
    "net/http"
    "net/url"
    "os"
    "path/filepath"
    "strings"

    "github.com/gocolly/colly/v2"
)

// 定义常量
const (
    subreddit = "pics" // 主题
    filter    = "top"  // 过滤条件
    limit     = 10     // 图片数量限制
    output    = "images" // 输出文件夹

    // 亿牛云爬虫代理相关信息(需登录后台获取)
    proxyHost = "www.16yun.cn" // 域名
    proxyPort = 6443           // 端口
    proxyUser = "16YUN"        // 用户名
    proxyPass = "16IP"         // 密码
)

func main() {
   
   
    // 创建一个Colly实例
    c := colly.NewCollector(
        colly.AllowedDomains("www.reddit.com", "old.reddit.com", "i.redd.it", "i.imgur.com"),
    )

    // 设置代理(使用亿牛云爬虫代理服务)
    err := c.SetProxyFunc(func(r *http.Request) (*url.URL, error) {
   
   
        return url.Parse(fmt.Sprintf("http://%s:%s@%s:%d", proxyUser, proxyPass, proxyHost, proxyPort))
    })
    if err != nil {
   
   
        log.Fatal(err)
    }

    // 创建一个计数器,用于限制图片数量
    count := 0

    // 注册HTML回调函数,用于解析图片链接
    c.OnHTML("a[href]", func(e *colly.HTMLElement) {
   
   
        // 获取链接地址
        link := e.Attr("href")
        // 过滤非图片链接
        if !strings.HasSuffix(link, ".jpg") && !strings.HasSuffix(link, ".png") {
   
   
            return
        }
        // 限制图片数量
        if count >= limit {
   
   
            return
        }
        // 访问图片链接
        c.Visit(link)
    })

    // 注册图片回调函数,用于下载图片
    c.OnResponse(func(r *colly.Response) {
   
   
        // 获取图片URL
        url := r.Request.URL.String()
        // 获取图片文件名
        filename := filepath.Base(url)
        // 创建输出文件夹(如果不存在)
        if _, err := os.Stat(output); os.IsNotExist(err) {
   
   
            os.Mkdir(output, 0755)
        }
        // 创建图片文件
        file, err := os.Create(filepath.Join(output, filename))
        if err != nil {
   
   
            log.Fatal(err)
        }
        defer file.Close()
        // 写入图片数据
        file.Write(r.Body)
        fmt.Printf("下载图片:%s\n", url)
        count++
    })

    c.OnError(func(r *colly.Response, err error) {
   
   
        fmt.Printf("请求失败:%s\n", r.Request.URL)
        fmt.Println(err)
    })

    c.OnRequest(func(r *colly.Request) {
   
   
        fmt.Printf("请求开始:%s\n", r.URL)
    })

    c.OnResponse(func(r *colly.Response) {
   
   
        fmt.Printf("请求完成:%s\n", r.Request.URL)
    })

    c.OnScraped(func(r *colly.Response) {
   
   
        fmt.Println("爬取结束")
    })

    fmt.Println("爬取开始")
    c.Visit(fmt.Sprintf("https://old.reddit.com/r/%s/%s/", subreddit, filter))
}

结语

本文介绍了如何使用Go语言和Colly库编写一个简单的爬虫程序,从Reddit网站上下载指定主题的图片,并保存到本地文件夹中。同时,我们还使用了亿牛云爬虫代理服务,通过动态切换代理IP来提高爬取效率和稳定性,希望本文对你有所帮助。

相关文章
|
8月前
|
JavaScript 前端开发 Java
通义灵码 Rules 库合集来了,覆盖Java、TypeScript、Python、Go、JavaScript 等
通义灵码新上的外挂 Project Rules 获得了开发者的一致好评:最小成本适配我的开发风格、相当把团队经验沉淀下来,是个很好功能……
1438 103
|
4月前
|
数据采集 Go API
Go语言实战案例:多协程并发下载网页内容
本文是《Go语言100个实战案例 · 网络与并发篇》第6篇,讲解如何使用 Goroutine 和 Channel 实现多协程并发抓取网页内容,提升网络请求效率。通过实战掌握高并发编程技巧,构建爬虫、内容聚合器等工具,涵盖 WaitGroup、超时控制、错误处理等核心知识点。
|
7月前
|
设计模式 缓存 算法
Go如何进行高质量编程与性能调优实践
本文介绍了Go语言高质量编程与性能调优的实践方法。高质量编程包括良好的编码习惯(如清晰注释、命名规范)、代码风格与设计(如MVC模式)、简洁明了的代码原则,以及单元测试与代码重构的重要性。性能调优方面,涵盖算法优化、数据结构选择、I/O优化、内存管理、并行与并发处理优化及代码层面的改进。通过这些方法,可有效提升代码质量和系统性能。
161 13
|
7月前
|
分布式计算 Go C++
初探Go语言RPC编程手法
总的来说,Go语言的RPC编程是一种强大的工具,让分布式计算变得简单如同本地计算。如果你还没有试过,不妨挑战一下这个新的编程领域,你可能会发现新的世界。
188 10
|
9月前
|
Go 开发者
go-carbon v2.6.0 重大版本更新,轻量级、语义化、对开发者友好的 golang 时间处理库
carbon 是一个轻量级、语义化、对开发者友好的 Golang 时间处理库,提供了对时间穿越、时间差值、时间极值、时间判断、星座、星座、农历、儒略日 / 简化儒略日、波斯历 / 伊朗历的支持
203 3
|
10月前
|
网络协议 Linux Go
用 Go 基于 epoll 实现一个最小化的IO库
Go 语言社区中存在多个异步网络框架,如 evio、nbio、gnet 和 netpoll 等。这些框架旨在解决标准库 netpoll 的低效问题,如一个连接占用一个 goroutine 导致的资源浪费。easyio 是一个最小化的 IO 框架,核心代码不超过 500 行,仅实现 Linux 下的 epoll 和 TCP 协议。它通过 Worker Pool、Buffer 等优化提高了性能,并提供了简单的事件处理机制。
148 0
|
JSON Go 开发者
go-carbon v2.5.0 发布,轻量级、语义化、对开发者友好的 golang 时间处理库
carbon 是一个轻量级、语义化、对开发者友好的 Golang 时间处理库,提供了对时间穿越、时间差值、时间极值、时间判断、星座、星座、农历、儒略日 / 简化儒略日、波斯历 / 伊朗历的支持。
271 4
|
数据采集 监控 Java
go语言编程学习
【11月更文挑战第3天】
232 7
|
数据库连接 Go 数据库
Go语言中的错误注入与防御编程。错误注入通过模拟网络故障、数据库错误等,测试系统稳定性
本文探讨了Go语言中的错误注入与防御编程。错误注入通过模拟网络故障、数据库错误等,测试系统稳定性;防御编程则强调在编码时考虑各种错误情况,确保程序健壮性。文章详细介绍了这两种技术在Go语言中的实现方法及其重要性,旨在提升软件质量和可靠性。
204 1
|
存储 Go PHP
Go语言中的加解密利器:go-crypto库全解析
在软件开发中,数据安全和隐私保护至关重要。`go-crypto` 是一个专为 Golang 设计的加密解密工具库,支持 AES 和 RSA 等加密算法,帮助开发者轻松实现数据的加密和解密,保障数据传输和存储的安全性。本文将详细介绍 `go-crypto` 的安装、特性及应用实例。
618 0