为什么要避免在 Go 中使用 ioutil.ReadAll?

简介: 为什么要避免在 Go 中使用 ioutil.ReadAll?

原文链接:为什么要避免在 Go 中使用 ioutil.ReadAll?


ioutil.ReadAll 主要的作用是从一个 io.Reader 中读取所有数据,直到结尾。


555.png


在 GitHub 上搜索 ioutil.ReadAll,类型选择 Code,语言选择 Go,一共得到了 637307 条结果。


这说明 ioutil.ReadAll 还是挺受欢迎的,主要也是用起来确实方便。


但是当遇到大文件时,这个函数就会暴露出两个明显的缺点:


  1. 性能问题,文件越大,性能越差。


  1. 文件过大的话,可能直接撑爆内存,导致程序崩溃。


为什么会这样呢?这篇文章就通过源码来分析背后的原因,并试图给出更好的解决方案。

下面我们正式开始。


ioutil.ReadAll


首先,我们通过一个例子看一下 ioutil.ReadAll 的使用场景。比如说,使用 http.Client 发送 GET 请求,然后再读取返回内容:


func main() {
  res, err := http.Get("http://www.google.com/robots.txt")
  if err != nil {
    log.Fatal(err)
  }
  robots, err := io.ReadAll(res.Body)
  res.Body.Close()
  if err != nil {
    log.Fatal(err)
  }
  fmt.Printf("%s", robots)
}
复制代码


http.Get() 返回的数据,存储在 res.Body 中,通过 ioutil.ReadAll 将其读取出来。


表面上看这段代码没有什么问题,但仔细分析却并非如此。想要探究其背后的原因,就只能靠源码说话。


ioutil.ReadAll 的源码如下:


// src/io/ioutil/ioutil.go
func ReadAll(r io.Reader) ([]byte, error) {
  return io.ReadAll(r)
}
复制代码


Go 1.16 版本开始,直接调用 io.ReadAll() 函数,下面再看看 io.ReadAll() 的实现:


// src/io/io.go
func ReadAll(r Reader) ([]byte, error) {
    // 创建一个 512 字节的 buf
  b := make([]byte, 0, 512)
  for {
    if len(b) == cap(b) {
      // 如果 buf 满了,则追加一个元素,使其重新分配内存
      b = append(b, 0)[:len(b)]
    }
    // 读取内容到 buf
    n, err := r.Read(b[len(b):cap(b)])
    b = b[:len(b)+n]
    // 遇到结尾或者报错则返回
    if err != nil {
      if err == EOF {
        err = nil
      }
      return b, err
    }
  }
}
复制代码


我给代码加上了必要的注释,这段代码的执行主要分三个步骤:


  1. 创建一个 512 字节的 buf


  1. 不断读取内容到 buf,当 buf 满的时候,会追加一个元素,促使其重新分配内存;
  2. 直到结尾或报错,则返回;


知道了执行步骤,但想要分析其性能问题,还需要了解 Go 切片的扩容策略,如下:


  1. 如果期望容量大于当前容量的两倍就会使用期望容量;


  1. 如果当前切片的长度小于 1024 就会将容量翻倍;


  1. 如果当前切片的长度大于 1024 就会每次增加 25% 的容量,直到新容量大于期望容量;


也就是说,如果待拷贝数据的容量小于 512 字节的话,性能不受影响。但如果超过 512 字节,就会开始切片扩容。数据量越大,扩容越频繁,性能受影响越大。


如果数据量足够大的话,内存可能就直接撑爆了,这样的话影响就大了。


那有更好的替换方案吗?当然是有的,我们接着往下看。


io.Copy


可以使用 io.Copy 函数来代替,源码定义如下:


src/io/io.go
func Copy(dst Writer, src Reader) (written int64, err error) {
  return copyBuffer(dst, src, nil)
}
复制代码


其功能是直接从 src 读取数据,并写入到 dst


ioutil.ReadAll 最大的不同就是没有把所有数据一次性都取出来,而是不断读取,不断写入。


具体实现 Copy 的逻辑在 copyBuffer 函数中实现:


// src/io/io.go
func copyBuffer(dst Writer, src Reader, buf []byte) (written int64, err error) {
  // 如果源实现了 WriteTo 方法,则直接调用 WriteTo
  if wt, ok := src.(WriterTo); ok {
    return wt.WriteTo(dst)
  }
  // 同样的,如果目标实现了 ReaderFrom 方法,则直接调用 ReaderFrom
  if rt, ok := dst.(ReaderFrom); ok {
    return rt.ReadFrom(src)
  }
  // 如果 buf 为空,则创建 32KB 的 buf
  if buf == nil {
    size := 32 * 1024
    if l, ok := src.(*LimitedReader); ok && int64(size) > l.N {
      if l.N < 1 {
        size = 1
      } else {
        size = int(l.N)
      }
    }
    buf = make([]byte, size)
  }
  // 循环读取数据并写入
  for {
    nr, er := src.Read(buf)
    if nr > 0 {
      nw, ew := dst.Write(buf[0:nr])
      if nw < 0 || nr < nw {
        nw = 0
        if ew == nil {
          ew = errInvalidWrite
        }
      }
      written += int64(nw)
      if ew != nil {
        err = ew
        break
      }
      if nr != nw {
        err = ErrShortWrite
        break
      }
    }
    if er != nil {
      if er != EOF {
        err = er
      }
      break
    }
  }
  return written, err
}
复制代码


此函数执行步骤如下:


  1. 如果源实现了 WriteTo 方法,则直接调用 WriteTo 方法;


  1. 同样的,如果目标实现了 ReaderFrom 方法,则直接调用 ReaderFrom 方法;


  1. 如果 buf 为空,则创建 32KB 的 buf


  1. 最后就是循环 ReadWrite


对比之后就会发现,io.Copy 函数不会一次性读取全部数据,也不会频繁进行切片扩容,显然在数据量大时是更好的选择。


ioutil 其他函数


再看看 ioutil 包的其他函数:


  • func ReadDir(dirname string) ([]os.FileInfo, error)
  • func ReadFile(filename string) ([]byte, error)
  • func WriteFile(filename string, data []byte, perm os.FileMode) error
  • func TempFile(dir, prefix string) (f *os.File, err error)
  • func TempDir(dir, prefix string) (name string, err error)
  • func NopCloser(r io.Reader) io.ReadCloser


下面举例详细说明:


ReadDir


// ReadDir 读取指定目录中的所有目录和文件(不包括子目录)。
// 返回读取到的文件信息列表和遇到的错误,列表是经过排序的。
func ReadDir(dirname string) ([]os.FileInfo, error)
复制代码


举例:


package main
import (
  "fmt"
  "io/ioutil"
)
func main() {
  dirName := "../"
  fileInfos, _ := ioutil.ReadDir(dirName)
  fmt.Println(len(fileInfos))
  for i := 0; i < len(fileInfos); i++ {
    fmt.Printf("%T\n", fileInfos[i])
    fmt.Println(i, fileInfos[i].Name(), fileInfos[i].IsDir())
  }
}
复制代码


ReadFile


// ReadFile 读取文件中的所有数据,返回读取的数据和遇到的错误
// 如果读取成功,则 err 返回 nil,而不是 EOF
func ReadFile(filename string) ([]byte, error)
复制代码


举例:


package main
import (
  "fmt"
  "io/ioutil"
  "os"
)
func main() {
  data, err := ioutil.ReadFile("./test.txt")
  if err != nil {
    fmt.Println("read error")
    os.Exit(1)
  }
  fmt.Println(string(data))
}
复制代码


WriteFile


// WriteFile 向文件中写入数据,写入前会清空文件。
// 如果文件不存在,则会以指定的权限创建该文件。
// 返回遇到的错误。
func WriteFile(filename string, data []byte, perm os.FileMode) error
复制代码


举例:


package main
import (
  "fmt"
  "io/ioutil"
)
func main() {
  fileName := "./text.txt"
  s := "Hello AlwaysBeta"
  err := ioutil.WriteFile(fileName, []byte(s), 0777)
  fmt.Println(err)
}
复制代码


TempFile


// TempFile 在 dir 目录中创建一个以 prefix 为前缀的临时文件,并将其以读
// 写模式打开。返回创建的文件对象和遇到的错误。
// 如果 dir 为空,则在默认的临时目录中创建文件(参见 os.TempDir),多次
// 调用会创建不同的临时文件,调用者可以通过 f.Name() 获取文件的完整路径。
// 调用本函数所创建的临时文件,应该由调用者自己删除。
func TempFile(dir, prefix string) (f *os.File, err error)
复制代码


举例:


package main
import (
  "fmt"
  "io/ioutil"
  "os"
)
func main() {
  f, err := ioutil.TempFile("./", "Test")
  if err != nil {
    fmt.Println(err)
  }
  defer os.Remove(f.Name()) // 用完删除
  fmt.Printf("%s\n", f.Name())
}
复制代码


TempDir


// TempDir 功能同 TempFile,只不过创建的是目录,返回目录的完整路径。
func TempDir(dir, prefix string) (name string, err error)
复制代码


举例:


package main
import (
  "fmt"
  "io/ioutil"
  "os"
)
func main() {
  dir, err := ioutil.TempDir("./", "Test")
  if err != nil {
    fmt.Println(err)
  }
  defer os.Remove(dir) // 用完删除
  fmt.Printf("%s\n", dir)
}
复制代码


NopCloser


// NopCloser 将 r 包装为一个 ReadCloser 类型,但 Close 方法不做任何事情。
func NopCloser(r io.Reader) io.ReadCloser
复制代码


这个函数的使用场景是这样的:


有时候我们需要传递一个 io.ReadCloser 的实例,而我们现在有一个 io.Reader 的实例,比如:strings.Reader


这个时候 NopCloser 就派上用场了。它包装一个 io.Reader,返回一个io.ReadCloser,相应的 Close 方法啥也不做,只是返回 nil


举例:


package main
import (
  "fmt"
  "io/ioutil"
  "reflect"
  "strings"
)
func main() {
  //返回 *strings.Reader
  reader := strings.NewReader("Hello AlwaysBeta")
  r := ioutil.NopCloser(reader)
  defer r.Close()
  fmt.Println(reflect.TypeOf(reader))
  data, _ := ioutil.ReadAll(reader)
  fmt.Println(string(data))
}
复制代码


总结


ioutil 提供了几个很实用的工具函数,背后实现逻辑也并不复杂。


本篇文章从一个问题入手,重点研究了 ioutil.ReadAll 函数。主要原因是在小数据量的情况下,这个函数并没有什么问题,但当数据量大时,它就变成了一颗定时炸弹。有可能会影响程序的性能,甚至会导致程序崩溃。


接下来给出对应的解决方案,在数据量大的情况下,最好使用 io.Copy 函数。


文章最后继续介绍了 ioutil 的其他几个函数,并给出了程序示例。相关代码都会上传到 GitHub,需要的同学可以自行下载。


好了,本文就到这里吧。关注我,带你通过问题读 Go 源码。


源码地址:


目录
相关文章
|
Prometheus 监控 Cloud Native
Grafana+prometheus变量支持include all设置方法
使用Prometheus进行采样收集,借助Grafana进行大盘展示,可以说是系统监控层面的基本操作了,在grafana的大盘配置时,借助变量的灵活性,来展示不同维度的数据表盘比较常见 现在有这样一个场景,一个应用有多台机器,我们设置一个变量 instance 来表示具体的实例ip,支持通过ip来选择不同机器的监控,怎么操作?
1616 0
Grafana+prometheus变量支持include all设置方法
|
Go
【go 语言】PProf 的使用——CPU和内存占用分析(二)
PProf 的使用——CPU和内存占用分析(二)
1876 0
【go 语言】PProf 的使用——CPU和内存占用分析(二)
|
机器学习/深度学习 存储 算法
【LeetCode 热题100】347:前 K 个高频元素(详细解析)(Go语言版)
这篇文章详细解析了力扣热题 347——前 K 个高频元素的三种解法:哈希表+小顶堆、哈希表+快速排序和哈希表+桶排序。每种方法都附有清晰的思路讲解和 Go 语言代码实现。小顶堆方法时间复杂度为 O(n log k),适合处理大规模数据;快速排序方法时间复杂度为 O(n log n),适用于数据量较小的场景;桶排序方法在特定条件下能达到线性时间复杂度 O(n)。文章通过对比分析,帮助读者根据实际需求选择最优解法,并提供了完整的代码示例,是一篇非常实用的算法学习资料。
788 90
|
Linux
linux-du指令
`du`命令是Linux系统中查看磁盘使用情况的基本工具之一。通过灵活使用 `du`命令的各种选项,可以准确、高效地获取文件和目录的大小信息,有助于系统管理员进行磁盘空间管理。无论是查找大文件、分析目录结构还是排除特定类型的文件,`du`命令都提供了丰富的功能和灵活的配置。理解和掌握 `du`命令的使用,对于维护和优化Linux系统的磁盘空间至关重要。
934 4
|
存储 缓存 API
深入理解RESTful API设计原则
在现代软件开发中,RESTful API已成为前后端分离架构下不可或缺的通信桥梁。本文旨在探讨RESTful API的核心设计原则,包括资源导向、无状态、统一接口、以及可缓存性等,并通过实例解析如何在实际应用中遵循这些原则来构建高效、可维护的API接口。我们将深入分析每个原则背后的设计理念,提供最佳实践指导,帮助开发者优化API设计,提升系统整体性能和用户体验。
595 0
|
机器学习/深度学习 数据采集 TensorFlow
使用Python实现深度学习模型:智能文化遗产数字化保护
使用Python实现深度学习模型:智能文化遗产数字化保护
501 1
|
存储 JavaScript 前端开发
Vue中实现图片上传,上传后的图片回显,存储图片到服务器 【使用对象存储OSS】
这篇文章介绍了在Vue中实现图片上传到阿里云OSS对象存储服务的完整流程,包括服务端签名直传的前提知识、后端设置、前端组件封装以及图片上传和回显的效果展示。
|
存储 消息中间件 缓存
高速网络的未来:解析零拷贝Zero-Copy架构
高速网络的未来:解析零拷贝Zero-Copy架构
|
分布式计算 Ubuntu IDE
大数据入门系列 5:全网最全,Hadoop 实验——熟悉常用的 HDFS 目录操作和文件操作
大数据入门系列 5:全网最全,Hadoop 实验——熟悉常用的 HDFS 目录操作和文件操作
2227 0
大数据入门系列 5:全网最全,Hadoop 实验——熟悉常用的 HDFS 目录操作和文件操作

热门文章

最新文章