一日二技:Pandas 与 Docker 的使用技巧

简介: 一日二技:Pandas 与 Docker 的使用技巧

摄影:产品经理坐车2小时去吃个老火锅

pandas 读取无头 CSV

我们知道,CSV 一般是长这样的:

其中,第一行的name,salary,work叫做 CSV 的头(header)。正常情况下,CSV 都是有头的,所以当我们使用 pandas 读取 CSV 的时候非常方便:

import pandas as pd
df = pd.read_csv('example.csv')
print(df)

运行效果如下图所示:

但有时候,一些特殊的 CSV 文件可能没有头。例如他们可能长成下面这样:

这种情况下,如果直接使用 pandas 读取,第一行数据就会变成头,如下图所示。但这样显然不是我想要的结果:

为了解决这种问题,有两种解决方法。第一种方法,是用文本编辑器打开这个 CSV 文件,手动给他把头加上,保存。然后再用 pandas 来读。

第二种方法是在 pandas 读取的时候,增加一个参数names,它的值是一个列表,也就是头:

import pandas as pd
df = pd.read_csv('example.csv', names=['name', 'salary', 'work'])
print(df)

运行效果如下图所示:

Docker build 提高 apt-get 速度

在国内使用 Docker 构建基于 Ubuntu 的镜像时,默认使用的是官方源。由于众所周知的原因,构建的速度可能很慢。如果是直接操作宿主机的 Ubuntu,我们可以使用 vim 或者图形界面修改源,使用阿里源从而提高速度。

如果是在 Docker 里面应该怎么办呢?我们就可以使用Linux 文本处理三剑客之一的sed来非交互式修改源文件。

在 Docker 中增加如下两行语句:

RUN sed -i s@/archive.ubuntu.com/@/mirrors.aliyun.com/@g /etc/apt/sources.list
RUN apt-get clean

它的作用是把/etc/apt/sources.list文件中的所有archive.ubuntu.com替换为mirrors.aliyun.com。从而提高速度。

所谓的 Linux 文本处理三剑客,指的是grepawksed。只要掌握常见用法,就能大大提高你的开发效率。

目录
相关文章
|
存储 并行计算 Java
Python读取.nc文件的方法与技术详解
本文介绍了Python中读取.nc(NetCDF)文件的两种方法:使用netCDF4和xarray库。netCDF4库通过`Dataset`函数打开文件,`variables`属性获取变量,再通过字典键读取数据。xarray库利用`open_dataset`打开文件,直接通过变量名访问数据。文中还涉及性能优化,如分块读取、使用Dask进行并行计算以及仅加载所需变量。注意文件路径、变量命名和数据类型,读取后记得关闭文件(netCDF4需显式关闭)。随着科学数据的增长,掌握高效处理.nc文件的技能至关重要。
2716 0
|
机器学习/深度学习 人工智能 自然语言处理
大语言模型的Scaling Law:如何随着模型大小、训练数据和计算资源的增加而扩展
在这篇文章中,我们将介绍使这些模型运作的秘密武器——一个由三个关键部分组成的法则:模型大小、训练数据和计算能力。通过理解这些因素如何相互作用和规模化,我们将获得关于人工智能语言模型过去、现在和未来的宝贵见解。
1766 7
大语言模型的Scaling Law:如何随着模型大小、训练数据和计算资源的增加而扩展
|
存储 人工智能 前端开发
搭建企业内部的大语言模型系统
该内容主要介绍了开源大语言模型及其管理方法。首先对比了商业大模型(如ChatGPT)与支持私有部署的开源大模型(如Mistral、Meta Llama),强调了开源模型在安全和隐私方面的优势。接着详细列出了多种大语言模型管理工具,如HuggingFace、Ollama等,并展示了Ollama的快速部署和使用方法。此外,还介绍了大语言模型的应用前端,包括开源平台Ollama-chatbot、PrivateGPT等,以及它们的具体部署步骤和配置示例。最后提供了非私有OpenAI-powered部署方案及其API调用示例。
|
缓存 Docker 容器
在Docker中,docker add copy有什么区别?
在Docker中,docker add copy有什么区别?
|
NoSQL 测试技术 Redis
阿里云服务器安装Redis及基本配置
配置信息:个人电脑是win10 64位系统,服务器是阿里云CentOS 7.3 64位(小霸王学习机,1G内存60G硬盘)。
20876 0
|
Ubuntu 开发工具 git
Ubuntu安装homebrew的完整教程
本文介绍了如何在没有公网的情况下安装 Homebrew。首先访问 Homebrew 官网,然后通过阿里云的镜像克隆安装脚本,并创建普通用户进行安装。接着修改 `install.sh` 文件指向国内镜像,执行安装命令。最后配置环境变量并更换 Homebrew 源为国内镜像,确保安装顺利。
2421 50
使用ants并发任务,事半功倍
使用ants并发任务,事半功倍
|
NoSQL Linux Redis
linux之centos安装redis
linux之centos安装redis
|
存储 监控 Ubuntu
Linux的几种备份、恢复系统方式
Linux的几种备份、恢复系统方式
|
弹性计算 应用服务中间件 nginx
全景剖析阿里云容器网络数据链路(四)—— Terway IPVLAN+EBPF
本文是[全景剖析容器网络数据链路]第四部分部分,主要介绍Kubernetes Terway EBPF+IPVLAN模式下,数据面链路的转转发链路。
1493 8
全景剖析阿里云容器网络数据链路(四)—— Terway IPVLAN+EBPF

热门文章

最新文章