你需要熟练运用的12个命令行工具

简介: 本文简要介绍了当前较为流行的12种对数据科学任务有价值的类Unix操作系统命令行工具:wget,cat,wc,head,tail,find,cut,uniq,awk,grep,sed,history。

这篇文章简要介绍了十几种用于数据科学任务Unix操作系统命令行工具。这些工具并不包括通用的文件管理命令(pwdlsmkdirrm...)或远程会话管理工具(rshssh...),而是由对数据科学比较有用的实用程序组成,通常会涉及到不同程度的数据检查和处理。这些工具都包含在一个典型的类Unix操作系统中。

这些都是公认的初级阶段所需要使用的工具,你也可以在这个基础上自行查找一些命令的例子。工具名称的链接是维基百科对该工具的介绍,而不是工具手册,在我看来,对于新手来说,维基百科要比工具手册要更实用。

1.wget

wget是一个文件检索工具,基本用法则是远程下载文件。

88ff2724b75a5b4853d0cacb48ee1af99030d19d 

2.cat

cat是对文件内容进行标准输出。名称来源于concatenate用于将两个文件组合在一起(实际连接)将一个文件附加到另一个文件后对文件行进行编号等等。

38aa7a87a78f2eb7042d24d0424567ac50ed83f2 

3.wc

wc用于生成字数行数字节数与文本文件的相关内容。当选项为空时,wc默认输出一行,从左到右分别是:行数、字数(每一行中没有中断的单个字符串被计为单个字)字符数和文件名(多个)。

4e99d1ef5ca3abd9972e22b4c7a863c790933286 

4.head

head将文件的前n行(默认为10)标准输出。-n选项可以设置显示的行数。

2b820e9f3890a7a6d9caadd116d11d53e5ca3020 

5.tail

tail用于输出文件的尾部信息。

7c1d55d8eb83e683cd3553b5b709fb319e02c6f6 

6. find

find用于搜索文件系统中的特定文件。

下图中命令的含义:从当前目录(“.”)开始搜索以“iris”开始、任意类型字符结尾(“-name'iris *'”)、普通文件类型(“-type f“)的文件

f7389a46ba717c406183621fa61c2bc53ebbd311 

7.cut

cut用于从文件中提取文本中的一列。虽然提取出来的列可以使用各种标准进行制作,但cut可以用于从CSV文件中提取一部分数据。

下图中命令的含义:使用逗号(“-d''”)作为字段分隔符输出iris.csv文件的第五列(“-f 5”

775244b6d0f61ec65cb35299cef81b99fbea45f0 

 8.uniq

uniq检查及删除相同的行或列,将文本文件进行标准输出。在命令行中构建管道时个命令可能会很有用将一个命令的输出送到另一个命令的输入等。

下图中命令的含义:列出iris数据集类名第五列重复的次数。

33c2599608ee82cf05371b1f95c38c54845e064a

687cffae333f6c5a6c88e32186d348bb29204283
 

9.awk

awk实际上并不是一个命令,而是一种完整的编程语言。用于处理和提取文本,并且可以命令行以单行命令调用。

掌握awk需要花费一些时间,但在此之前,这是它能够简单完成的一个示例。考虑到我们的示例文件iris.csv相当有限(尤其涉及到文本多样性),该行调用awk,在给定文件(“iris.csv”)内搜索字符串“setosa” ,并逐一打印到标准输出,并打印整行(保存在$ 0变量中)

c95c9fe6b1d5f543958b8c68ea516fb742ec8e92 

10. grep

 grep是另一种文本处理工具,用于匹配字符串和正则表达式。

5bc259abe4db1ad764c0f6557fb31d6cb03936ac

11. sed

 sed是一个流编辑器,是另外一种文本处理和转换工具,类似于awk下图中命令的含义:iris.csv文件中“setosa”更改为“iris-setosa

30942b9c3c2883a45668d842bc5eb9617ba159b2 

12.history

history非常简单,尤其是在你依赖于复制使用过的命令时,这个命令特别有用

5e8891902f1fb0dd058b359bd3914ccda65a0d31 

以上12个命令都是最基本的命令行工具,了解并熟悉其用法对你在数据科学的学习中大有用处。

 

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

以上为译文。

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

文章原标题《Top 12 Essential Command Line Tools for Data Scientists》,译者:Mags,审校:袁虎。

文章为简译,更为详细的内容,请查看原文 

 

 

 

相关文章
|
存储 消息中间件 SQL
Flink 基础学习(五)数据存储
前面两篇笔记已经写了数据来源和转换如何使用,那么这篇当然就到了数据存储,接下来将会从以下角度介绍一下(喜闻乐见的 What / Why / How)~:
1819 0
Flink 基础学习(五)数据存储
|
程序员
阿里技术高P访谈之“呆萌”程序员蒋晓伟为何从Facebook到阿里巴巴
跟蒋晓伟约在一个下午进行访谈,他的花名叫量仔,这个名号让笔者的第一感觉是“高富帅”。然而,当见到本尊之后,才发现他完全就是一个“呆萌”版的程序员,这也印证了其在阿里巴巴内网上的标签——“头像蛮萌的”。
11030 2
|
4月前
|
数据采集 JSON BI
京东评论API能挖出多少“神评”?用代码揭秘用户真实反馈
京东商品评论API提供商品全量评论数据,支持按评分、时间筛选及分页获取,返回120+字段与口碑统计,具备高并发、低延迟、数据安全等特性,助力电商分析与决策。
|
5月前
|
人工智能 API 开发工具
AskTable:可嵌入任何系统的 AI 数据智能体引擎
AskTable 是一款以 Table 为核心的数据 AI 基础设施。它通过标准化 API、SDK、iFrame 与智能体协议(MCP),让 AI 能直接理解、查询和分析表格数据,轻松嵌入企业现有系统。 AskTable 提供从数据接入、语义分析到可视化生成的完整能力,可无缝集成至网页、移动端、钉钉、企业微信或 Dify/HiAgent 等智能体平台。
684 157
|
9月前
|
人工智能 搜索推荐 安全
电商API:数据驱动的营销利器
电商 API 是连接系统与平台的技术桥梁,助力企业实现数据驱动营销。它可实时获取商品、订单及用户行为数据,打破数据孤岛,支持动态化和智能化营销活动。通过整合多渠道数据,企业能优化页面布局、调整广告策略并提升转化率。同时,API 可自动化营销流程,如触发个性化邮件或折扣推送。实际应用中,某时尚电商利用订单 API 提升促销响应率 40%,另一家电品牌借助库存 API 解决超卖问题。未来,AI 融合将推动预测性、计算机视觉和 AR 试穿等智能 API 的发展,隐私计算技术也将保障跨企业数据合作的安全合规。
225 4
|
4月前
|
数据采集 人工智能 JSON
原来用聊天记录就可以创造数字分身!WeClone项目在Lab4AI上的复现
通过WeClone项目,只需导出聊天记录并微调大模型,即可打造专属数字分身。Lab4AI.cn提供一站式服务,无需复杂配置,四步完成:获取数据、预处理、微调、推理。支持自有数据训练,轻松实现个性化AI助手,体验“克隆”自己的奇妙之旅。
368 0
|
11月前
|
机器学习/深度学习 算法 Java
java家政系统实现智能派单?
本项目旨在构建一个基于JAVA的家政系统,通过实时派单满足用户即时需求。系统涵盖用户需求收集、服务人员数据库管理、智能匹配算法(如综合评分、机器学习模型)、实时通信通知、订单状态跟踪及动态调整等功能。同时,优化用户体验,强化安全与隐私保护,并采用微服务架构确保高并发稳定性。通过持续数据分析与算法迭代,实现高效精准的智能派单,提升服务质量和客户满意度。
333 0
|
机器学习/深度学习 数据采集 算法
大数据中缺失值处理使用算法处理
【10月更文挑战第21天】
1032 3
|
人工智能 弹性计算 算法
【Hello AI】AI加速器Deepytorch-面向生成式AI和大模型场景
Deepytorch作为阿里云自研的AI加速器,面向生成式AI和大模型场景,提供了训练和推理加速能力。
【Hello AI】AI加速器Deepytorch-面向生成式AI和大模型场景
|
搜索推荐 5G 新制造
华为星闪联盟:引领无线通信技术创新的先锋
星闪(NearLink),是由华为倡导并发起的新一代无线短距通信技术,它从零到一全新设计,是为了满足万物互联时代个性化、多样化的极致、创新体验需求而诞生的。这项技术汇聚了中国300多家头部企业和机构的集体智慧,华为更是其中的主要贡献方。
608 2

热门文章

最新文章