自动文件内容摘要生成器

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 【4月更文挑战第30天】

》》》》》魏红斌带你学shell脚本《《《《《


更多shell脚本学习点击个人主页


作为一个资深程序猿,我将带领您从零开始,一步步踏上运维之旅,无论您是否拥有现成的服务器,都将学会如何轻松购买、部署,并通过编写及应用精心设计的Shell脚本,解决实际工作中遇到的问题。这些脚本不仅源自真实的业务场景,经历了反复实践与严格测试,确保了其简洁高效、易于理解且便于使用。更重要的是,我们将全程免费分享,并深度解析背后原理,助您深入理解并灵活运用,每一款脚本均经过真实业务场景的反复打磨与严格测试,秉持着简洁高效、易于理解和使用的理念设计,无偿提供并且提供相关解析过程,让读者能更深入了解相关内容

无服务器的朋友们

让我们先从选购并部署服务器开始。只需简单三步,即可拥有您的专属云服务器:

  1. 访问ECS官网:点击链接直达阿里云ECS网站:ECS选择网址。这是您获取高质量云服务器的第一站。
  2. 选择并购买:在琳琅满目的服务器配置中,挑选符合您需求的那一款,一键下单,完成支付。整个过程犹如在线购物般便捷。
  3. 进入ECS控制台:支付成功后,您将被引导至ECS管理控制台。在这里,您可以全面掌控您的服务器资源,后续的所有运维操作都将在此展开。

已有服务器的朋友们

如果您已拥有ECS实例,那么请直接登录ECS管理控制台在左侧导航栏中,依次选择“实例与镜像” > “实例”,确保您已定位到目标资源所在的资源组和地域。接下来,在实例列表中找到待连接的实例,点击操作列下的“远程连接”,选择“通过Workbench远程连接”并点击“立即登录”。

登录实例

无论是新购还是已有服务器,接下来都需要进行实例登录。这里支持多种认证方式,以最常见的“密码认证”为例:

  • 输入用户名(通常为rootecs-user)。
  • 接着,输入登录密码。如果您忘记了密码,无需担忧,您可以在ECS实例详情页面查询,或者通过“更改密码”功能进行修改。

编写与运行Shell脚本

成功登录后,您将看到一个熟悉的命令行界面——这就是您的运维主战场。现在,键入vim test.sh,我们便进入了文本编辑模式,准备创建第一个Shell脚本。

按下键盘上的i键,进入插入模式,此刻您可以自由地复制粘贴今天要学习的脚本代码,粘贴后按ecs后,按:wq保存脚本,可以用./ test.sh或者sh test.sh进行脚本执行。

今天我们要学习的脚本是(脚本内容直接复制粘贴即可):

#!/bin/bash
# 检查参数个数
if [ "$#" -ne 1 ]; then
    echo "Usage: $0 <directory_path>"
    exit 1
fi
# 检查目录是否存在
if [ ! -d "$1" ]; then
    echo "Error: The specified directory does not exist."
    exit 1
fi
# 进入指定目录
cd "$1"
# 遍历目录中的所有文件
for file in *; do
    if [ -f "$file" ]; then  # 只处理文件,忽略目录
        # 获取文件大小(单位:字节)
        file_size=$(stat -c%s "$file")
        
        # 如果文件大小超过1MB,只取前1MB进行分析
        if [ "$file_size" -gt 1048576 ]; then
            head_content=$(head -c 1048576 "$file")
        else
            head_content=$(cat "$file")
        fi
        
        # 使用md5sum生成内容的简短摘要
        summary=$(echo "$head_content" | md5sum | awk '{print $1}')
        
        # 输出文件名、大小和摘要
        echo "File: $file"
        echo "Size: $file_size bytes"
        echo "Summary: $summary"
        echo "--------------------------------"
    fi
done

逐行解析:

  1. #!/bin/bash - 指定脚本使用的shell解释器。
  2. 检查用户是否提供了一个参数(即要分析的目录路径)。
  3. 检查提供的目录是否存在。
  4. 切换到用户指定的目录。
  5. 使用for循环遍历目录中的所有文件和子目录。
  6. 检查当前项是否为文件(而不是目录)。
  7. 使用stat命令获取文件的大小(以字节为单位)。
  8. 如果文件大小超过1MB,则只取文件的前1MB内容进行分析。这有助于加速处理过程,特别是对于大文件。
  9. 使用md5sum命令生成文件内容的简短摘要。这里选择md5sum是因为它生成的是一个固定长度的摘要,便于比较和存储。
  10. 使用awk命令从md5sum的输出中提取摘要部分。
  11. 输出文件名、大小和摘要。
  12. 输出一个分隔线,以便更容易区分不同文件的输出。

总结:

此脚本创新之处在于它结合了文件大小限制和内容摘要生成,从而实现了对大量文件内容的快速和有效分析。它特别适合在需要快速获取文件内容概览的场景中使用,例如内容审查或信息检索。通过限制分析的文件大小,脚本在保持摘要准确性的同时,也提高了处理大量文件时的效率。

如果想上手操作练代码的同学们可以通过阿里云ecs服务器免费试用参与!

入口:新老同学免费试用

相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
目录
相关文章
|
8月前
|
数据采集 JavaScript 前端开发
使用Puppeteer构建博客内容的自动标签生成器
标签是一种用于描述和分类博客内容的元数据,它可以帮助读者快速找到感兴趣的主题,也可以提高博客的搜索引擎优化(SEO)。然而,手动为每篇博客文章添加合适的标签是一件费时费力的工作,有时候也容易遗漏或重复。本文将介绍如何使用Puppeteer这个强大的Node.js库来构建一个博客内容的自动标签生成器,它可以根据博客文章的标题和正文内容,自动提取出最相关的标签,并保存到数据库中。
使用Puppeteer构建博客内容的自动标签生成器
|
8月前
|
XML 存储 数据格式
基于大量文件的名称特征自动新建多个文件夹并自动复制对应文件:Python
本文介绍基于Python,对一个文件夹下大量栅格影像,基于其各自文件名,分别创建指定名称的新文件夹,并将对应影像文件复制到不同的新文件夹下的方法。
113 3
基于大量文件的名称特征自动新建多个文件夹并自动复制对应文件:Python
|
9月前
|
自然语言处理 算法 固态存储
NonCompressibleFiles -- 空文件夹生成器
其功用在于产生测试用途的指定大小文件(最大单个10G),并且可以指定为不可压缩文件(压缩后体积不会发生变化)或最大可压缩文件格式(测试生成一个100M文件压缩为55KB),快速产生各种不同大小的测试文件
102 0
|
10月前
yolo自动标注时缺失的txt文件批量创建之脚本
使用yolov5做推理时并保存yolo格式的txt文件的时候,当图片上没有检测到目标时,yolov5将不会保存空的txt文件,导致txt文件缺失,yolo训练时报错。所以写了个简单的小脚本,在不影响原来已存在txt文件的前提下,来批量创建缺失的空txt文件并确保txt文件的总数量与图片的总数量一致。温馨提示:运行此脚本时,一定要注意图片和txt文件的文件名中,除了文件名后缀前有一个。
85 0
|
12月前
|
C语言 C++ Python
免杀生成器之Charlotte解析
charlotte是一款Python编写的自动化免杀工具,用来生成免杀的dll文件,在线查杀是1/26报毒,总的来说免杀效果还可以
232 0
|
测试技术
loadrunner 脚本开发-参数化之将内容保存为参数、参数数组及参数值获取
loadrunner 脚本开发-参数化之将内容保存为参数、参数数组及参数值获取
89 0
|
测试技术
loadrunner 脚本开发-参数化之将内容保存为参数、参数数组及参数值获取Part 2
loadrunner 脚本开发-参数化之将内容保存为参数、参数数组及参数值获取Part 2
86 0
|
PyTorch 算法框架/工具 Python
pytorch保存参数及模型的两种方式
pytorch保存参数及模型的两种方式
434 0
|
机器学习/深度学习 PyTorch 算法框架/工具
PyTorch学习笔记(五):模型定义、修改、保存
Module 类是 torch.nn 模块里提供的一个模型构造类 (nn.Module),是所有神经⽹网络模块的基类,我们可以继承它来定义我们想要的模型; PyTorch模型定义应包括两个主要部分:各个部分的初始化(_init_);数据流向定义(forward) 基于nn.Module,可以通过Sequential,ModuleList和ModuleDict三种方式定义PyTorch模型。
660 0
compose 页面间参数正向反向传递方法
compose 页面间参数正向反向传递方法
390 0