》》》》》魏红斌带你学shell脚本《《《《《
更多shell脚本学习点击个人主页
作为一个资深程序猿,我将带领您从零开始,一步步踏上运维之旅,无论您是否拥有现成的服务器,都将学会如何轻松购买、部署,并通过编写及应用精心设计的Shell脚本,解决实际工作中遇到的问题。这些脚本不仅源自真实的业务场景,经历了反复实践与严格测试,确保了其简洁高效、易于理解且便于使用。更重要的是,我们将全程免费分享,并深度解析背后原理,助您深入理解并灵活运用,每一款脚本均经过真实业务场景的反复打磨与严格测试,秉持着简洁高效、易于理解和使用的理念设计,无偿提供并且提供相关解析过程,让读者能更深入了解相关内容。
无服务器的朋友们:
让我们先从选购并部署服务器开始。只需简单三步,即可拥有您的专属云服务器:
- 访问ECS官网:点击链接直达阿里云ECS网站:ECS选择网址。这是您获取高质量云服务器的第一站。
- 选择并购买:在琳琅满目的服务器配置中,挑选符合您需求的那一款,一键下单,完成支付。整个过程犹如在线购物般便捷。
- 进入ECS控制台:支付成功后,您将被引导至ECS管理控制台。在这里,您可以全面掌控您的服务器资源,后续的所有运维操作都将在此展开。
已有服务器的朋友们:
如果您已拥有ECS实例,那么请直接登录ECS管理控制台。在左侧导航栏中,依次选择“实例与镜像” > “实例”,确保您已定位到目标资源所在的资源组和地域。接下来,在实例列表中找到待连接的实例,点击操作列下的“远程连接”,选择“通过Workbench远程连接”并点击“立即登录”。
登录实例:
无论是新购还是已有服务器,接下来都需要进行实例登录。这里支持多种认证方式,以最常见的“密码认证”为例:
- 输入用户名(通常为
root
或ecs-user
)。 - 接着,输入登录密码。如果您忘记了密码,无需担忧,您可以在ECS实例详情页面查询,或者通过“更改密码”功能进行修改。
编写与运行Shell脚本:
成功登录后,您将看到一个熟悉的命令行界面——这就是您的运维主战场。现在,键入vim test.sh
,我们便进入了文本编辑模式,准备创建第一个Shell脚本。
按下键盘上的i
键,进入插入模式,此刻您可以自由地复制粘贴今天要学习的脚本代码,粘贴后按ecs
后,按:wq
保存脚本,可以用./ test.sh
或者sh test.sh
进行脚本执行。
今天我们要学习的脚本是(脚本内容直接复制粘贴即可):
#!/bin/bash # Website-Title-Extractor.sh # 提取网站所有网页的标题并保存到文件中 # 检查参数数量 if [ "$#" -ne 2 ]; then echo "Usage: $0 <url> <output_file>" exit 1 fi URL=$1 OUTPUT_FILE=$2 # 使用curl命令获取网页内容,并使用grep和sed提取标题 extract_title() { local url=$1 local title=$(curl -s "$url" | grep -o '<title[^>]*>' | sed 's/<title[^>]*>\(.*\)<\/title>/\1/g') echo "$title" } # 递归地提取网站所有网页的标题 crawl_website() { local url=$1 local depth=$2 # 提取当前网页的标题 local title=$(extract_title "$url") if [ -n "$title" ]; then echo "$url - $title" >> "$OUTPUT_FILE" fi # 如果深度大于0,则继续递归地爬取子网页 if [ $depth -gt 0 ]; then # 提取当前网页中的所有链接 local links=$(curl -s "$url" | grep -o 'href="[^"]*"' | sed 's/href="\([^"]*\)".*/\1/g') # 遍历所有链接并递归爬取 for link in $links; do if [ "$(echo "$link" | grep -o '^/')" ]; then # 如果是相对链接,则转换为绝对链接 link="$URL$link" fi crawl_website "$link" $((depth-1)) done fi } # 开始爬取网站 crawl_website "$URL" 5 echo "Extraction complete. Titles saved to $OUTPUT_FILE"
逐行解析:
#!/bin/bash
: 指定脚本使用bash shell来执行。if [ "$#" -ne 2 ]; then ... exit 1; fi
: 检查脚本是否接收到了两个参数(URL和输出文件路径)。如果没有,显示使用方法并退出。URL=$1
和OUTPUT_FILE=$2
: 将第一个和第二个参数分别赋值给URL
和OUTPUT_FILE
变量。extract_title() { ... }
: 定义一个函数extract_title
,用于提取给定URL的网页标题。crawl_website() { ... }
: 定义一个函数crawl_website
,用于递归地爬取网站的所有网页并提取标题。echo "$url - $title" >> "$OUTPUT_FILE"
: 将提取到的标题追加到输出文件中。if [ $depth -gt 0 ]; then ... fi
: 如果深度大于0,则继续递归地爬取子网页。links=$(curl -s "$url" | grep -o 'href="[^"]*"' | sed 's/href="\([^"]*\)".*/\1/g')
: 提取当前网页中的所有链接。for link in $links; do ... done
: 遍历所有链接,并对每个链接调用crawl_website
函数进行递归爬取。crawl_website "$URL" 5
: 从给定的URL开始,以深度5进行爬取。echo "Extraction complete. Titles saved to $OUTPUT_FILE"
: 显示爬取完成消息,并指出标题已保存到哪个文件中。
总结:
这个脚本通过递归地爬取给定URL的网站,并使用curl
和文本处理工具(grep
和sed
)来提取每个网页的标题。它提供了一个灵活的方法,可以通过调整深度参数来控制爬取的深度。此外,脚本还将提取到的标题保存到一个文件中,便于后续分析和处理。这个脚本的创新之处在于它结合了网页爬取和文本提取技术,以生成一个包含网站所有网页标题的摘要文件。
如果想上手操作练代码的同学们可以通过阿里云ecs服务器免费试用参与!
入口:新老同学免费试用