每个网页标题的摘要

简介: 【4月更文挑战第30天】

》》》》》魏红斌带你学shell脚本《《《《《


更多shell脚本学习点击个人主页


作为一个资深程序猿,我将带领您从零开始,一步步踏上运维之旅,无论您是否拥有现成的服务器,都将学会如何轻松购买、部署,并通过编写及应用精心设计的Shell脚本,解决实际工作中遇到的问题。这些脚本不仅源自真实的业务场景,经历了反复实践与严格测试,确保了其简洁高效、易于理解且便于使用。更重要的是,我们将全程免费分享,并深度解析背后原理,助您深入理解并灵活运用,每一款脚本均经过真实业务场景的反复打磨与严格测试,秉持着简洁高效、易于理解和使用的理念设计,无偿提供并且提供相关解析过程,让读者能更深入了解相关内容

无服务器的朋友们

让我们先从选购并部署服务器开始。只需简单三步,即可拥有您的专属云服务器:

  1. 访问ECS官网:点击链接直达阿里云ECS网站:ECS选择网址。这是您获取高质量云服务器的第一站。
  2. 选择并购买:在琳琅满目的服务器配置中,挑选符合您需求的那一款,一键下单,完成支付。整个过程犹如在线购物般便捷。
  3. 进入ECS控制台:支付成功后,您将被引导至ECS管理控制台。在这里,您可以全面掌控您的服务器资源,后续的所有运维操作都将在此展开。

已有服务器的朋友们

如果您已拥有ECS实例,那么请直接登录ECS管理控制台在左侧导航栏中,依次选择“实例与镜像” > “实例”,确保您已定位到目标资源所在的资源组和地域。接下来,在实例列表中找到待连接的实例,点击操作列下的“远程连接”,选择“通过Workbench远程连接”并点击“立即登录”。

登录实例

无论是新购还是已有服务器,接下来都需要进行实例登录。这里支持多种认证方式,以最常见的“密码认证”为例:

  • 输入用户名(通常为rootecs-user)。
  • 接着,输入登录密码。如果您忘记了密码,无需担忧,您可以在ECS实例详情页面查询,或者通过“更改密码”功能进行修改。

编写与运行Shell脚本

成功登录后,您将看到一个熟悉的命令行界面——这就是您的运维主战场。现在,键入vim test.sh,我们便进入了文本编辑模式,准备创建第一个Shell脚本。

按下键盘上的i键,进入插入模式,此刻您可以自由地复制粘贴今天要学习的脚本代码,粘贴后按ecs后,按:wq保存脚本,可以用./ test.sh或者sh test.sh进行脚本执行。

今天我们要学习的脚本是(脚本内容直接复制粘贴即可):

#!/bin/bash
# Website-Title-Extractor.sh
# 提取网站所有网页的标题并保存到文件中
# 检查参数数量
if [ "$#" -ne 2 ]; then
    echo "Usage: $0 <url> <output_file>"
    exit 1
fi
URL=$1
OUTPUT_FILE=$2
# 使用curl命令获取网页内容,并使用grep和sed提取标题
extract_title() {
    local url=$1
    local title=$(curl -s "$url" | grep -o '<title[^>]*>' | sed 's/<title[^>]*>\(.*\)<\/title>/\1/g')
    echo "$title"
}
# 递归地提取网站所有网页的标题
crawl_website() {
    local url=$1
    local depth=$2
    # 提取当前网页的标题
    local title=$(extract_title "$url")
    if [ -n "$title" ]; then
        echo "$url - $title" >> "$OUTPUT_FILE"
    fi
    # 如果深度大于0,则继续递归地爬取子网页
    if [ $depth -gt 0 ]; then
        # 提取当前网页中的所有链接
        local links=$(curl -s "$url" | grep -o 'href="[^"]*"' | sed 's/href="\([^"]*\)".*/\1/g')
        # 遍历所有链接并递归爬取
        for link in $links; do
            if [ "$(echo "$link" | grep -o '^/')" ]; then
                # 如果是相对链接,则转换为绝对链接
                link="$URL$link"
            fi
            crawl_website "$link" $((depth-1))
        done
    fi
}
# 开始爬取网站
crawl_website "$URL" 5
echo "Extraction complete. Titles saved to $OUTPUT_FILE"

逐行解析:

  1. #!/bin/bash: 指定脚本使用bash shell来执行。
  2. if [ "$#" -ne 2 ]; then ... exit 1; fi: 检查脚本是否接收到了两个参数(URL和输出文件路径)。如果没有,显示使用方法并退出。
  3. URL=$1OUTPUT_FILE=$2: 将第一个和第二个参数分别赋值给URLOUTPUT_FILE变量。
  4. extract_title() { ... }: 定义一个函数extract_title,用于提取给定URL的网页标题。
  5. crawl_website() { ... }: 定义一个函数crawl_website,用于递归地爬取网站的所有网页并提取标题。
  6. echo "$url - $title" >> "$OUTPUT_FILE": 将提取到的标题追加到输出文件中。
  7. if [ $depth -gt 0 ]; then ... fi: 如果深度大于0,则继续递归地爬取子网页。
  8. links=$(curl -s "$url" | grep -o 'href="[^"]*"' | sed 's/href="\([^"]*\)".*/\1/g'): 提取当前网页中的所有链接。
  9. for link in $links; do ... done: 遍历所有链接,并对每个链接调用crawl_website函数进行递归爬取。
  10. crawl_website "$URL" 5: 从给定的URL开始,以深度5进行爬取。
  11. echo "Extraction complete. Titles saved to $OUTPUT_FILE": 显示爬取完成消息,并指出标题已保存到哪个文件中。

总结:

这个脚本通过递归地爬取给定URL的网站,并使用curl和文本处理工具(grepsed)来提取每个网页的标题。它提供了一个灵活的方法,可以通过调整深度参数来控制爬取的深度。此外,脚本还将提取到的标题保存到一个文件中,便于后续分析和处理。这个脚本的创新之处在于它结合了网页爬取和文本提取技术,以生成一个包含网站所有网页标题的摘要文件。

如果想上手操作练代码的同学们可以通过阿里云ecs服务器免费试用参与!

入口:新老同学免费试用

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
目录
相关文章
|
消息中间件 存储 数据库
RabbitMQ之MQ的可靠性
RabbitMQ之MQ的可靠性
226 0
|
存储 架构师 测试技术
架构之道——人人都是架构师
本文的探讨和编写主要围绕三个方面:架构是什么?架构师要解决的问题有哪些?解决这些问题的方法论是什么?最后作者希望人人都能具备架构师思维。
|
9月前
|
Java Spring
【Spring配置】idea编码格式导致注解汉字无法保存
问题一:对于同一个项目,我们在使用idea的过程中,使用汉字注解完后,再打开该项目,汉字变成乱码问题二:本来a项目中,汉字注解调试好了,没有乱码了,但是创建出来的新的项目,写的注解又成乱码了。
|
11月前
|
数据采集 搜索推荐 算法
蚂蚁seo的蜘蛛池原理与如何使用?
《揭秘蜘蛛池:原理与使用方法全解析》深入介绍了蜘蛛池的概念、工作原理及使用技巧。蜘蛛池通过吸引搜索引擎蜘蛛频繁访问特定网页,提高网页收录速度和概率。文章详细解析了蜘蛛池的链接储备、吸引策略、爬行路径引导等核心机制,并提供了选择服务、提交链接、监测效果等实用指南,强调合法合规使用的重要性。
415 4
|
11月前
|
前端开发
min-width/max-width 和 min-height/max-height 属性间的覆盖规则
在CSS中,min-width/max-width及min-height/max-height属性用于控制元素的最小和最大尺寸。当min-width与max-width或min-height与max-height属性同时设置时,若它们的值有冲突,max-width和max-height具有更高的优先级。这意味着元素的实际宽度和高度将受限于max-width和max-height的规定,而min-width和min-height则确保了元素不会小于所设定的最小尺寸。
|
11月前
|
机器学习/深度学习 人工智能 安全
AI在灾害管理中的作用:提高防灾减灾能力
【10月更文挑战第8天】AI技术在灾害管理中的应用正在逐步改变我们对灾害的应对方式。通过发挥AI的优势,我们可以更有效地预防、减轻和应对自然灾害带来的挑战,为构建安全、弹性的社会做出更大贡献。
|
存储 缓存 负载均衡
NGINX 性能调优的五大技巧
【8月更文挑战第27天】
278 5
|
11月前
|
SQL 安全 Java
Burpsuite Extender拓展功能实战
Burpsuite Extender拓展功能实战
|
存储 JavaScript 对象存储
JS中的arguments是什么?
JS中的arguments是什么?
149 0
JS中的arguments是什么?
|
存储 安全 程序员
c++理论篇——初窥多线程(一) 计算机内存视角下的多线程编程
c++理论篇——初窥多线程(一) 计算机内存视角下的多线程编程
159 0

热门文章

最新文章