备案控制台

开发者社区问答正文

如何通过Shell+Curl抓取远程页面中的链接并存入文本

curl http://www.baidu.com/ -o baidu.html
这句是抓取页面内容到服务器上，但如何在Shell里对内容进行分析呢？

展开

收起

a123456678 2016-06-14 15:39:39 3926 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

a123456678

这里我以取出搜索目标为oschina，取出所有的搜索结果标题为例：

#搜索oschina并将搜索结果存入page.html
curl http://www.baidu.com/s?wd=oschina -o page.html 
 
#接下来可以对page.html进行处理
cat page.html | sed "s/\"url\"/\r\n/g" | grep "\"title\":.*" | sed "s/.*title/\"title/g" | grep "\"title\":\".*\"" > outcome.txt


得到结果 outcome.txt为：

"title":"开源中国 - 找到您想要的开源项目,分享和交流",
"title":"git@osc - 代码托管 - 开源中国社区 ",
"title":"oschina - 开源中国社区",
"title":"oschina - 30分钟,让你成为一个更好的程序员 - 开源中国社区",
"title":"像开源中国(oschina)这种网站,叫什么站? 希望回答的具..._百度知道",
"title":"oschina+技术架构介绍_免费下载_百度文库",
"title":"中国源 —— 云端的开发者服务平台",
"title":"oschina / android-app - 代码托管 - 开源中国社区 ",
"title":"在线工具 —— 开源中国社区",
"title":"oschina/search-framework · GitHub",

仔细对下载下来的文件进行观察，主要使用grep和sed工具提取出自己需要的内容。
如果shell不能满足你，可以用python来做，功能会更强大一些！

2019-07-17 19:37:54

赞同展开评论

问答分类：

Shell

问答标签：

shell curl Shell存入 Shell链接 Shell文本 Shell页面

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

DataWorks补数据SHELL执行 curl 报错，但是手动运行业务流程不会报这个错？

147

3

0

如何使用java远程链接服务器，并可以执行shell命令

432

4

0

DataWorks中shell使用curl 需要独立资源组吗？

133

3

0

云效使用shell脚本通过curl来进行操作流水线中的webhook，但是一直不通？

250

2

0

这边通过dataworks 的shell curl 请求一个api报这个问题，请问怎么解决？

667

1

0

Linux shell怎么使用curl获取HTTP status code呢？

784

1

0

Linux shell怎么在需要提升权限的情况下往一个文件里追加文本呢？

282

1

0

Linux shell怎么挂载一个目录（不能使用链接的情况）呢？

443

1

0

Linux shell怎么使用curl获取HTTP头信息呢？

575

1

0

Linux shell怎么获取文本的md5 hash呢？

338

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

idea通义灵码插件，更新后怎么一直用英文回答。开始对话时，告诉它之后的问题使用中文回答也不行

钉钉小程序开发获取code失败

阿里云OSS包年包月还另外收费吗？对象存储

阿里云 CEN 如何与 VPC 互联配置?

云企业网怎么进行组网？

相关文章

深入浅出Ansible语法——Ansible安全基线配置（一）

CMP7（类Cloudera CDP 7 404版华为Kunpeng）用开源软件Label Studio做数据标注

【经典面试场景题】线上服务器如果磁盘满了，你会如何处理？

Linux系统安装miniconda详细教程

MongoDB 插入操作机制详解：insert() 与 nInserted 的行为剖析

还有其他疑问?