一键构造你的博客目录

简介:

最近看了一下吴军的数学之美。书很好,废话我就不多少了。看了第9章图论和网络爬虫,一直都觉得网络爬虫很牛B,搜索引擎不就是用爬虫爬网页的吗,于是想写一个简单的爬虫来爬网页试试,最先想到的就是给自己的博客建一个目录,够小够简单了吧,于是就有了这篇文章,简单的分享一下,先申明我的实现很简单没有技术含量,在看下文之前可以先看看 我的博客目录。              源码必共享

简单介绍一下网络爬虫的原理:给你一个网页地址,先把这个网页下载下来,然后分析这个网页的内容,得到这个网页中的所有链接,然后下载这些网页,继续分析下载。这样就能下载互联网上的很多网页。原理就这么简单,实现起来就不那么容易了。由于深入不了只能说简单的。

构造我的博客目录思路简单分析。获得你的所有文章的地址及标题,然后将这些文章分类。你的文章其实是已经分类好了的,只用得到你的文章的所有分类,然后根据分类得到所有分类下的文章,就可以得到你所有的文章及其分类,构造你的博客目录就容易了。

被否定了的思路一:随便拿到我的一篇文章的地址,下载这篇文章,然后分析这个地址,得到这篇文章里面的所有链接,按照一定的规则得到我的文章地址,即排除无用的连接,然后以爬虫的思路得到我的所有文章,由于每篇文章都有它的分类,所以很快就能构造我的博客目录了。然而由于博客园的实现不是我想的那样,在下载一篇文章的时候,没有下面的内容,因为下面的内容就像一个双向链表一样将我的所有文章连接起来了,我只要知道一篇文章的地址,通过这个”双向链表“我就能得到我的所有文章了,可就是下载网页里偏偏没有下面的内容,于是这个最接近爬虫的方法被PASS掉了。 

被否定了的思路二。每个人的文章都是分页显示的,我就可以下载这些内容,然后就可以得到我的所有文章,可还是有个问题,跟上面一样的原因,妹的,下载的网页中没有文章的分类,得到了所有的文章,却不知道文章的分类,叫我怎么构造目录啊。于是又被PASS掉了。

 

要构造我的博客目录,这么简单的需求方法当然是很多的了,于是用了个不太想爬虫的方法。就是上面所说的,得到所有文章的分类,下载每个分类下的文章,构造博客目录。获得我的博客分类的方法很简单,如获取我的文章分类方法如下:

请求这个地址:http://www.cnblogs.com/hlxs/mvc/blog/sidecolumn.aspx

传入参数blogApp=hlxs;(hlxs是我在博客园的ID)

这样就得到了我文章的所有分类,然后按照分类得到分类下的所有文章,在构造博客目录就简单了。在这个过程中只要知道某人在博客园的ID就能构造它的博客目录,我说一键构造你的博客目录不为过吧。

如果你也想构造你的博客目录,可以先看看我的博客目录,构造你的博客目录很简单,运行程序,输入你的博客园ID,会自动生成一个”我的博客目录.txt”,将文件的内容以源码的方式发表就行。



本文转自啊汉博客园博客,原文链接:http://www.cnblogs.com/hlxs/archive/2013/02/20/2918760.html
目录
相关文章
|
BI
运营必备 - CPA、CPS、CPC、CPM推广是什么意思?(一)
运营必备 - CPA、CPS、CPC、CPM推广是什么意思?(一)
16591 0
运营必备 - CPA、CPS、CPC、CPM推广是什么意思?(一)
|
6月前
|
编解码 数据安全/隐私保护
无影云电脑产品使用黑神话悟空之游戏画面卡顿的推荐设置
这段内容介绍了无影云电脑在运行《黑神话:悟空》时遇到画面卡顿等问题的推荐设置与解决方案,包括调整分辨率和显示模式等方法,并提供了多个具体问题的详细解答及参考链接,帮助用户优化游戏体验。
|
传感器 物联网 大数据
[总结]蓝牙各个版本的关系和区别
[总结]蓝牙各个版本的关系和区别
1676 0
|
10月前
|
Java 数据库连接 mybatis
MyBatis中Mapper接口和dao区别是什么?
MyBatis中Mapper接口和dao区别是什么?
254 0
|
10月前
|
存储 安全 网络安全
云计算时代下的网络安全挑战与应对
随着云计算技术的快速发展,网络安全问题日益突出,涉及到云服务、网络安全和信息安全等多个技术领域。本文将探讨在云计算时代下,面临的网络安全挑战以及相应的解决方案,旨在提升人们对网络安全的认识与重视。
216 0
|
10月前
|
API
一个简约风的VitePress博客主题
前言 笔者的博客之前是使用 VuePress + reco主题 随着博客文章数量越来越多(md文件已经300+了),博客本地启动和构建越来越来慢了emmm 恰好此时 VitePress 也相对成熟了(1.x alpha),就萌生了迁移到 VitePress 的想法 其相比 VuePress 更加的简洁,可玩性强,上手成本也低,由 Vite 加持体验也是非常不错。 按照官方的给的定位,VitePress 只提供一些基础主题API,所有定制都在自己的主题里完成(个人感觉就像Hexo丰富多彩的主题一样),不提供插件系统
1055 0
|
机器学习/深度学习 人工智能 算法
Generator-Evaluator重排模型在淘宝流式场景的实践
Generator-Evaluator重排模型在淘宝流式场景的实践
634 0
|
Web App开发 安全 JavaScript
开放平台-文档中心
如果您的应用和淘宝开放平台对接时需要获取用户隐私数据(如商品、订单等),为保证用户数据的安全与隐私,您的应用需要取得用户的授权,即获取访问用户数据的授权令牌 Access Token (也叫SessionKey)。这种情况下,您的应用需要引导用户完成使用淘宝帐号“登录授权”的流程。该流程采用国际通用的OAuth2.0标准协议作为用户身份验证与授权协议,支持网站、手机客户端、桌面客户端。
1144 0
|
jenkins 测试技术 持续交付
Jenkins学习(三)——设置定时任务
Jenkins学习(三)——设置定时任务
580 0
Jenkins学习(三)——设置定时任务
|
NoSQL Redis 存储
5分钟带你了解Redis 5.0新功能 内含重量级特性解读
Redis是目前最流行的KV缓存数据库,它简单易用,安全稳定,在互联网行业有着非常广泛的应用。
2798 0