项目说明
使用Python写网络爬虫之糗事百科示例
使用工具
Python2.7.X、pycharm
使用方法
在pycharm中创建一个ceshi.py文件,撰写代码,运行代码,查看运行结果
操作原理
1.首先先了解正则表达式的使用方法,见:正则表达式
2.找到糗事百科的主页URL:http://www.qiushibaike.com/hot/page/1
可以看出来,链接中page/后面的数字就是对应的页码,记住这一点为编写程序做准备。
然后,右击查看页面源码:
观察发现,每一个段子都用div标记,其中class必为content,我们只需要用正则表达式将其“扣”出来就可以了。
示例代码
运行结果
参考来源:http://blog.csdn.net/pleasecallmewhy/article/details/8932310