获取新浪网的链接信息

简介: sgmllib.py 包含一个重要的类: SGMLParser。SGMLParser 将 HTML 分解成有用的片段, 比如开始标记和结束标记。一旦它成功地分解出某个数据为一个有用的片段,它会根据 所发现的数据,调用一个自身内部的方法。

sgmllib.py 包含一个重要的类: SGMLParser。SGMLParser 将 HTML 分解成有用的片段, 比如开始标记和结束标记。一旦它成功地分解出某个数据为一个有用的片段,它会根据 所发现的数据,调用一个自身内部的方法。为了使用这个分析器,您需要子类化 SGML- Parser类,并且覆盖这些方法。

SGMLParser类里面包含了很多内部方法,开始读取html后,遇到相应的数据就会调用其对应的方法,最重要的方法有三个:

  • start_tagname(self, attrs)
  • end_tagname(self)
  • handle_data(self, text)

tagname就是标签名称,比如当遇到<pre>,就会调用start_pre,遇到</pre>,就会调用 end_pre,attrs即为标签的参数,以[(attribute, value), (attribute, value), ...]的形式传回,我们要做的就是在其子类重载自己感兴趣标签对应的函数。

 
 
from sgmllib import SGMLParser
import urllib
import urllib2
import socket
socket.setdefaulttimeout(
210 )

class URLLister(SGMLParser):
def reset(self):
self.url
= []
SGMLParser.reset(self)

def start_a(self,attrs):
href
= [v for k,v in attrs if k == ' href ' ]
if href:
self.url.extend(href)

parser
= URLLister()

myurl
= ' http://www.sina.com.cn '
request
= urllib2.Request(myurl)
opener
= urllib2.build_opener()
page
= opener.open(request)

if page.code == 200 :
predata
= page.read()
parser.feed(predata)
print parser.url, " \n "
相关文章
|
6月前
|
缓存 编译器 API
【C/ C++链接】深入C/C++链接:从基础到高级应用(二)
【C/ C++链接】深入C/C++链接:从基础到高级应用
68 1
|
6月前
|
编译器 C++ 开发者
【C/ C++链接】深入C/C++链接:从基础到高级应用(一)
【C/ C++链接】深入C/C++链接:从基础到高级应用
101 0
|
移动开发 小程序
关于微信公众号插入外部链接
关于微信公众号插入外部链接
1337 0
关于微信公众号插入外部链接
链接
链接
101 0
|
搜索推荐 UED SEO
网站链接诱饵的制作,了解网站链接诱饵的形式
一、网站链接诱饵的制作; 链接诱饵的制作分为以下六个步骤: 1、选择目标对象。链接诱饵的最终意义在对方网站站长能主动转载你的文章,制作诱饵的时候要符合这部分人群的需求靠着口口相传的传播方式传播出去。 2、寻找链接诱饵的素材。可以去各大人气网站查看现时段最为热门的信息,也可以通过百度搜索风云榜,SOSO指数等寻找。 3、标题制作,光有好的内容还是远远不够的,必须要有一个吸引人的标题,要知道大众一般都是先看标题再看内容,标题不吸引人自然也不会有人看内容。类似于“十大xxxx”这样的标题往往能传播的很快。
211 0
|
搜索推荐 SEO
什么样的链接是好链接?哪些链接是优质链接?
查看关键词排名时,我们会注意到排名与外部链接绝对数量之间并没有直接对应关系。很多外部链接数目较少的页面会排在很多外部链接的页面之上。这也是很多SEO新手困惑的,为什么自己的页面外部链接很多,排名却不如只有几个外部链接的竞争对手?这与外部链接的质量有很多关系。 下面&lt;span style=&quot;color: rgba(38, 38, 38, 1)&quot;&gt;&lt;a rel=&quot;dofollow&quot; href=&quot;https://www.fgba.net/&quot; title=&quot;富贵论坛&quot;&gt;&lt;span style=&quot;color: rgba(38, 38, 38, 1)&quot;&gt;富贵论坛&lt;/span&gt;&lt;/a&gt;www.fgba.n
314 0
|
物联网 开发工具
参考链接
参考链接
309 0
|
SQL 关系型数据库 数据库
查看与修改链接学习笔记
版权声明:转载请注明出处:http://blog.csdn.net/dajitui2024 https://blog.csdn.net/dajitui2024/article/details/79396633 1.
1079 0
成功的博客都有好的内容
是什么让一个博客变得成功?相当的文章数不胜数,但不论怎样,所有的人都会同意这个观点:伟大的博客都有伟大的内容。 “内容才是王道”的呼声在站长界回响了数年的时间,虽然我认为一个博客要要想成功仅凭这句话是不够的,但“内容”的确是一个成功的博客必不可少的关键因素。
1063 0
|
存储
关于链接文件的探讨
跨平台系列汇总:http://www.cnblogs.com/dunitian/p/4822808.html#linux 偶尔在用,其实就是软链接和硬链接两种 软链接 和 win里面的快捷方式差不多,就不多说 探讨下硬链接,有点类似于git的存储方式了,你我各有一份共同修改,你挂了我还有 ...
714 0