我正在使用Beauitful汤框架检索链接(以下html内容的参考)
```js
我使用以下代码在python中检索了此代码:
```js
pageFile = urllib.urlopen("appannie.com/apps/google-play/app/com.opera.mini.android")
pageHtml = pageFile.read()
pageFile.close()
print pageHtml
soup = BeautifulSoup("".join(pageHtml))
item = soup.find("a", {"title":"Open in Google Play"})
print item
我得到NoneType作为输出。任何帮助都将非常棒。
我打印出html页面,输出如下:
<html>
<head><title>503 Service Temporarily Unavailable</title></head>
<body bgcolor="white">
<center><h1>503 Service Temporarily Unavailable</h1></center>
<hr><center>nginx</center>
</body>
</html>
在浏览器上工作正常
item = soup.find("a", {"title":"Open in Google Play"})
您最初搜索的是标题为“在Google Play中打开”的“跨度”,但是要查找的元素是“ a”(链接)。
编辑:由于服务器似乎显示了503错误,请尝试使用此代码设置一个公共用户代理(未经测试,它可能根本无法工作;您需要import urllib2):
soup = BeautifulSoup(urllib2.urlopen(urllib2.Request(sampleURL, None, {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:25.0) Gecko/20100101 Firefox/25.0"})).read())
item = soup.find("a", {"title":"Open in Google Play"})
print item
我也删除了无用的,"".join(pageHtml)因为urllib2已经返回了字符串,所以不需要加入。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。