备案控制台

开发者社区> 问答> 正文

使用beautifulsoup框架进行Python html解析

我正在使用Beauitful汤框架检索链接（以下html内容的参考）

     ```js

Store Google Play

我使用以下代码在python中检索了此代码：

 ```js
pageFile = urllib.urlopen("appannie.com/apps/google-play/app/com.opera.mini.android")
 pageHtml = pageFile.read()
 pageFile.close()
 print pageHtml
 soup = BeautifulSoup("".join(pageHtml))
 item = soup.find("a", {"title":"Open in Google Play"})

 print item

我得到NoneType作为输出。任何帮助都将非常棒。

我打印出html页面，输出如下：

<html>
<head><title>503 Service Temporarily Unavailable</title></head>
<body bgcolor="white">
<center><h1>503 Service Temporarily Unavailable</h1></center>
<hr><center>nginx</center>
</body>
</html>

在浏览器上工作正常

展开

收起

祖安文状元 2020-02-22 15:42:15 765 0

1 条回答

写回答

取消提交回答

祖安文状元
```
item = soup.find("a", {"title":"Open in Google Play"})
```
您最初搜索的是标题为“在Google Play中打开”的“跨度”，但是要查找的元素是“ a”（链接）。

编辑：由于服务器似乎显示了503错误，请尝试使用此代码设置一个公共用户代理（未经测试，它可能根本无法工作；您需要import urllib2）：
```
soup = BeautifulSoup(urllib2.urlopen(urllib2.Request(sampleURL, None, {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:25.0) Gecko/20100101 Firefox/25.0"})).read())
item = soup.find("a", {"title":"Open in Google Play"}) 
print item
```
我也删除了无用的，"".join(pageHtml)因为urllib2已经返回了字符串，所以不需要加入。
2020-02-22 15:42:44

赞同展开评论打赏

问答分类：

应用服务中间件 nginx Python 云解析DNS

问答标签：

html云解析DNS HTML解析云解析DNS html Python框架云解析DNS框架

问答地址：

开发者社区 > 开发与运维 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

阿里云ARMS的实时监控服务启动成功后，影响了App的网络请求框架，不能解析数据了，怎么回事？

48

0

0

在阿里函数计算怎么在一个python文件下部署多个html呢？

31

0

0

在阿里云RPA Python 编码如何通过解析HTML 获取表格内容有事例吗？

44

1

0

各位大佬，Flink中请问有什么好的可将通用sql解析为flinksql和sparksql框架可以？

33

1

0

各位大佬，请问有什么好的可将通用sql解析为flinksql和sparksql框架可以推荐？

45

1

0

能自动生成命令行提示的命令行解析框架有哪些？

206

1

0

Hadoop Writable框架解析是什么？

221

1

0

【HPPTDNS】调用单域名的解析接口访问Domain资源提示“UnsignedInterfaceD

854

1

0

【HPPTDNS】HTTPDNS是否支持解析IPV6域名？

793

1

0

【HPPTDNS】HTTPDNS能解析未备案的域名吗？

635

1

0

问答排行榜

最热

最新

1 通过阿里云代备案系统进行个人快速备案 2699889

2 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1818314

3 据说在家办公的程序员是这样写代码的？ 1792338

4 阿里云开放端口权限 689923

5 如何升级配置 536074

6 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522460

7 【精品问答】python技术1000问(1) 514001

8 Flink Forward Asia 2021 有奖问答 512807

9 Linux Bash严重漏洞修复紧急通知（已全部给出最终修复方案） 456921

10 OceanBase 使用动画（持续更新） 359266

11 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329722

12 OSS存储服务-客户端工具 321336

13 为体验实验室取一个新名字。 307317

14 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 303858

15 Win Server 2003-2016 加密勒索事件必打补丁合集 295162

16 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 283657

17 安全组详解，新手必看教程 277260

18 写code还是做管理，开发者如何进行职业规划？ 268469

19 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255828

20 阿里云手机和阿云浏览器连接问题专帖 235631

1 国内AI大模型高考数学成绩超GPT-4o，如何看待这一结果？ 511

2 如何避免“写代码5分钟，调试2小时”的尴尬？ 430

3 通义灵码生成Git Commit的时候，偶尔生成中文，偶尔生成英文，根本无法控制生成的语言。 107

4 一键部署3D卡通风格模型，分享部署过程及使用体验 504

5 展示你通过AI修饰的自然风光照片，并讲述你的拍摄和编辑过程 884

6 机器学习PAI现在一直在重试，怎样停掉？ 213

7 请问机器学习PAI eas服务拉取dockerhub失败怎么办？ 169

8 请教下机器学习PAI的代码配置没有链接测试吗？ 100

9 平头哥芯片W800:芯片如何购买？ 137

10 阿里云Grafana升级10后已有的飞书webhook 报警机器人不再工作。请问如何排查？ 145

11 请问通义灵码IDEA生成Git Commit Message 如何默认生成中文注释 100

12 Nacos登录密码忘记了如何修改？ 250

13 你知道APP是怎么开发的吗？ 1478

14 如何提高企业的业务稳定性？ 619

15 钉钉宜搭，A提交一个表单，如何设置该表单只能给B看？ 138

16 百问求答 | 回答问题即有机会得米家落地扇 326

17 集成&自动化：3层触发时，新增和删除触发正常，但编辑时不正常 107

18 分享AI代码助手的使用体验 756

19 分享一张AI生成的“老照片”，讲讲你与它的故事 999

20 idea上的通义灵码生成git提交消息老是会变成英文没有切换中文的入口 268

相关课程

更多

Python Web开发基础

33499

4

去学习

Python开发基础入门

11607

17

去学习

Python常用数据科学库

1573

53

去学习

Python网络爬虫实战

2429

3

去学习

Python完全自学手册图文教程

11860

39

去学习

Python基础快速入门实战教程

38541

8

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

From Python Scikit-Learn to Sc 立即下载

Data Pre-Processing in Python: 立即下载

双剑合璧-Python和大数据计算平台的结合 立即下载

相关实验场景

更多