开发者社区> 五岳之巅> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

selenium中webdriver的局部HTML提取

简介:       别和我说selenium中的webdriver用driver.page_source,我就是不想把整篇HTML文档每次都全部提出来做Soup。因为,对下面这样左右结构的论坛而言,每次内容的改变对于整个HTML页面而言实在是一个很小的部分,如果我想把整个网站所有MOOC课程评论爬下来的话,将要做多少无用功!      然而,百度遍中文内容并无解答。
+关注继续查看
      别和我说selenium中的webdriver用driver.page_source,我就是不想把整篇HTML文档每次都全部提出来做Soup。因为,对下面这样左右结构的论坛而言,每次内容的改变对于整个HTML页面而言实在是一个很小的部分,如果我想把整个网站所有MOOC课程评论爬下来的话,将要做多少无用功!
     然而,百度遍中文内容并无解答。于是翻出去Google了一把,发现世界上已有前辈对该问题进行了解答: 

     主要思路是使用get_attribute方法,提取innerHTML,如下:

     经验证,一切OK:

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Selenium2(WebDriver)总结(四)---基本元素操作
WebDriver提供了常用的WEB控件的操作方法,比如:按钮、输入框、超链接等,废话不多说,直接上代码: import org.openqa.selenium.By; import org.
720 0
Selenium2(WebDriver)总结(三)---元素定位方法
元素定位的重要性不言而喻,如果定位不到元素谈何操作元素呢,webdrvier提供了很多种元素定位方法,如ID,Name,xpath,css,tagname等。 例如需要定位如下元素:   By.
746 0
selenium2(WebDriver) API
1.1  下载selenium2.0的包 官方download包地址:http://code.google.com/p/selenium/downloads/list 官方User Guide:   http://seleniumhq.
831 0
+关注
262
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载