别和我说
selenium中的
webdriver用
driver.page_source,我就是不想把整篇HTML文档每次都全部提出来做Soup。因为,对下面这样左右结构的论坛而言,每次内容的改变对于整个HTML页面而言实在是一个很小的部分,如果我想把整个网站所有MOOC课程评论爬下来的话,将要做多少无用功!
然而,百度遍中文内容并无解答。于是翻出去Google了一把,发现世界上已有前辈对该问题进行了解答:
主要思路是使用get_attribute方法,提取innerHTML,如下:
主要思路是使用get_attribute方法,提取innerHTML,如下:
经验证,一切OK: