在这里对使用beautifulsoup时遇到的问题进行汇总。
问题:爬取网页时使用CSS选择器,代码如下,报错 NotImplementedError: Only the following pseudo-classes are implemented: nth-of-type.
title = soup.select('.newsTable > tbody:nth-child(1) > tr:nth-child(1) > td:nth-child(1)')
处理:nth-child改为nth-of-type
问题:爬取网页时使用CSS选择器,代码如下,打印出来是[]。
title = soup.select('.newsTable > tbody:nth-of-type(1) > tr:nth-of-type(1) > td:nth-of-type(1)')
处理:路径改为 .newsTable > tbody > t > td。要把所有子节点(nth-child)去掉。还有div的前后都要有空格,不然报错。