>>> response.xpath('//span[@class="time" and @id="news-time"]/text()').extract() ['2017-10-09 09:46']
>>> response.xpath('//title/text()').extract_first() 'Netkiller ebook - Linux ebook'
contains() 匹配含有特定字符串的 class
//*[contains(@class,'foo')]
>>> response.xpath('//ul[contains(@class, "topnews_nlist")]/li/h2/a/@href|//ul[contains(@class, "topnews_nlist")]/li/a/@href').extract()
内容匹配
>>> response.xpath('//div[@id="epContentLeft"]/h1[contains(text(),"10")]/text()').extract() ['美联储10月起启动渐进式缩表 维持基准利率不变']
原文出处:Netkiller 系列 手札
本文作者:陈景峯
转载请与作者联系,同时请务必标明文章原始出处和作者信息及本声明。