scrapy 使用 CSS 或者 xpath 提取没有 HTML 标签包括的文本
<a href="/video/1430" class="J-media-item">
<i class="imv2-play_circle type"></i>
1-1 Java简介 (05:49)
<button class="r moco-btn moco-btn-red preview-btn">开始学习</button>
</a>
目前的解决方法是使用 beautifulsoup4, 除了这里的数据其他数据都提取到了,不想为了这个问题再引入 bs4, 请教下 css 或者 xpath 如何实现?
from lxml import etree
wb_data = '''
<a href="/video/1430" class="J-media-item">
<i class="imv2-play_circle type"></i>
1-1 Java简介 (05:49)
<button class="r moco-btn moco-btn-red preview-btn">开始学习</button>
</a>
'''
html = etree.HTML(wb_data)
a_text = html.xpath('//a/text()')
print(a_text)
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。