@黄亿华 你好,想跟你请教个问题:
page.putField("intro",page.getHtml().xpath("//div[@class='left_648 top_border']/div[...
要得到图中的文字, 上面这个表达式 是要怎么写 ?
page.putField("intro", page.getHtml().xpath("//div[@class='left_648']/div[@class='pad_20']/").all()); page.putField("intro22", page.getHtml().xpath("//div[@class='pad_20']/").all()); // Document doc = Jsoup.parse(page.getHtml().toString()); // Elements e = doc.getElementsByClass("pad_20"); // System.out.println("============>"+ e.html());
用 jsoup 可以, 但是, webmagic还没走通。
可否给个URL?
另:webmagic也封装了jsoup,用$选择即可。
page.putField("intro",page.getHtml().xpath("//div[@class='left_648\\ top_border']/div[@class='pad_20\\ line_22']/").all());
这样, 报异常 :
org.htmlcleaner.XPatherException: Error in evaluating XPath expression!
######空格是不需要转义的,去掉\\再试试?######貌似不支持带空格的 class ?######你先找一个专门写正则的软件。把你要匹配的数据拷贝过去。选取你需要的正则风格。然后去尝试就行。正则表达式不同的语言标准是不一样的。######
"//div[@class='left_648 top_border']/div[@class='pad_20 line_22']/"
这样也不行、 哪不对 ?
<div class="left_648 top_border" style="min-height:360px;height:auto"> <h2><span><a class="orange_12" href="index.html">返回首页</a></span>学校简介</h2> <div class="pad_20 line_22"> 中央工艺美院附中(北京市国际美术学校).........
page.putField("intro", page.getHtml().xpath("//div[@class='left_648']/div[@class='pad_20']/").all()); page.putField("intro22", page.getHtml().xpath("//div[@class='pad_20']/").all()); // Document doc = Jsoup.parse(page.getHtml().toString()); // Elements e = doc.getElementsByClass("pad_20"); // System.out.println("============>"+ e.html());
用 jsoup 可以, 但是, webmagic还没走通。
page.putField("intro", page.getHtml().xpath("//div[@class='left_648']/div[@class='pad_20']/").all()); page.putField("intro22", page.getHtml().xpath("//div[@class='pad_20']/").all()); // Document doc = Jsoup.parse(page.getHtml().toString()); // Elements e = doc.getElementsByClass("pad_20"); // System.out.println("============>"+ e.html());
用 jsoup 可以, 但是, webmagic还没走通。
可否给个URL?
另:webmagic也封装了jsoup,用$选择即可。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。