利用Jsoup解析HTML-阿里云开发者社区

利用Jsoup解析HTML

2017-11-22 1076

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

最近又要做html内容抽取，这次打算尝试一下除了用正则表达式以外的其他方式。自然第一个想到的就是HtmlParser，结果找到了以后发现最近的更新还是在06年，汗！这个时候很意外的发现了Jsoup，试用了一下感觉相当清爽，推荐一下。

如果你很有兴趣，直接去官方网站看下说明文档，地址是http://jsoup.org/cookbook/。我这里给个小例子，目的是从下文中抽取出标题，大家可以看一下他的类jQuery语法。

<div class="artHead">
<div>
<span class="artType01" style="margin-right: 5px;"><a href="javascript:void(0)">原创</a></span>
<h3 class="artTitle"><a href="/2431658/483361">JAVA程序内存溢出问题的分析</a>
<a href="http://blog.51cto.com/artcommend" target="_blank"><img src="http://blog.51cto.com/image/skin/34/indextj.gif" width="15" height="15" /></a>
</h3>
</div>

这个内容是从我博客首页上摘取的，所以直接打开这个页面进行抽取，测试代码如下：

是不是特别简单？！如果网页结构化比较好的话，这么抽取真的非常方便，我试了下，效率也很不错。推荐给有相关需求的朋友，网页解析又多了一个选择，:-)

本文转自passover 51CTO博客，原文链接：http://blog.51cto.com/passover/484673，如需转载请自行联系原作者

利用Jsoup解析HTML