短小精悍的JavaHtml解析器Jsoup

简介:

  短小精悍的Jsoup组件让Java解析HTML更加人性化,通俗易懂的Css选择风格的结点筛选,原生的DOM操作,让jQuery用户倍感亲切。

  Jsoup:http://jsoup.org/

  选择Jsoup绝对是一个正确的明智的选择,一个小小的Jar包,几十个类解决了Java解析HTML,生成HTML,各种转换,修改,结点,属性筛选,过滤,抓取等功能,更让Web开发者舒服的是Safe,简洁的几行代码解决了XSS问题。

 通过下面几个例子感受Jsoup的简洁,强大之处。

 1.获取指定URL的base路径

 

1
2
3
4
5
6
7
8
9
10
11
/**
      * 获取网页的Base地址
      *
      * @throws IOException
      */
     @Ignore
     @Test
     public  void  test1()  throws  IOException {
         Document doc = Jsoup.connect( "http://www.fx368.com/index/" ).get();
         System.out.println(doc.baseUri());
     }

  注:结果输出:http://www.fx368.com/index/

      通过指定URL获取链接,通过链式操作得到HTML文档,然后就是Jsoup为我们提供的一系列方法来进行DOM的节点操作。

 2.获取指定URL网页上img标签的src值

 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
/**
      * 抓取网页上的img标签的src
      *
      * @throws IOException
      */
     @Ignore
     @Test
     public  void  test2()  throws  IOException {
         Document doc = Jsoup.connect( "http://www.fx368.com/index/" ).get();
         Elements ele = doc.getElementsByTag( "img" );
         for  (Element e : ele) {
             System.out.println(e.attr( "src" ));
         }
     }

    注:Element.attr("src")获取的结果是DOM中实际的值比如:"/img/header.png"

        Element.absUrl("src")获取的结果是src的正真的值比如:"http://www.fx368.com/img/header.png".

 2.通过Css选择器方式筛选节点

 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
/**
      * 抓取51cto博客博文列表
      *
      * @throws IOException
      */
     @Ignore
     @Test
     public  void  test3()  throws  IOException {
         Document doc = Jsoup.connect(
                 "http://aiilive.blog.51cto.com/all/1925756" ).get();
         Elements elements = doc.select( "div.modCon" ).select( "ul" ).select( "li" )
                 .select( "span.artList_tit" ).select( "a" );
         ListIterator<Element> iter = elements.listIterator();
         System.out.println(doc.baseUri());
         while  (iter.hasNext()) {
             System.out.println(iter.next().absUrl( "href" ));
         }
     }

    看到上面的doc.xxx后跟的一系列select方法,其中有按标签,标签+样式筛选来获取需要的结点元素,然后获取元素的属性。

    这里的select("xxx")方法的参数是一个字符串,字符串的规则和jQuery操作DOM的选择器规则一致。

    上面代码实现了指定用户的博文地址列表链接信息,关于如何书写选择器的条件需要分析实际情况下的DOM结构。

 4.获取指定的一篇博文

   

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
/**
      * 获取一篇博文的正文内容
      *
      * @throws IOException
      */
     @Ignore
     @Test
     public  void  test6()  throws  IOException {
         Document doc = Jsoup.parse( new  URL(
                 "http://aiilive.blog.51cto.com/1925756/1024304" ),  10000 );
         Elements head = doc.select( "div.showHead" );
         String title = head.select( "div.showTitle" ).text();
         System.out.println(title);
         Elements tag = doc.select( "div.showTags" );
         Elements copyright = doc.select( "div.CopyrightStatement lh22" );
         Elements content = doc.select( "div.showContent" );
         StringBuilder sb =  new  StringBuilder();
         sb.append(head.html());
         sb.append(tag.html());
         sb.append(copyright.html());
         sb.append(content.html());
         Document blog = Jsoup.parseBodyFragment(sb.toString());
         System.out.println(blog.html());
     }

    注:使用Element.html()和Element.text()是不同的,前者是获取整个元素,后者是获取元素的内容。

    例如:

    <a href="xx">http://aiilive.blog.51cto.com</a>

    doc.select("a").html()结果是:<a href="xx">http://aiilive.blog.51cto.com</a>

    doc.select("a").text()结果是:http://aiilive.blog.51cto.com

    jsoup提供了比较完备的解析HTML方法,本身源代码也很少,可以很快熟悉并掌握,使用Jsoup抓取网页中的一部分生成新的HTML文档,修改文档的元素信息,追加,过滤HTML标签,类似jQuery对DOM操作的功能。

    Jsoup为解决一些HTML过滤等问题提供了很便利且可以自定义的功能。  

   j_0001.gif 就写这么多了,做例子为了熟悉用法,要想熟练多用,多尝试,多发现,越新鲜,发挥的功效越强大。



本文转自 secondriver 51CTO博客,原文链接:http://blog.51cto.com/aiilive/1352045,如需转载请自行联系原作者

相关文章
|
5天前
|
移动开发 前端开发 JavaScript
:掌握移动端开发:HTML5 与 CSS3 的高效实践
:掌握移动端开发:HTML5 与 CSS3 的高效实践
20 1
|
10天前
|
缓存 移动开发 前端开发
【专栏:HTML与CSS前端技术趋势篇】HTML与CSS在PWA(Progressive Web Apps)中的应用
【4月更文挑战第30天】PWA(Progressive Web Apps)结合现代Web技术,提供接近原生应用的体验。HTML在PWA中构建页面结构和内容,响应式设计、语义化标签、Manifest文件和离线页面的创建都离不开HTML。CSS则用于定制主题样式、实现动画效果、响应式布局和管理字体图标。两者协同工作,保证PWA在不同设备和网络环境下的快速、可靠和一致性体验。随着前端技术进步,HTML与CSS在PWA中的应用将更广泛。
|
10天前
|
前端开发 JavaScript 开发者
【专栏:HTML与CSS前端技术趋势篇】前端框架(React/Vue/Angular)与HTML/CSS的结合使用
【4月更文挑战第30天】前端框架React、Vue和Angular助力UI开发,通过组件化、状态管理和虚拟DOM提升效率。这些框架与HTML/CSS结合,使用模板语法、样式管理及组件化思想。未来趋势包括框架简化、Web组件标准采用和CSS在框架中角色的演变。开发者需紧跟技术发展,掌握新工具,提升开发效能。
|
10天前
|
前端开发 JavaScript UED
【专栏:HTML 与 CSS 前端技术趋势篇】Web 性能优化:CSS 与 HTML 的未来趋势
【4月更文挑战第30天】本文探讨了CSS和HTML在Web性能优化中的关键作用,包括样式表压缩、选择器优化、DOM操作减少等策略。随着未来趋势发展,CSS模块系统、自定义属性和响应式设计将得到强化,HTML新特性也将支持复杂组件构建。同时,应对浏览器兼容性、代码复杂度和性能功能平衡的挑战是优化过程中的重要任务。通过案例分析和持续创新,我们可以提升Web应用性能,创造更好的用户体验。
|
10天前
|
移动开发 前端开发 UED
【专栏:HTML与CSS前端技术趋势篇】渐进式增强与优雅降级在前端开发中的实践
【4月更文挑战第30天】前端开发中的渐进式增强和优雅降级是确保跨浏览器、跨设备良好用户体验的关键策略。渐进式增强是从基础功能开始,逐步增加高级特性,保证所有用户能访问基本内容;而优雅降级则是从完整版本出发,向下兼容,确保低版本浏览器仍能使用基本功能。实践中,遵循HTML5/CSS3规范,使用流式布局和响应式设计,检测浏览器特性,并提供备选方案,都是实现这两种策略的有效方法。选择合适策略优化网站,提升用户体验。
|
10天前
|
前端开发 开发者 UED
【专栏:HTML与CSS前端技术趋势篇】网页设计中的CSS Grid与Flexbox之争
【4月更文挑战第30天】本文对比了CSS Grid和Flexbox两种布局工具。Flexbox擅长一维布局,简单易用,适合导航栏和列表;CSS Grid则适用于二维布局,能创建复杂结构,适用于整个页面布局。两者各有优势,在响应式设计中都占有一席之地。随着Web标准发展,它们的结合使用将成为趋势,开发者需掌握两者以应对多样化需求。
|
10天前
|
前端开发 JavaScript 搜索推荐
【专栏:HTML 与 CSS 前端技术趋势篇】HTML 与 CSS 在 Web 组件化中的应用
【4月更文挑战第30天】本文探讨了HTML和CSS在Web组件化中的应用及其在前端趋势中的重要性。组件化提高了代码复用、维护性和扩展性。HTML提供组件结构,语义化标签增进可读性,支持用户交互;CSS实现样式封装、布局控制和主题定制。案例展示了导航栏、卡片和模态框组件的创建。响应式设计、动态样式、CSS预处理器和Web组件标准等趋势影响HTML/CSS在组件化中的应用。面对兼容性、代码复杂度和性能优化挑战,需采取相应策略。未来,持续发掘HTML和CSS潜力,推动组件化开发创新,提升Web应用体验。
|
10天前
|
前端开发 UED
【专栏:HTML与CSS实战项目篇】创建一个具有复杂布局的电商详情页
【4月更文挑战第30天】构建复杂布局的电商详情页涉及页面结构规划、样式设计和交互效果实现。首先规划顶部导航栏、商品图片展示区、商品信息区、用户评价区和相关商品推荐区。在样式设计上,注重色彩搭配、字体选择、布局与间距及图片处理。交互效果包括图片放大、添加到购物车按钮、滚动监听和评论互动,以提升用户体验。实际开发中需考虑跨设备兼容性和用户体验优化。
|
10天前
|
移动开发 前端开发 JavaScript
【专栏:HTML与CSS实战项目篇】使用HTML5与CSS3制作一个动态表单验证页面
【4月更文挑战第30天】本文介绍了使用HTML5和CSS3创建动态表单验证页面的方法。首先,简述HTML5用于构建网页内容,CSS3用于描述样式。接着,分四步展示实现过程:1) 设计包含输入框和提示信息的表单结构;2) 使用CSS3创建样式,增强视觉效果;3) 使用JavaScript监听输入事件,动态验证表单并显示错误信息;4) 测试和调试确保跨平台兼容性。通过学习,开发者能掌握创建带验证功能的表单,提升用户体验。