Jsoup获取url所有链接

简介: Jsoup获取url所有链接

效果

直接上代码

package wang.test;
 
 
  import org.jsoup.Jsoup;
  import org.jsoup.helper.Validate;
  import org.jsoup.nodes.Document;
  import org.jsoup.nodes.Element;
  import org.jsoup.select.Elements;
 
  import java.io.IOException;
 
  /**
   * Example program to list links from a URL.
   */
  public class App2 {
      /**
       * @param args
       * @throws IOException
       */
      public static void main(String[] args) throws IOException {
          //Validate.isTrue(args.length == 1, "usage: supply url to fetch");
          //String url = args[0];
          String url ="http://politics.people.com.cn/n1/2018/1106/c1001-30383657.html";
          print("Fetching %s...", url);
 
          Document doc = Jsoup.connect(url).get();
          Elements links = doc.select("a[href]");
          Elements media = doc.select("[src]");
          Elements imports = doc.select("link[href]");
 
          print("\nMedia: (%d)", media.size());
          for (Element src : media) {
              if (src.tagName().equals("img"))
                  print(" * %s: <%s> %sx%s (%s)",
                          src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"),
                          trim(src.attr("alt"), 20));
              else
                  print(" * %s: <%s>", src.tagName(), src.attr("abs:src"));
          }
 
          print("\nImports: (%d)", imports.size());
          for (Element link : imports) {
              print(" * %s <%s> (%s)", link.tagName(),link.attr("abs:href"), link.attr("rel"));
          }
 
          print("\nLinks: (%d)", links.size());
          for (Element link : links) {
              print(" * a: <%s>  (%s)", link.attr("abs:href"), trim(link.text(), 35));
          }
      }
 
      private static void print(String msg, Object... args) {
          System.out.println(String.format(msg, args));
      }
 
      private static String trim(String s, int width) {
          if (s.length() > width)
              return s.substring(0, width-1) + ".";
          else
              return s;
      }
  }
 
目录
相关文章
|
编解码
解决Hexo博客导航栏链接URL乱码问题
今年的计划之一是搭建一个博客,开始写博客。于是在网上找了一些博客程序发现用Hexo在gitHub上搭建自己的个人博客是比较简单而且易于维护的做法。 在网上找了一些教程后开始搭建,用自己比较中意的hexo-theme-next模板,发现搭建成功后导航栏链接不对,出现了URL乱码的问题。在网上搜索了一把发现有些网友也碰到了类似的问题不过都还没有解决。
145 0
|
JavaScript 前端开发
JS 下载 URL 链接文件(点击按钮、点击a标签、支持代理与非代理下载)
JS 下载 URL 链接文件(点击按钮、点击a标签、支持代理与非代理下载)
578 0
|
2月前
|
数据采集 存储 前端开发
Java爬虫开发:Jsoup库在图片URL提取中的实战应用
Java爬虫开发:Jsoup库在图片URL提取中的实战应用
|
5月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之在调用接口传入的图片URL参数,文件在本地或者非上海地域OSS链接,该怎么办
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
5月前
|
Windows
iis配置http重定向302转发get请求并去掉最后的斜杠/ iis重定向 iis去除url最后的斜杠 iis重定向链接斜杠(已解决)
iis配置http重定向302转发get请求并去掉最后的斜杠/ iis重定向 iis去除url最后的斜杠 iis重定向链接斜杠(已解决)
170 0
|
Web App开发
谷歌直链下载云盘数据集,使用谷歌云盘生成直接下载的url,示例: NeRFStudio-nerfacto默认训练数据集poster下载,nerfstudio 数据集下载链接
谷歌直链下载云盘数据集,使用谷歌云盘生成直接下载的url,示例: NeRFStudio-nerfacto默认训练数据集poster下载,nerfstudio 数据集下载链接
669 0
谷歌直链下载云盘数据集,使用谷歌云盘生成直接下载的url,示例: NeRFStudio-nerfacto默认训练数据集poster下载,nerfstudio 数据集下载链接
|
存储 JavaScript
vue本地存储、获取自定义data-id、获取链接url参数、页面跳转返回、修改页面title
vue本地存储、获取自定义data-id、获取链接url参数、页面跳转返回、修改页面title
|
移动开发 JavaScript
js对H5链接url进行解密实现过程(vue)
js对H5链接url进行解密实现过程(vue)
176 0

热门文章

最新文章

下一篇
无影云桌面