50行java代码爬取某站整部小说保存到本地

简介: 从书的起始页出发,先获取整部书的目录根据目录来到对应的章节的详情页,然后开爬。

1.先导入依赖

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.15.4</version></dependency><dependency><groupId>commons-io</groupId><artifactId>commons-io</artifactId><version>2.11.0</version></dependency>

2.获取目录

参数说明一下 root是书目录起始页 next是目录的下一页 dir是收集各章节网址的集合

privatestaticvoidgetDir(Stringroot,Stringnext,List<String>dir) throwsException {
Documentdocument=Jsoup.connect(next).get();
Elementselements=document.select("a[href$=\".html\"]");
List<String>list=elements.eachAttr("href");
list.remove(0);
if (elements.last().text().equals("下一页")){
StringnextPage=list.get(list.size() -1);
nextPage=root+nextPage.substring(nextPage.lastIndexOf("/") +1);
list.remove(list.size() -1);
if (elements.get(elements.size() -2).text().equals("上一页")){
list.remove(list.size() -1);
            }
dir.addAll(list);
getDir(root,nextPage,dir);
return;
       }
if ((elements.last().text().equals("上一页"))){
list.remove(list.size() -1);
       }
dir.addAll(list);
   }

3.根据目录获取章节信息写入文件

参数说明:dir刚才收集的目录 root是书目录起始页 writer用于将书写到文件中

privatestaticvoidgetContent(List<String>dir,Stringroot, Writerwriter) throwsException {
StringBuildertemp=newStringBuilder();
for (Stringurl : dir) {
Documentdocument=Jsoup.connect(root+url).get();
Stringtitle=document.select("h1").text() +"\n";
System.out.println(title);
Elementscontent=document.select("div[id=\"content\"]");
Stringtext=content.toString();
inti=text.indexOf("&");
if (i!=-1){
text=text.substring(i);
           }
text=text.replaceAll("    ","").replaceAll("<br><br>","").replaceAll("</div>","");
temp.append(title+text);
       }
IOUtils.write(temp,writer);
writer.close();
IOUtils.close();
   }

总的代码:

publicclassSoup {
publicstaticvoidmain(String[] args) throwsException {
Stringurl="https://www.bbiquge.net/book/132488/";
StringfileName=Jsoup.connect(url).get().select("h1").text();
fileName=fileName.replace("/","") +".txt";
Filefile=newFile(fileName);
Writerwriter=newFileWriter(file,true);
List<String>dir=newArrayList<>();
getDir(url,url,dir);
getContent(dir,url,writer);
    }
privatestaticvoidgetDir(Stringroot,Stringnext,List<String>dir) throwsException {
Documentdocument=Jsoup.connect(next).get();
Elementselements=document.select("a[href$=\".html\"]");
List<String>list=elements.eachAttr("href");
list.remove(0);
if (elements.last().text().equals("下一页")){
StringnextPage=list.get(list.size() -1);
nextPage=root+nextPage.substring(nextPage.lastIndexOf("/") +1);
list.remove(list.size() -1);
if (elements.get(elements.size() -2).text().equals("上一页")){
list.remove(list.size() -1);
            }
dir.addAll(list);
getDir(root,nextPage,dir);
return;
       }
if ((elements.last().text().equals("上一页"))){
list.remove(list.size() -1);
       }
dir.addAll(list);
   }
privatestaticvoidgetContent(List<String>dir,Stringroot, Writerwriter) throwsException {
StringBuildertemp=newStringBuilder();
for (Stringurl : dir) {
Documentdocument=Jsoup.connect(root+url).get();
Stringtitle=document.select("h1").text() +"\n";
System.out.println(title);
Elementscontent=document.select("div[id=\"content\"]");
Stringtext=content.toString();
inti=text.indexOf("&");
if (i!=-1){
text=text.substring(i);
           }
text=text.replaceAll("    ","").replaceAll("<br><br>","").replaceAll("</div>","");
temp.append(title+text);
       }
IOUtils.write(temp,writer);
writer.close();
IOUtils.close();
   }
}

闲暇写出来的,运行起来效率感人也是,希望各位能说些优化方案 学习一下

目录
相关文章
|
4月前
|
Java
在 Java 中捕获和处理自定义异常的代码示例
本文提供了一个 Java 代码示例,展示了如何捕获和处理自定义异常。通过创建自定义异常类并使用 try-catch 语句,可以更灵活地处理程序中的错误情况。
122 1
|
20天前
|
JavaScript NoSQL Java
接替此文【下篇-服务端+后台管理】优雅草蜻蜓z系统JAVA版暗影版为例-【蜻蜓z系列通用】-2025年全新项目整合搭建方式-这是独立吃透代码以后首次改变-独立PC版本vue版搭建教程-优雅草卓伊凡
接替此文【下篇-服务端+后台管理】优雅草蜻蜓z系统JAVA版暗影版为例-【蜻蜓z系列通用】-2025年全新项目整合搭建方式-这是独立吃透代码以后首次改变-独立PC版本vue版搭建教程-优雅草卓伊凡
169 96
接替此文【下篇-服务端+后台管理】优雅草蜻蜓z系统JAVA版暗影版为例-【蜻蜓z系列通用】-2025年全新项目整合搭建方式-这是独立吃透代码以后首次改变-独立PC版本vue版搭建教程-优雅草卓伊凡
|
2月前
|
SQL Java 数据库连接
如何在 Java 代码中使用 JSqlParser 解析复杂的 SQL 语句?
大家好,我是 V 哥。JSqlParser 是一个用于解析 SQL 语句的 Java 库,可将 SQL 解析为 Java 对象树,支持多种 SQL 类型(如 `SELECT`、`INSERT` 等)。它适用于 SQL 分析、修改、生成和验证等场景。通过 Maven 或 Gradle 安装后,可以方便地在 Java 代码中使用。
356 11
|
2月前
|
JSON Java 数据挖掘
利用 Java 代码获取淘宝关键字 API 接口
在数字化商业时代,精准把握市场动态与消费者需求是企业成功的关键。淘宝作为中国最大的电商平台之一,其海量数据中蕴含丰富的商业洞察。本文介绍如何通过Java代码高效、合规地获取淘宝关键字API接口数据,帮助商家优化产品布局、制定营销策略。主要内容包括: 1. **淘宝关键字API的价值**:洞察用户需求、优化产品标题与详情、制定营销策略。 2. **获取API接口的步骤**:注册账号、申请权限、搭建Java开发环境、编写调用代码、解析响应数据。 3. **注意事项**:遵守法律法规与平台规则,处理API调用限制。 通过这些步骤,商家可以在激烈的市场竞争中脱颖而出。
|
4月前
|
Java
在Java中实现接口的具体代码示例
可以根据具体的需求,创建更多的类来实现这个接口,以满足不同形状的计算需求。希望这个示例对你理解在 Java 中如何实现接口有所帮助。
122 38
|
3月前
|
安全 Java 编译器
深入理解Java中synchronized三种使用方式:助您写出线程安全的代码
`synchronized` 是 Java 中的关键字,用于实现线程同步,确保多个线程互斥访问共享资源。它通过内置的监视器锁机制,防止多个线程同时执行被 `synchronized` 修饰的方法或代码块。`synchronized` 可以修饰非静态方法、静态方法和代码块,分别锁定实例对象、类对象或指定的对象。其底层原理基于 JVM 的指令和对象的监视器,JDK 1.6 后引入了偏向锁、轻量级锁等优化措施,提高了性能。
83 3
|
4月前
|
Java
java小工具util系列4:基础工具代码(Msg、PageResult、Response、常量、枚举)
java小工具util系列4:基础工具代码(Msg、PageResult、Response、常量、枚举)
79 24
|
3月前
|
前端开发 Java 测试技术
java日常开发中如何写出优雅的好维护的代码
代码可读性太差,实际是给团队后续开发中埋坑,优化在平时,没有那个团队会说我专门给你一个月来优化之前的代码,所以在日常开发中就要多注意可读性问题,不要写出几天之后自己都看不懂的代码。
80 2
|
3月前
|
Java 编译器 数据库
Java 中的注解(Annotations):代码中的 “元数据” 魔法
Java注解是代码中的“元数据”标签,不直接参与业务逻辑,但在编译或运行时提供重要信息。本文介绍了注解的基础语法、内置注解的应用场景,以及如何自定义注解和结合AOP技术实现方法执行日志记录,展示了注解在提升代码质量、简化开发流程和增强程序功能方面的强大作用。
163 5
|
3月前
|
存储 算法 Java
Java 内存管理与优化:掌控堆与栈,雕琢高效代码
Java内存管理与优化是提升程序性能的关键。掌握堆与栈的运作机制,学习如何有效管理内存资源,雕琢出更加高效的代码,是每个Java开发者必备的技能。
105 5

热门文章

最新文章