50行java代码爬取某站整部小说保存到本地

简介: 从书的起始页出发,先获取整部书的目录根据目录来到对应的章节的详情页,然后开爬。

1.先导入依赖

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.15.4</version></dependency><dependency><groupId>commons-io</groupId><artifactId>commons-io</artifactId><version>2.11.0</version></dependency>

2.获取目录

参数说明一下 root是书目录起始页 next是目录的下一页 dir是收集各章节网址的集合

privatestaticvoidgetDir(Stringroot,Stringnext,List<String>dir) throwsException {
Documentdocument=Jsoup.connect(next).get();
Elementselements=document.select("a[href$=\".html\"]");
List<String>list=elements.eachAttr("href");
list.remove(0);
if (elements.last().text().equals("下一页")){
StringnextPage=list.get(list.size() -1);
nextPage=root+nextPage.substring(nextPage.lastIndexOf("/") +1);
list.remove(list.size() -1);
if (elements.get(elements.size() -2).text().equals("上一页")){
list.remove(list.size() -1);
            }
dir.addAll(list);
getDir(root,nextPage,dir);
return;
       }
if ((elements.last().text().equals("上一页"))){
list.remove(list.size() -1);
       }
dir.addAll(list);
   }

3.根据目录获取章节信息写入文件

参数说明:dir刚才收集的目录 root是书目录起始页 writer用于将书写到文件中

privatestaticvoidgetContent(List<String>dir,Stringroot, Writerwriter) throwsException {
StringBuildertemp=newStringBuilder();
for (Stringurl : dir) {
Documentdocument=Jsoup.connect(root+url).get();
Stringtitle=document.select("h1").text() +"\n";
System.out.println(title);
Elementscontent=document.select("div[id=\"content\"]");
Stringtext=content.toString();
inti=text.indexOf("&");
if (i!=-1){
text=text.substring(i);
           }
text=text.replaceAll("    ","").replaceAll("<br><br>","").replaceAll("</div>","");
temp.append(title+text);
       }
IOUtils.write(temp,writer);
writer.close();
IOUtils.close();
   }

总的代码:

publicclassSoup {
publicstaticvoidmain(String[] args) throwsException {
Stringurl="https://www.bbiquge.net/book/132488/";
StringfileName=Jsoup.connect(url).get().select("h1").text();
fileName=fileName.replace("/","") +".txt";
Filefile=newFile(fileName);
Writerwriter=newFileWriter(file,true);
List<String>dir=newArrayList<>();
getDir(url,url,dir);
getContent(dir,url,writer);
    }
privatestaticvoidgetDir(Stringroot,Stringnext,List<String>dir) throwsException {
Documentdocument=Jsoup.connect(next).get();
Elementselements=document.select("a[href$=\".html\"]");
List<String>list=elements.eachAttr("href");
list.remove(0);
if (elements.last().text().equals("下一页")){
StringnextPage=list.get(list.size() -1);
nextPage=root+nextPage.substring(nextPage.lastIndexOf("/") +1);
list.remove(list.size() -1);
if (elements.get(elements.size() -2).text().equals("上一页")){
list.remove(list.size() -1);
            }
dir.addAll(list);
getDir(root,nextPage,dir);
return;
       }
if ((elements.last().text().equals("上一页"))){
list.remove(list.size() -1);
       }
dir.addAll(list);
   }
privatestaticvoidgetContent(List<String>dir,Stringroot, Writerwriter) throwsException {
StringBuildertemp=newStringBuilder();
for (Stringurl : dir) {
Documentdocument=Jsoup.connect(root+url).get();
Stringtitle=document.select("h1").text() +"\n";
System.out.println(title);
Elementscontent=document.select("div[id=\"content\"]");
Stringtext=content.toString();
inti=text.indexOf("&");
if (i!=-1){
text=text.substring(i);
           }
text=text.replaceAll("    ","").replaceAll("<br><br>","").replaceAll("</div>","");
temp.append(title+text);
       }
IOUtils.write(temp,writer);
writer.close();
IOUtils.close();
   }
}

闲暇写出来的,运行起来效率感人也是,希望各位能说些优化方案 学习一下

目录
相关文章
|
4天前
|
IDE Java 关系型数据库
Java 初学者学习路线(含代码示例)
本教程为Java初学者设计,涵盖基础语法、面向对象、集合、异常处理、文件操作、多线程、JDBC、Servlet及MyBatis等内容,每阶段配核心代码示例,强调动手实践,助你循序渐进掌握Java编程。
53 2
|
7天前
|
安全 Java 应用服务中间件
Spring Boot + Java 21:内存减少 60%,启动速度提高 30% — 零代码
通过调整三个JVM和Spring Boot配置开关,无需重写代码即可显著优化Java应用性能:内存减少60%,启动速度提升30%。适用于所有在JVM上运行API的生产团队,低成本实现高效能。
77 3
|
7天前
|
Java
怎么用Java 代码示例来展示继承的实现
本文通过Java代码示例展示继承机制:Animal为父类,Cat和Dog继承其属性与方法,并实现构造函数调用、方法重写与特有功能扩展,体现代码复用与多态特性。
46 4
|
22天前
|
Java API 开发工具
【Azure Developer】Java代码实现获取Azure 资源的指标数据却报错 "invalid time interval input"
在使用 Java 调用虚拟机 API 获取指标数据时,因本地时区设置非 UTC,导致时间格式解析错误。解决方法是在代码中手动指定时区为 UTC,使用 `ZoneOffset.ofHours(0)` 并结合 `withOffsetSameInstant` 方法进行时区转换,从而避免因时区差异引发的时间格式问题。
117 4
|
8天前
|
Java
java入门代码示例
本文介绍Java入门基础,包含Hello World、变量类型、条件判断、循环及方法定义等核心语法示例,帮助初学者快速掌握Java编程基本结构与逻辑。
141 0
|
2月前
|
人工智能 监控 安全
智慧工地解决方案,java智慧工地程序代码
智慧工地系统融合物联网、AI、大数据等技术,实现对施工现场“人、机、料、法、环”的全面智能监控与管理,提升安全、效率与决策水平。
|
3月前
|
Java 数据安全/隐私保护
快手小红书抖音留痕工具,自动留痕插件工具,java代码开源
这个框架包含三个核心模块:主操作类处理点赞评论、配置管理类和代理管理类。使用时需要配合
|
3月前
|
Java 机器人 API
tiktok群控脚本,养号关注私信点赞脚本插件,java代码分享
这个代码模拟了一个社交机器人的基本行为模式,包括登录、关注、点赞、私信等操作。请注意
|
2月前
|
算法 IDE Java
Java 项目实战之实际代码实现与测试调试全过程详解
本文详细讲解了Java项目的实战开发流程,涵盖项目创建、代码实现(如计算器与汉诺塔问题)、单元测试(使用JUnit)及调试技巧(如断点调试与异常排查),帮助开发者掌握从编码到测试调试的完整技能,提升Java开发实战能力。
267 0