50行java代码爬取某站整部小说保存到本地

简介: 从书的起始页出发,先获取整部书的目录根据目录来到对应的章节的详情页,然后开爬。

1.先导入依赖

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.15.4</version></dependency><dependency><groupId>commons-io</groupId><artifactId>commons-io</artifactId><version>2.11.0</version></dependency>

2.获取目录

参数说明一下 root是书目录起始页 next是目录的下一页 dir是收集各章节网址的集合

privatestaticvoidgetDir(Stringroot,Stringnext,List<String>dir) throwsException {
Documentdocument=Jsoup.connect(next).get();
Elementselements=document.select("a[href$=\".html\"]");
List<String>list=elements.eachAttr("href");
list.remove(0);
if (elements.last().text().equals("下一页")){
StringnextPage=list.get(list.size() -1);
nextPage=root+nextPage.substring(nextPage.lastIndexOf("/") +1);
list.remove(list.size() -1);
if (elements.get(elements.size() -2).text().equals("上一页")){
list.remove(list.size() -1);
            }
dir.addAll(list);
getDir(root,nextPage,dir);
return;
       }
if ((elements.last().text().equals("上一页"))){
list.remove(list.size() -1);
       }
dir.addAll(list);
   }

3.根据目录获取章节信息写入文件

参数说明:dir刚才收集的目录 root是书目录起始页 writer用于将书写到文件中

privatestaticvoidgetContent(List<String>dir,Stringroot, Writerwriter) throwsException {
StringBuildertemp=newStringBuilder();
for (Stringurl : dir) {
Documentdocument=Jsoup.connect(root+url).get();
Stringtitle=document.select("h1").text() +"\n";
System.out.println(title);
Elementscontent=document.select("div[id=\"content\"]");
Stringtext=content.toString();
inti=text.indexOf("&");
if (i!=-1){
text=text.substring(i);
           }
text=text.replaceAll("    ","").replaceAll("<br><br>","").replaceAll("</div>","");
temp.append(title+text);
       }
IOUtils.write(temp,writer);
writer.close();
IOUtils.close();
   }

总的代码:

publicclassSoup {
publicstaticvoidmain(String[] args) throwsException {
Stringurl="https://www.bbiquge.net/book/132488/";
StringfileName=Jsoup.connect(url).get().select("h1").text();
fileName=fileName.replace("/","") +".txt";
Filefile=newFile(fileName);
Writerwriter=newFileWriter(file,true);
List<String>dir=newArrayList<>();
getDir(url,url,dir);
getContent(dir,url,writer);
    }
privatestaticvoidgetDir(Stringroot,Stringnext,List<String>dir) throwsException {
Documentdocument=Jsoup.connect(next).get();
Elementselements=document.select("a[href$=\".html\"]");
List<String>list=elements.eachAttr("href");
list.remove(0);
if (elements.last().text().equals("下一页")){
StringnextPage=list.get(list.size() -1);
nextPage=root+nextPage.substring(nextPage.lastIndexOf("/") +1);
list.remove(list.size() -1);
if (elements.get(elements.size() -2).text().equals("上一页")){
list.remove(list.size() -1);
            }
dir.addAll(list);
getDir(root,nextPage,dir);
return;
       }
if ((elements.last().text().equals("上一页"))){
list.remove(list.size() -1);
       }
dir.addAll(list);
   }
privatestaticvoidgetContent(List<String>dir,Stringroot, Writerwriter) throwsException {
StringBuildertemp=newStringBuilder();
for (Stringurl : dir) {
Documentdocument=Jsoup.connect(root+url).get();
Stringtitle=document.select("h1").text() +"\n";
System.out.println(title);
Elementscontent=document.select("div[id=\"content\"]");
Stringtext=content.toString();
inti=text.indexOf("&");
if (i!=-1){
text=text.substring(i);
           }
text=text.replaceAll("    ","").replaceAll("<br><br>","").replaceAll("</div>","");
temp.append(title+text);
       }
IOUtils.write(temp,writer);
writer.close();
IOUtils.close();
   }
}

闲暇写出来的,运行起来效率感人也是,希望各位能说些优化方案 学习一下

目录
相关文章
|
2天前
|
消息中间件 Java 应用服务中间件
JVM实战—1.Java代码的运行原理
本文介绍了Java代码的运行机制、JVM类加载机制、JVM内存区域及其作用、垃圾回收机制,并汇总了一些常见问题。
JVM实战—1.Java代码的运行原理
|
10天前
|
传感器 监控 Java
Java代码结构解析:类、方法、主函数(1分钟解剖室)
### Java代码结构简介 掌握Java代码结构如同拥有程序世界的建筑蓝图,类、方法和主函数构成“黄金三角”。类是独立的容器,承载成员变量和方法;方法实现特定功能,参数控制输入环境;主函数是程序入口。常见错误包括类名与文件名不匹配、忘记static修饰符和花括号未闭合。通过实战案例学习电商系统、游戏角色控制和物联网设备监控,理解类的作用、方法类型和主函数任务,避免典型错误,逐步提升编程能力。 **脑图速记法**:类如太空站,方法即舱段;main是发射台,static不能换;文件名对仗,括号要成双;参数是坐标,void不返航。
34 5
|
1月前
|
JavaScript NoSQL Java
接替此文【下篇-服务端+后台管理】优雅草蜻蜓z系统JAVA版暗影版为例-【蜻蜓z系列通用】-2025年全新项目整合搭建方式-这是独立吃透代码以后首次改变-独立PC版本vue版搭建教程-优雅草卓伊凡
接替此文【下篇-服务端+后台管理】优雅草蜻蜓z系统JAVA版暗影版为例-【蜻蜓z系列通用】-2025年全新项目整合搭建方式-这是独立吃透代码以后首次改变-独立PC版本vue版搭建教程-优雅草卓伊凡
186 96
接替此文【下篇-服务端+后台管理】优雅草蜻蜓z系统JAVA版暗影版为例-【蜻蜓z系列通用】-2025年全新项目整合搭建方式-这是独立吃透代码以后首次改变-独立PC版本vue版搭建教程-优雅草卓伊凡
|
2月前
|
SQL Java 数据库连接
如何在 Java 代码中使用 JSqlParser 解析复杂的 SQL 语句?
大家好,我是 V 哥。JSqlParser 是一个用于解析 SQL 语句的 Java 库,可将 SQL 解析为 Java 对象树,支持多种 SQL 类型(如 `SELECT`、`INSERT` 等)。它适用于 SQL 分析、修改、生成和验证等场景。通过 Maven 或 Gradle 安装后,可以方便地在 Java 代码中使用。
455 11
|
2月前
|
JSON Java 数据挖掘
利用 Java 代码获取淘宝关键字 API 接口
在数字化商业时代,精准把握市场动态与消费者需求是企业成功的关键。淘宝作为中国最大的电商平台之一,其海量数据中蕴含丰富的商业洞察。本文介绍如何通过Java代码高效、合规地获取淘宝关键字API接口数据,帮助商家优化产品布局、制定营销策略。主要内容包括: 1. **淘宝关键字API的价值**:洞察用户需求、优化产品标题与详情、制定营销策略。 2. **获取API接口的步骤**:注册账号、申请权限、搭建Java开发环境、编写调用代码、解析响应数据。 3. **注意事项**:遵守法律法规与平台规则,处理API调用限制。 通过这些步骤,商家可以在激烈的市场竞争中脱颖而出。
|
3月前
|
安全 Java 编译器
深入理解Java中synchronized三种使用方式:助您写出线程安全的代码
`synchronized` 是 Java 中的关键字,用于实现线程同步,确保多个线程互斥访问共享资源。它通过内置的监视器锁机制,防止多个线程同时执行被 `synchronized` 修饰的方法或代码块。`synchronized` 可以修饰非静态方法、静态方法和代码块,分别锁定实例对象、类对象或指定的对象。其底层原理基于 JVM 的指令和对象的监视器,JDK 1.6 后引入了偏向锁、轻量级锁等优化措施,提高了性能。
100 3
|
3月前
|
前端开发 Java 测试技术
java日常开发中如何写出优雅的好维护的代码
代码可读性太差,实际是给团队后续开发中埋坑,优化在平时,没有那个团队会说我专门给你一个月来优化之前的代码,所以在日常开发中就要多注意可读性问题,不要写出几天之后自己都看不懂的代码。
90 2
|
3月前
|
安全 Java API
Java中的Lambda表达式:简化代码的现代魔法
在Java 8的发布中,Lambda表达式的引入无疑是一场编程范式的革命。它不仅让代码变得更加简洁,还使得函数式编程在Java中成为可能。本文将深入探讨Lambda表达式如何改变我们编写和维护Java代码的方式,以及它是如何提升我们编码效率的。
|
3月前
|
Java 编译器 数据库
Java 中的注解(Annotations):代码中的 “元数据” 魔法
Java注解是代码中的“元数据”标签,不直接参与业务逻辑,但在编译或运行时提供重要信息。本文介绍了注解的基础语法、内置注解的应用场景,以及如何自定义注解和结合AOP技术实现方法执行日志记录,展示了注解在提升代码质量、简化开发流程和增强程序功能方面的强大作用。
176 5
|
3月前
|
存储 算法 Java
Java 内存管理与优化:掌控堆与栈,雕琢高效代码
Java内存管理与优化是提升程序性能的关键。掌握堆与栈的运作机制,学习如何有效管理内存资源,雕琢出更加高效的代码,是每个Java开发者必备的技能。
109 5