文档备案控制台

开发者社区开发与运维文章正文

java获取文件编码，jsoup获取html纯文本

2024-02-20 197

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： java获取文件编码，jsoup获取html纯文本

maven引入获取编码的jar

<dependency>
            <groupId>com.ibm.icu</groupId>
            <artifactId>icu4j</artifactId>
            <version>67.1</version>
        </dependency>

获取文件编码

package com.lovnx.note.util;
import com.ibm.icu.text.CharsetDetector;
import com.ibm.icu.text.CharsetMatch;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
import java.io.IOException;
import java.net.URL;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
/**
 * @author https://github.com/TianPuJun @256g的胃
 * @ClassName HtmlParse
 * @Description
 * @Date 15:32 2020/7/9
 **/
public class HtmlParse {
    public static String getEncode(String filePath) throws IOException {
        Path path = Paths.get(filePath);
        byte[] data = Files.readAllBytes(path);
        CharsetDetector detector = new CharsetDetector();
        detector.setText(data);
        CharsetMatch match = detector.detect();
        String encoding = match.getName();
        System.out.println("The Content in " + match.getName());
        return encoding;
    }
    public static void main(String[] args) throws Exception {
        System.out.println(HtmlParse.getEncode("/Users/cxt/Downloads/test.html"));
    }
}

上面获取文件编码是为了在服务器根据文件流下载文件时防止文件乱码直接指定编码格式，然后再根据下载下来的文件识别纯文本

Document doc = Jsoup.parse("读取的文本字符串，此处应该是带html标签的");
String text = doc.text();

jsoup也支持直接指定文件的形式去获取纯文本

参考 https://jsoup.org/

文章标签：

Java

Maven

关键词：

Java文件

Java文本

HTML文本

Java编码

文件HTML

醉鱼Java

目录

相关文章

JJLIN距离

|

9月前

|

人工智能缓存自然语言处理

Java与多模态AI：构建支持文本、图像和音频的智能应用

随着大模型从单一文本处理向多模态能力演进，现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案，涵盖从文件预处理、多模态推理到结果融合的全流程，为Java开发者打开通往下一代多模态AI应用的大门。

JJLIN距离

644 41 41

凉凉心.

|

9月前

|

Java Unix Go

【Java】（8）Stream流、文件File相关操作，IO的含义与运用

Java 为 I/O 提供了强大的而灵活的支持，使其更广泛地应用到文件传输和网络编程中。！但本节讲述最基本的和流与 I/O 相关的功能。我们将通过一个个例子来学习这些功能。

凉凉心.

341 1 1

刘大猫.

|

Java

java小工具util系列5：java文件相关操作工具，包括读取服务器路径下文件，删除文件及子文件，删除文件夹等方法

java小工具util系列5：java文件相关操作工具，包括读取服务器路径下文件，删除文件及子文件，删除文件夹等方法

刘大猫.

345 9 9

喜欢猪猪

|

监控 Java 应用服务中间件

高级java面试---spring.factories文件的解析源码API机制

【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性，极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理，并通过Java代码手写模拟Spring Boot的启动过程，特别是spring.factories文件的解析源码API机制。

喜欢猪猪

569 2 2

yuanzhengme

|

Java API Apache

Java编程如何读取Word文档里的Excel表格，并在保存文本内容时保留表格的样式？

【10月更文挑战第29天】Java编程如何读取Word文档里的Excel表格，并在保存文本内容时保留表格的样式？

yuanzhengme

1259 5 5

蓝易云

|

监控 Java API

Java语言按文件创建日期排序及获取最新文件的技术

这段代码实现了文件创建时间的读取、文件列表的获取与排序以及获取最新文件的需求。它具备良好的效率和可读性，对于绝大多数处理文件属性相关的需求来说足够健壮。在实际应用中，根据具体情况，可能还需要进一步处理如访问权限不足、文件系统不支持某些属性等边界情况。

蓝易云

501 14 14

蚝油菜花

|

人工智能自然语言处理 Java

FastExcel：开源的 JAVA 解析 Excel 工具，集成 AI 通过自然语言处理 Excel 文件，完全兼容 EasyExcel

FastExcel 是一款基于 Java 的高性能 Excel 处理工具，专注于优化大规模数据处理，提供简洁易用的 API 和流式操作能力，支持从 EasyExcel 无缝迁移。

蚝油菜花

3992 65 65

FastExcel：开源的 JAVA 解析 Excel 工具，集成 AI 通过自然语言处理 Excel 文件，完全兼容 EasyExcel

蓝易云

|

存储 Java 数据安全/隐私保护

Java技术栈揭秘：Base64加密和解密文件的实战案例

以上就是我们今天关于Java实现Base64编码和解码的实战案例介绍。希望能对你有所帮助。还有更多知识等待你去探索和学习，让我们一同努力，继续前行！

蓝易云

714 5 5

大数据文摘

|

存储 Java 编译器

深入理解Java虚拟机--类文件结构

本内容介绍了Java虚拟机与Class文件的关系及其内部结构。Class文件是一种与语言无关的二进制格式，包含JVM指令集、符号表等信息。无论使用何种语言，只要能生成符合规范的Class文件，即可在JVM上运行。文章详细解析了Class文件的组成，包括魔数、版本号、常量池、访问标志、类索引、字段表、方法表和属性表等，并说明其在Java编译与运行过程中的作用。

大数据文摘

346 0 0

大数据文摘

|

存储人工智能 Java

java之通过Http下载文件

本文介绍了使用Java实现通过文件链接下载文件到本地的方法，主要涉及URL、HttpURLConnection及输入输出流的操作。

大数据文摘

797 0 0

热门文章

最新文章

java系列知识之~SimpleDateFormat日期格式化

Java 8 新特性：Java 类库的新特性之 Optional类

Java NIO（六）Channel 之间的转换(传输)

Java网络编程从入门到精通（31）：非阻塞I/O简介

Java线程：线程的交互

Java开发Maven环境配置和介绍

java web项目里ehcache.xml的参数说明

RISC-V 中开发 Java 是一种什么体验？让 Dragonwell JDK 来回答

java工厂模式

Java - 文件(IO流)

基于 Cloudflare Workers 构建高性能知识库镜像服务：反向代理与 HTML 动态重写实践

C#编程实践：解析HTML文档并执行元素匹配

响应式企业网站源码JavaL/PHP带后台管理：Bootstrap HTML5模板

精选HTML、JavaScript、ASP代码片段集锦

HTML表单验证：确认input元素输入为具有特定整数和小数位数的数值。

阻止HTML input元素（type='number'）中输入字母'e'的方法。

仿真银行app下载安装，银行卡虚拟余额制作app，用html+css+js实现逼真娱乐工具

Vue 项目中动态添加 HTML 元素的方法与实践

Vue 动态添加 HTML 元素组件封装使用方法及长尾关键词优化指南

Vue 动态添加 HTML 元素组件封装使用方法及长尾关键词优化指南

相关课程

更多

Java面试疑难点解析 - 面试技巧及语言基础

Java面试疑难点解析 - Java Web开发

Java面试疑难点解析 - 系统架构及项目设计

Java编程入门

Java面向对象编程

Java高级编程

相关电子书

更多

Spring Cloud Alibaba - 重新定义 Java Cloud-Native

The Reactive Cloud Native Arch

JAVA开发手册1.5.0

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！