如何在 Java 中从文件中找到频率最高的单词

简介: 【8月更文挑战第22天】

从文件中找到频率最高的单词在文本分析、信息检索和其他自然语言处理任务中非常有用。以下是如何在 Java 中实现此功能:

1. 读取文件

首先,你需要从文件中读取文本。你可以使用 Files.readAllLines() 方法来读取文件中的所有行,并将其存储在列表中:

List<String> lines = Files.readAllLines(Paths.get("file.txt"));

2. 分词和词频统计

接下来,你需要将文本分词并统计每个单词的频率。以下是如何使用正则表达式和 HashMap 来实现此功能:

Map<String, Integer> wordFreqMap = new HashMap<>();
for (String line : lines) {
   
    String[] words = line.split(" ");
    for (String word : words) {
   
        word = word.toLowerCase(); // 不区分大小写
        wordFreqMap.merge(word, 1, Integer::sum);
    }
}

3. 找出频率最高的单词

现在你已经有了单词频率的映射,你可以使用 Map.EntryCollections.sort() 方法来找出频率最高的单词:

List<Map.Entry<String, Integer>> sortedWords = new ArrayList<>(wordFreqMap.entrySet());
Collections.sort(sortedWords, (e1, e2) -> e2.getValue() - e1.getValue());

4. 打印结果

最后,你可以打印频率最高的单词及其频率:

for (Map.Entry<String, Integer> entry : sortedWords) {
   
    System.out.println(entry.getKey() + ": " + entry.getValue());
}

示例

以下示例演示如何从文件中找到频率最高的单词:

import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.*;

public class WordFrequency {
   

    public static void main(String[] args) throws IOException {
   
        List<String> lines = Files.readAllLines(Paths.get("file.txt"));

        Map<String, Integer> wordFreqMap = new HashMap<>();
        for (String line : lines) {
   
            String[] words = line.split(" ");
            for (String word : words) {
   
                word = word.toLowerCase();
                wordFreqMap.merge(word, 1, Integer::sum);
            }
        }

        List<Map.Entry<String, Integer>> sortedWords = new ArrayList<>(wordFreqMap.entrySet());
        Collections.sort(sortedWords, (e1, e2) -> e2.getValue() - e1.getValue());

        for (Map.Entry<String, Integer> entry : sortedWords) {
   
            System.out.println(entry.getKey() + ": " + entry.getValue());
        }
    }
}

结论

遵循这些步骤,你可以轻松地从文件中找到频率最高的单词。这对于文本分析、信息检索和其他自然语言处理任务非常有用。

目录
相关文章
|
2月前
|
Java Unix Go
【Java】(8)Stream流、文件File相关操作,IO的含义与运用
Java 为 I/O 提供了强大的而灵活的支持,使其更广泛地应用到文件传输和网络编程中。!但本节讲述最基本的和流与 I/O 相关的功能。我们将通过一个个例子来学习这些功能。
177 1
|
5月前
|
存储 Java 编译器
深入理解Java虚拟机--类文件结构
本内容介绍了Java虚拟机与Class文件的关系及其内部结构。Class文件是一种与语言无关的二进制格式,包含JVM指令集、符号表等信息。无论使用何种语言,只要能生成符合规范的Class文件,即可在JVM上运行。文章详细解析了Class文件的组成,包括魔数、版本号、常量池、访问标志、类索引、字段表、方法表和属性表等,并说明其在Java编译与运行过程中的作用。
139 0
|
5月前
|
存储 人工智能 Java
java之通过Http下载文件
本文介绍了使用Java实现通过文件链接下载文件到本地的方法,主要涉及URL、HttpURLConnection及输入输出流的操作。
313 0
|
5月前
|
监控 Java API
Java语言按文件创建日期排序及获取最新文件的技术
这段代码实现了文件创建时间的读取、文件列表的获取与排序以及获取最新文件的需求。它具备良好的效率和可读性,对于绝大多数处理文件属性相关的需求来说足够健壮。在实际应用中,根据具体情况,可能还需要进一步处理如访问权限不足、文件系统不支持某些属性等边界情况。
256 14
|
6月前
|
存储 Java 数据安全/隐私保护
Java技术栈揭秘:Base64加密和解密文件的实战案例
以上就是我们今天关于Java实现Base64编码和解码的实战案例介绍。希望能对你有所帮助。还有更多知识等待你去探索和学习,让我们一同努力,继续前行!
468 5
|
6月前
|
网络协议 安全 Java
实现Java语言的文件断点续传功能的技术方案。
像这样,我们就完成了一项看似高科技、实则亲民的小工程。这样的技术实现不仅具备实用性,也能在面对网络不稳定的挑战时,稳稳地、不失乐趣地完成工作。
344 0
|
9月前
|
前端开发 Cloud Native Java
Java||Springboot读取本地目录的文件和文件结构,读取服务器文档目录数据供前端渲染的API实现
博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
Java||Springboot读取本地目录的文件和文件结构,读取服务器文档目录数据供前端渲染的API实现
【Java】单词倒序输出
  如何将一段单词倒序输出?把“Hello Java Hello China”变成“China Hello Java Hello”?   看起来好像很简单,只需要把字符串先分割成单词,然后加入一个StringBuilder或者StringBuffer中,最后再使用toString方法即可,现在来实现...
1593 0
|
2月前
|
JSON 网络协议 安全
【Java】(10)进程与线程的关系、Tread类;讲解基本线程安全、网络编程内容;JSON序列化与反序列化
几乎所有的操作系统都支持进程的概念,进程是处于运行过程中的程序,并且具有一定的独立功能,进程是系统进行资源分配和调度的一个独立单位一般而言,进程包含如下三个特征。独立性动态性并发性。
160 1
|
2月前
|
JSON 网络协议 安全
【Java基础】(1)进程与线程的关系、Tread类;讲解基本线程安全、网络编程内容;JSON序列化与反序列化
几乎所有的操作系统都支持进程的概念,进程是处于运行过程中的程序,并且具有一定的独立功能,进程是系统进行资源分配和调度的一个独立单位一般而言,进程包含如下三个特征。独立性动态性并发性。
175 1