如何在 Java 中从文件中找到频率最高的单词

简介: 【8月更文挑战第22天】

从文件中找到频率最高的单词在文本分析、信息检索和其他自然语言处理任务中非常有用。以下是如何在 Java 中实现此功能:

1. 读取文件

首先,你需要从文件中读取文本。你可以使用 Files.readAllLines() 方法来读取文件中的所有行,并将其存储在列表中:

List<String> lines = Files.readAllLines(Paths.get("file.txt"));

2. 分词和词频统计

接下来,你需要将文本分词并统计每个单词的频率。以下是如何使用正则表达式和 HashMap 来实现此功能:

Map<String, Integer> wordFreqMap = new HashMap<>();
for (String line : lines) {
   
    String[] words = line.split(" ");
    for (String word : words) {
   
        word = word.toLowerCase(); // 不区分大小写
        wordFreqMap.merge(word, 1, Integer::sum);
    }
}

3. 找出频率最高的单词

现在你已经有了单词频率的映射,你可以使用 Map.EntryCollections.sort() 方法来找出频率最高的单词:

List<Map.Entry<String, Integer>> sortedWords = new ArrayList<>(wordFreqMap.entrySet());
Collections.sort(sortedWords, (e1, e2) -> e2.getValue() - e1.getValue());

4. 打印结果

最后,你可以打印频率最高的单词及其频率:

for (Map.Entry<String, Integer> entry : sortedWords) {
   
    System.out.println(entry.getKey() + ": " + entry.getValue());
}

示例

以下示例演示如何从文件中找到频率最高的单词:

import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.*;

public class WordFrequency {
   

    public static void main(String[] args) throws IOException {
   
        List<String> lines = Files.readAllLines(Paths.get("file.txt"));

        Map<String, Integer> wordFreqMap = new HashMap<>();
        for (String line : lines) {
   
            String[] words = line.split(" ");
            for (String word : words) {
   
                word = word.toLowerCase();
                wordFreqMap.merge(word, 1, Integer::sum);
            }
        }

        List<Map.Entry<String, Integer>> sortedWords = new ArrayList<>(wordFreqMap.entrySet());
        Collections.sort(sortedWords, (e1, e2) -> e2.getValue() - e1.getValue());

        for (Map.Entry<String, Integer> entry : sortedWords) {
   
            System.out.println(entry.getKey() + ": " + entry.getValue());
        }
    }
}

结论

遵循这些步骤,你可以轻松地从文件中找到频率最高的单词。这对于文本分析、信息检索和其他自然语言处理任务非常有用。

目录
相关文章
|
3天前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
16 2
|
7天前
|
存储 缓存 安全
在 Java 编程中,创建临时文件用于存储临时数据或进行临时操作非常常见
在 Java 编程中,创建临时文件用于存储临时数据或进行临时操作非常常见。本文介绍了使用 `File.createTempFile` 方法和自定义创建临时文件的两种方式,详细探讨了它们的使用场景和注意事项,包括数据缓存、文件上传下载和日志记录等。强调了清理临时文件、确保文件名唯一性和合理设置文件权限的重要性。
18 2
|
16天前
|
存储 安全 Java
如何保证 Java 类文件的安全性?
Java类文件的安全性可以通过多种方式保障,如使用数字签名验证类文件的完整性和来源,利用安全管理器和安全策略限制类文件的权限,以及通过加密技术保护类文件在传输过程中的安全。
|
17天前
|
存储 Java API
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
25 4
|
20天前
|
Java 数据格式 索引
使用 Java 字节码工具检查类文件完整性的原理是什么
Java字节码工具通过解析和分析类文件的字节码,检查其结构和内容是否符合Java虚拟机规范,确保类文件的完整性和合法性,防止恶意代码或损坏的类文件影响程序运行。
|
20天前
|
Java API Maven
如何使用 Java 字节码工具检查类文件的完整性
本文介绍如何利用Java字节码工具来检测类文件的完整性和有效性,确保类文件未被篡改或损坏,适用于开发和维护阶段的代码质量控制。
|
22天前
|
缓存 Java 程序员
Java|SpringBoot 项目开发时,让 FreeMarker 文件编辑后自动更新
在开发过程中,FreeMarker 文件编辑后,每次都需要重启应用才能看到效果,效率非常低下。通过一些配置后,可以让它们免重启自动更新。
23 0
|
Java 大数据 Apache
|
Java Windows 移动开发