高频词汇提取的Java实现

简介: 本文为原创,如需转载,请注明作者和出处,谢谢!     面对浩瀚的信息海洋,找到想要的资源有时真的是不容易。在大量文字中搜索高频词汇是信息搜索和数据压缩的共通课题。

本文为原创,如需转载,请注明作者和出处,谢谢!

    面对浩瀚的信息海洋,找到想要的资源有时真的是不容易。在大量文字中搜索高频词汇是信息搜索和数据压缩的共通课题。
这次智慧擂台请大家在一个比较庞大的英文文本中找出M个数量最多的短语(由N个单词组成)。统一处理相同的文本文件,该文本只包含英文单词、空格和回行符,比较谁的程序效率最高。

  程序输入:M,N,文本文件路径(M不超过20,N不超过8)
程序输出:高频短语及其数量清单

擂台规则:提交符合以上要求的可执行程序,语言招式不限,点到为止;
我们将在统一的环境下对每位选手的作品进行公平的测试,
比较出综合用时最少的程序。

源程序


import  java.io. * ;
import  java.util. * ;

class  tt
{
    
public  String phrase;
    
public   int  count;
}

public   class  searchphrase
{

    
private   static  LinkedHashMap phrase  =   new  LinkedHashMap();
    
static  tt[] max_phrase;

    
private   static  Vector SeparateString(String s)
    {
        Vector v 
=   new  Vector();
        String temp 
=   "" ;
        
for  ( int  i  =   0 ; i  <  s.length(); i ++ )
        {
            
if  (s.charAt(i)  !=   '   ' )
            {
                temp 
+=  s.charAt(i);
            }
            
else
            {
                
if  (temp  !=   "" )
                    v.add(temp);
                temp 
=   "" ;
            }
        }
        
if  (temp  !=   "" )
            v.add(temp);
        
return  v;
    }

    
private   static   void  swap( int  pos,  int  count, String phrase)
    {
        
int  i;
        
if  (max_phrase[pos  -   1 ].count  <  count)
        {
            
for  (i  =  pos  -   1 ; i  >   0 ; i -- )
            {
                
if  (max_phrase[i  -   1 ].count  >  max_phrase[i].count)
                    
break ;
            }
            max_phrase[pos].count 
=  max_phrase[i].count;
            max_phrase[pos].phrase 
=  max_phrase[i].phrase;
            max_phrase[i].count 
=  count;
            max_phrase[i].phrase 
=  phrase;
        }

    }

    
private   static   void  adjust_max( int  count, String phrase)
    {
        
int  i, j;
        
if  (count  <=  max_phrase[max_phrase.length  -   1 ].count)
            
return ;
        
for  (i  =  max_phrase.length  -   1 ; i  >=   0 ; i -- )
        {
            
if  (max_phrase[i].phrase.equals(phrase))
            {
                max_phrase[i].count 
=  count;
                
if  (i  >   0 )
                {
                    swap(i, count, phrase);
                }
                
return ;
            }
        }
        max_phrase[max_phrase.length 
-   1 ].count  =  count;
        max_phrase[max_phrase.length 
-   1 ].phrase  =  phrase;
        
if  (i  >   0 )
        {
            swap(max_phrase.length 
-   1 , count, phrase);
        }
    }

    
private   static   void  js(Vector v,  int  n)
    {
        String s;
        
for  ( int  i  =   0 ; i  <  v.size()  -  n  +   1 ; i ++ )
        {
            s 
=   "" ;
            
for  ( int  j  =  i; j  <  i  +  n; j ++ )
            {
                s 
+=  v.get(j)  +   "   " ;
            }
            
int  count  =   1 ;
            
if  (phrase.containsKey(s.hashCode()))
            {
                count 
=  Integer.parseInt(phrase.get(s.hashCode()).toString());
                count
++ ;
            }
            phrase.put(s.hashCode(), count);
            adjust_max(count, s);
        }
    }

    
public   static   void  main(String[] args)
    {
        
try
        {
            
long  t;
            
int  m, n;
            String path;
            m 
=  Integer.parseInt(args[ 0 ]);
            n 
=  Integer.parseInt(args[ 1 ]);
            path 
=  args[ 2 ];
            max_phrase 
=   new  tt[m];
            
for  ( int  i  =   0 ; i  <  m; i ++ )
            {
                max_phrase[i] 
=   new  tt();
                max_phrase[i].count 
=   0 ;
                max_phrase[i].phrase 
=   "" ;
            }
            t 
=  ( new  java.util.Date()).getTime();
            java.io.FileReader fr 
=   new  java.io.FileReader(path);
            java.io.BufferedReader br 
=   new  BufferedReader(fr);
            String s;

            Vector v 
=   null ;

            
while  ((s  =  br.readLine())  !=   null )
            {
                v 
=  SeparateString(s);
                js(v, n);
            }
            
for  ( int  i  =   0 ; i  <  m; i ++ )
            {
                System.out.println(max_phrase[i].phrase);
                System.out.println(max_phrase[i].count);
                System.out.println();
            }
            t 
=  ( new  java.util.Date()).getTime()  -  t;
            System.out.print(t);
            System.out.println(
"  ms " );
        }
        
catch  (Exception e)
        {
            System.out.println(e.getMessage());
        }

    }

}

测试结果1:m = 20 n = 8 

under games played won drawn lost goals for
71

tabulated under games played won drawn lost goals
70

games played won drawn lost goals for against
70

May Xinhua Following are the results from the
69

played won drawn lost goals for against and
59

won drawn lost goals for against and points
59

Jan Xinhua Following are the results from the
48

Chinas economic efficiency indicators of the sector of
39

The industrial statistics include all stateowned enterprises and
39

industrial statistics include all stateowned enterprises and the
39

statistics include all stateowned enterprises and the nonstateowned
39

include all stateowned enterprises and the nonstateowned ones
39

all stateowned enterprises and the nonstateowned ones with
39

stateowned enterprises and the nonstateowned ones with annual
39

enterprises and the nonstateowned ones with annual sales
39

and the nonstateowned ones with annual sales income
39

Xinhua Chinas economic efficiency indicators of the sector
39

the nonstateowned ones with annual sales income over
39

nonstateowned ones with annual sales income over million
39

up percent over the same period last year
35

13594 ms


测试结果2  m = 10 n = 5

Xinhua Following are the results
295

May Xinhua Following are the
209

Following are the results from
183

are the results from the
176

April Xinhua Following are the
141

Jan Xinhua Following are the
122

billion yuan billion US dollars
120

won drawn lost goals for
88

played won drawn lost goals
88

Dec Xinhua Following are the
87

12437 ms

 
以上源程序是采用的是最简单的方法,谁有更好,效率更高的方法,请跟贴!!

目录
相关文章
|
3月前
|
Java 程序员
在Java编程中,关键字不仅是简单的词汇,更是赋予代码强大功能的“魔法咒语”。
【10月更文挑战第13天】在Java编程中,关键字不仅是简单的词汇,更是赋予代码强大功能的“魔法咒语”。本文介绍了Java关键字的基本概念及其重要性,并通过定义类和对象、控制流程、访问修饰符等示例,展示了关键字的实际应用。掌握这些关键字,是成为优秀Java程序员的基础。
37 3
|
3月前
|
Java 程序员 编译器
在Java编程中,保留字(如class、int、for等)是具有特定语法意义的预定义词汇,被语言本身占用,不能用作变量名、方法名或类名。
在Java编程中,保留字(如class、int、for等)是具有特定语法意义的预定义词汇,被语言本身占用,不能用作变量名、方法名或类名。本文通过示例详细解析了保留字的定义、作用及与自定义标识符的区别,帮助开发者避免因误用保留字而导致的编译错误,确保代码的正确性和可读性。
66 3
|
3月前
|
Java 程序员 编译器
|
7月前
|
Java 程序员
Java关键字:不只是简单的词汇,更是编程的“魔法咒语”!
【6月更文挑战第15天】Java关键字是编程的基石,如&quot;class&quot;定义类,&quot;new&quot;创建对象,&quot;if/else&quot;控制流程,&quot;for/while&quot;实现循环,&quot;public/private&quot;设置访问权限。示例展示了如何使用这些关键字来定义类、条件判断和循环,强调掌握关键字对提升代码效率至关重要。
76 14
|
Java
Java 实现汉字按照首字母分组排序
Java 实现汉字按照首字母分组排序
726 0
|
Java 数据安全/隐私保护
JAVA 实现上传图片添加水印(详细版)(上)
JAVA 实现上传图片添加水印(详细版)
1298 0
JAVA 实现上传图片添加水印(详细版)(上)
|
网络协议 Java
Java网络编程:UDP/TCP实现实时聊天、上传图片、下载资源等
ip地址的分类: 1、ipv4、ipv6 127.0.0.1:4个字节组成,0-255,42亿;30亿都在北美,亚洲就只有4亿 2011年就用尽了。
Java网络编程:UDP/TCP实现实时聊天、上传图片、下载资源等
|
Java
Java实现拼图小游戏(7)——查看完整图片(键盘监听实例2)
由于在移动和图片中我们已经添加了键盘监听,也继承了键盘监听的接口,那么我们只需要在重写方法内输入我们的代码即可
228 0
|
存储 Java
Java实现图书管理系统
本篇文章是对目前Java专栏已有内容的一个总结练习,希望各位小主们在学习完面向对象的知识后,可以阅览本篇文章后,自己也动手实现一个这样的demo来加深总结应用已经学到知识并进行巩固。
433 0
Java实现图书管理系统
|
数据可视化 Java
Java实现拼图小游戏(1)—— JFrame的认识及界面搭建
如果要在某一个界面里面添加功能的话,都在一个类中,会显得代码难以阅读,而且修改起来也会很困难,所以我们将游戏主界面、登录界面、以及注册界面都单独编成一个类,每一个类都继承JFrame父类,并且在类中创建方法来来实现页面
554 0
Java实现拼图小游戏(1)—— JFrame的认识及界面搭建