统计文章内各个单词出现的次数

简介: 算法的思路是: 从头到尾遍历文件,从文件中读取遍历到的每一个单词。 把遍历到的单词放到hash_map中,并统计这个单词出现的次数。 遍历hash_map,将遍历到的单词的出现次数放到优先级队列中。

算法的思路是:

  1. 从头到尾遍历文件,从文件中读取遍历到的每一个单词。
  2. 把遍历到的单词放到hash_map中,并统计这个单词出现的次数。
  3. 遍历hash_map,将遍历到的单词的出现次数放到优先级队列中。
  4. 当优先级队列的元素个数超过k个时就把元素级别最低的那个元素从队列中取出,这样始终保持队列的元素是k个。
  5. 遍历完hash_map,则队列中就剩下了出现次数最多的那k个元素。

  具体实现和结果如下:

// 出现次数最多的K个单词.cpp : Defines the entry point for the console application.
#include "stdafx.h"
#include <hash_map>
#include <string>
#include <fstream>
#include <queue>
#include <iostream>
#include <algorithm>
#include <boost/timer.hpp> 
using namespace std;
using namespace boost;
void top_k_words()//出现次数最多的是个单词
{
    timer t;
    ifstream fin;
    fin.open("modern c.txt");
    if (!fin)
    {
        cout<<"can not open file"<<endl;
    }
    string s;
    hash_map<string,int> countwords;
    while (true)
    {
        fin>>s;
        countwords[s]++;
        if (fin.eof())
        {
            break;
        }
        
    }
    cout<<"单词总数 (重复的不计数):"<<countwords.size()<<endl;
    priority_queue<pair<int,string>,vector<pair<int,string>>,greater<pair<int,string>>> countmax;
    for(hash_map<string,int>::const_iterator i=countwords.begin();
        i!=countwords.end();i++)
    {
        countmax.push(make_pair(i->second,i->first));
        if (countmax.size()>10)
        {
            countmax.pop();
        }
    }
    while(!countmax.empty())
    {
        cout<<countmax.top().second<<" "<<countmax.top().first<<endl;
        countmax.pop();
    }
    cout<<"time elapsed "<<t.elapsed()<<endl;
}
int main(int argc, char* argv[])
{
    top_k_words();

    system("pause");
    return 0;
}

linux下不能使用hash_map,改为map来统计单词的个数:

// 出现次数最多的K个单词.cpp : Defines the entry point for the console application.  
#include <map>
#include <string>
#include <fstream>
#include <queue>
#include <iostream>
#include <algorithm>
using namespace std;

void top_k_words()//出现次数最多的是个单词  
{
    ifstream fin;
    fin.open("modern c.txt");
    if (!fin)
    {
        cout<<"can not open file"<<endl;
    }
    string s;
    map<string,int> countwords;
    while (true)
    {
        fin>>s;
        countwords[s]++;
        if (fin.eof())
        {
            break;
        }

    }
    cout<<"单词总数 (重复的不计数):"<<countwords.size()<<endl;
    priority_queue<pair<int,string>,vector<pair<int,string>>,greater<pair<int,string>>> countmax;
    for(map<string,int>::const_iterator i=countwords.begin();  i!=countwords.end();i++)
    {
        countmax.push(make_pair(i->second,i->first));
        if (countmax.size()>10)
        {
            countmax.pop();
        }
    }
    while(!countmax.empty())
    {
        cout<<countmax.top().second<<" "<<countmax.top().first<<endl;
        countmax.pop();
    }
}
int main(int argc, char* argv[])
{
    top_k_words();

    return 0;
}

 

相关文章
|
7月前
|
算法 Java C++
统计单词数
统计单词数
74 0
|
7月前
|
存储 Python
判断一个字符串中出现次数最多的字符,统计这个次数?
判断一个字符串中出现次数最多的字符,统计这个次数?
79 0
|
JavaScript 前端开发
判断一个字符串中出现次数最多的字符,统计这个次数
判断一个字符串中出现次数最多的字符,统计这个次数
79 0
判断一个字符串中出现次数最多的字符 统计这个次数
判断一个字符串中出现次数最多的字符 统计这个次数
|
Java
统计字符数量
统计字符数量
98 0
|
C语言 C++
1684. 统计一致字符串的数目
给你一个由不同字符组成的字符串 allowed 和一个字符串数组 words 。如果一个字符串的每一个字符都在 allowed 中,就称这个字符串是 一致字符串 。 请你返回 words 数组中 一致字符串 的数目。
99 0
|
算法
算法练习——(4)统计特定字符数量
.输入一行字符,分别统计出其中英文字母、空格、数字和其它字符的个数。
|
测试技术
寻找出现次数最多的字母(单词分析)
寻找出现次数最多的字母(单词分析)
统计字符串中各个字符出现的次数(六)
统计字符串中各个字符出现的次数(六)
191 0