#coding4fun#词频统计优化思路

简介:

关于这期的coding4fun,我选择的是hashmap方式实现。整体思路和流程大家可能都差不多,C++同学们的总结写的很好,一些逻辑优化都有总结,我这里介绍下java实现的一些优化吧。

使用ByteString代替String

开始读出文件转成String对象,然后通过String对象操作,代码写起来都比较方便。

但是有一个问题,文件读取出来的byte[]转成String对象非常耗时,一个1G的String对象分配内存时间就很长了,String对象内部使用char[],通过byte[]构造String对象需要根据编码遍历byte[]。这个过程非常耗时,肯定是可以优化的。

于是我使用ByteString类代替String

class ByteString{
    byte[] bs;
    int start;
    int end;
}

hashcode()和equals()方法参考String的实现。

在code4fun的16核机器上测试如下代码:

代码1:

byte[] bs = new byte[1024*1024*1024];
long st = System.currentTimeMillis();
new String(bs);
System.out.println(System.currentTimeMillis() - st);  // 2619ms

代码2:

byte[] bs = new byte[1024*1024*1024];
long st = System.currentTimeMillis();
int count = 100000;
for(int i = 0; i < count; i++)
   new ByteString(bs, 0, 100);
System.out.println(System.currentTimeMillis() - st);  //10ms

循环中代码要精简

Hashmap的实现,给单词计数时避免不了如下的代码:

ByteString str = new ByteString(bs, start, end);
Count count = map.get(str);
If(count == null){
  count = new Count(str,1);
  map.put(str,count);
} else{
  count.add(1);
}

本来这段代码没什么问题,但是当单词个数足够大的时候(最终1.1G的文件,有2亿多单词),这段代码就值得优化了。第一行创建的对象,只有单词第一次出现有用,其他时间都可以不用创建。

于是创建一个Pmap类,继承HahsMap,并添加了一个get(ByteString bs, int start, int end)方法。上面的代码改为

Count count = map.get(bs, start, end);
If(count == null){
  ByteString str = new ByteString(bs, start, end);
  count = new Count(str,1);
  map.put(str,count);
} else{
  count.add(1);
}

能避免锁就不用锁,不能避免就减小范围

concurrentHashMap的实现固然精妙,只是能不用锁尽量不用,实在用的时候,尽量减少范围。CAS的方式虽然比锁好,但是还是有消耗。

我们使用多线程的方式统计,所以统计结果对象需要线程安全。开始使用AtomicInteger,但是跟count++比起来效率还是差的非常多,单词个数越多越明显。

尝试使用volatile关键字效果也是不理想,然后比不上count++。

最后使用两个字段来解决这个问题:在线程内部统计单词个数时,使用count++方式;到合并环节,单词数已经不多,使用AtomicInteger的方式累加,基本不影响效率。

通过减少锁的范围和锁的次数,来达到提升效率的目标。

相关文章
|
1月前
|
Python
请解释Python中的递归是什么?并举例说明其用法。
【2月更文挑战第25天】【2月更文挑战第85篇】请解释Python中的递归是什么?并举例说明其用法。
|
16天前
|
Python
python实现斐波那契数列案例代码
python实现斐波那契数列递归实现斐波那契数列:
9 0
|
3月前
|
Python
请解释Python中的列表推导式,并给出一个例子。
请解释Python中的列表推导式,并给出一个例子。
35 0
|
4月前
|
存储 算法 Python
将题目与答案整合到一起的 python 代码
将题目与答案整合到一起的 python 代码
21 0
|
9月前
|
Python
二氧化碳捕获和电化学转化(Python代码实现)
二氧化碳捕获和电化学转化(Python代码实现)
|
10月前
|
存储 人工智能 JSON
Python|python实现将题目转化为字典
Python|python实现将题目转化为字典
77 0
|
算法 Python
python与算法:python构造整数列表的方法总结并且计算构造效率
python与算法:python构造整数列表的方法总结并且计算构造效率
100 0
python与算法:python构造整数列表的方法总结并且计算构造效率
|
C++ Python
如何用python倒序输出字符串?
今天在面试一个实习生的时候,向他提了一个问题,用你最喜欢的编程语言实现倒序输出字符串你会怎么做?
207 1
|
Python
Python基础题型实战08-编写函数判断一张牌的花色
人生最困难的时候,也许正是转变的时候:改变固有的思想,人生就可能迎来转机。幸运,总是离努力的人更近一些。
|
机器学习/深度学习 Python
python展示多种方法处理斐波那契数列
斐波那契数列(Fibonacci sequence),又称黄金分割数列,因数学家莱昂纳多·斐波那契(Leonardo Fibonacci)以兔子繁殖为例子而引入,故又称为“兔子数列”,指的是这样一个数列:0、1、1、2、3、5、8、13、21、34、……在数学上,斐波那契数列以如下被以递推的方法定义:F(0)=0,F(1)=1, F(n)=F(n - 1)+F(n - 2)(n ≥ 2,n ∈ N*)在现代物理、准[晶体结构]、化学等领域,斐波纳契数列都有直接的应用。
234 0
python展示多种方法处理斐波那契数列