《Hadoop与大数据挖掘》——2.6　TF-IDF算法原理及Hadoop MapReduce实现-阿里云开发者社区

《Hadoop与大数据挖掘》——2.6　TF-IDF算法原理及Hadoop MapReduce实现

2017-07-03 3203

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介：

本节书摘来自华章计算机《Hadoop与大数据挖掘》一书中的第2章，第2.6节，作者张良均樊哲位文超刘名军许国杰周龙焦正升，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.6　TF-IDF算法原理及Hadoop MapReduce实现

2.6.1　TF-IDF算法原理

原理：在一份给定的文件里，词频（Term Frequency，TF）指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化，以防止它偏向长的文件（同一个词语在长文件里可能会比在短文件里有更高的词频，而不管该词语重要与否）。逆向文件频率（Inverse Document Frequency，IDF）是一个词语普遍重要性的度量。某一特定词语的IDF可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

举个例子来说，假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是3/100＝0.03。一个计算文件频率的方法是测定有多少份文件出现过“母牛”一词，然后除以文件集里包含的文件总数。所以，如果“母牛”一词在1000份文件出现过，而文件总数是10 000 000份的话，其逆向文件频率就是log(10 000 000/1 000)＝4。最后的TF-IDF的分数为0.03×4＝0.12。

2.6.2　Hadoop TF-IDF编程思路

这里不再给出TF-IDF的单机算法实现，而直接给出其Hadoop算法实现思路，如图2-52所示。

具体算法描述如下。

Job1：针对每个文件集中的每个输入文件，分别统计其各个单词出现的次数，输出为<单词w|文件名f，该单词w在文件f中出现的次数f-w-count>。

Job2：针对Job1的输出，统计文件f中所有单词的个数（及一共有多少个唯一的单词），输出为<单词w|文件名f，该单词w在文件f中出现的次数f-w-count |文件f中的单词数f-length>。

其MapReduce数据流如图2-53所示。

2.6.3　Hadoop TF-IDF编程实现

这里给出的TF-IDF算法的测试数据使用的是Avro格式的。这里只对Avro进行简单介绍，如读者需要深入了解，可以上网查找相关资料。

Avro简介

Avro是一个数据序列化的系统，它可以将数据结构或对象转化成便于存储或传输的格式。Avro设计之初就用来支持数据密集型应用，适合于远程或本地大规模数据的存储和交换。

Avro依赖于模式（Schema）。通过模式定义各种数据结构，只有确定了模式才能对数据进行解释，所以在数据的序列化和反序列化之前，必须先确定模式的结构。

Schema通过JSON对象表示。Schema定义了简单数据类型和复杂数据类型，其中复杂数据类型包含不同属性。通过各种数据类型用户可以自定义丰富的数据结构。

Avro定义了几种简单数据类型，表2-10是对其简单说明。

Avro定义了6种复杂数据类型，分别是record、enum、array、map、union和fixed，每一种复杂数据类型都具有独特的属性。表2-11就record这一种复杂数据类型进行了简要说明（后面也只会用到这种数据类型）。

（1）动手实践：Java基于Avro的序列化和反序列化

简单来说，Avro就是提供一个数据文件的说明文档，然后可以直接根据该说明文档进行序列化和反序列化的一个框架而已。

举个例子，比如现在有一个数据描述文件，如代码清单2-46所示。

有定义一个Java类和该描述文件匹配，如代码清单2-47所示。

代码清单2-46中的name:User或者name:name、name:favorite_number等，不需要与代码清单2-47中的名字User类或者方法setName、setFavoriteColor名字一模一样，只需一一对应即可。

那么怎么进行序列化呢？参考代码清单2-48，即可把用户user1、user2、user3序列化到本地磁盘的users.avro文件。

如何进行反序列化呢？参考代码清单2-49，即可把序列化后的users.avro文件内容读取出来了，并且代码清单2-49中的代码还把文件内容也打印出来了。

参考上面的示例，进行下面的实验。

实验步骤如下：

1）新建Java工程，引入avro-1.7.4.jar、avro-tools-1.7.4.jar（非必需）、jackson-core-asl-1.9.13.jar、jackson-mapper-asl-1.9.13.jar、junit-4.11.jar、hamcrest-core-1.3.jar。
2）参考代码清单2-46、代码清单2-47、代码清单2-48、代码清单2-49，缩写对应程序实现，运行程序查看结果。
（2）动手实践：Hadoop基于Avro的反序列化
这里增加一点Hadoop Job Counter的知识，Hadoop Job Counter可以在Hadoop Map-Reduce程序运行的过程中定义全局计数器，对一些必要的参数进行统计，通过doc api查看该用法，如图2-54所示。

在Java代码中遍历所有Hadoop MapReduce Counter，可参考代码清单2-50。

实验步骤如下：
1）拷贝avro-mapred-1.7.4-hadoop2.jar到Hadoop集群lib目录，上传hadoop/data/mann.avro数据到HDFS。
2）设置读取Avro文件的FileInputFormat为AvroKeyInputFormat。
3）参考示例程序2.5_004_avro_mr，读懂程序代码，运行程序，查看结果。