随着大数据的兴起,数据挖掘这一行也越来越火了。同时,各类大数据分析挖掘工具也越来越多,从最早的C、Java、excel、spss、SAS到现在Python、R、Hadoop,跨越了各行各业,从零售到互联网,从金融到医疗,都有了很大的发展。从我个人工作一年的经历来看,光数据挖掘工具,就用到了SAS、Python、R、Hadoop。从我个人看来,Python用于数据清洗确实比较方便,但是对于数据量稍微大一点,Python的运行效率还是不如SAS,R更适合跑算法模型,但是一旦数据到G级别的话,对于本机电脑如果只有4G的内存来说,还是有点鸡肋,相对SAS来说,R对于硬件要求相对来说要更高,Hadoop我用到的就只有其Hive数据库了,从存储量级来看,确实很不错,但是也存在性能不稳定以及数据的传输查询效率要远远低于传统的数据库oracle、TD等缺点。
从我个人喜好来看,虽然SAS还是比较古老的数据分析统计工具,但是我个人认为数据挖掘这一工具并不会被淘汰,主要有这么几点:
1.数据清洗的高效性:SAS数据处理通过结合data步和proc步来进行,效率非常高。一个简单的data步,可以实现各种各样的数据清洗,包括数据类型转化、数据观测的更改、删除、填补、简单的数据统计等等。而且承受的数据量级即使是千万级以上也不在话下。
2.模型算法的多样性:SAS里同样包含多种算法,从常见的聚类、逻辑回归、线性回归、非线性回归、到决策树、神经网络等,即使是本身不包含的协同过滤、最短路径、最小生成树等算法,我们也能够通过SAS编程实现。
3.SAS宏功能:SAS里面的宏特别常见,应用也特别广泛,从数据清洗的批量计算,到建模的参数输入,其实这一类宏也类似于R的所谓算法包,只是在SAS里面,以宏的形式存在着,我们同样可以通过以%macroname(宏参)的形式调用这些宏参数,避免重复繁琐的计算。同时,我们可以随时因为需求的改变,更改宏的定制,非常方便。
4.SAS IML矩阵模块:这一模型在Python中的numpy和R中matrix是类似的,通过对应的PROC IML过程,能够实现Python和R中对应的功能,而且计算方式也非常灵活,快捷。