想用sklearning的DictVectorizer,但是查看源码的comment,需要将数据全部存在memory里面,数据量比较大,所以感觉比较困难,有没有大神作过大数据预处理的,求教。。。跪谢了
需要用sparse的方法来处理的。稀疏特征。比如 f1:100;f3:20 这样的kv对形式
用tensorflow/scipy的sparse tensor/matrix
我也想知道
大数据计算实践乐园,近距离学习前沿技术