1000万数据,如何进行one-hot编码-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

1000万数据,如何进行one-hot编码

冰封加百列 2017-12-11 14:30:08 1581

想用sklearning的DictVectorizer,但是查看源码的comment,需要将数据全部存在memory里面,数据量比较大,所以感觉比较困难,有没有大神作过大数据预处理的,求教。。。跪谢了

大数据
分享到
取消 提交回答
全部回答(3)
  • 游客albmwkxzhc342
    2019-07-17 21:48:20

    需要用sparse的方法来处理的。稀疏特征。比如 f1:100;f3:20 这样的kv对形式

    0 0
  • ucmengxin
    2019-07-17 21:48:20

    用tensorflow/scipy的sparse tensor/matrix

    0 0
  • 孤狼:
    2019-07-17 21:48:20

    我也想知道

    0 0
添加回答
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题