开发者社区 问答 正文

1000万数据,如何进行one-hot编码

想用sklearning的DictVectorizer,但是查看源码的comment,需要将数据全部存在memory里面,数据量比较大,所以感觉比较困难,有没有大神作过大数据预处理的,求教。。。跪谢了

展开
收起
冰封加百列 2017-12-11 14:30:08 3830 分享 版权
3 条回答
写回答
取消 提交回答
  • 需要用sparse的方法来处理的。稀疏特征。比如 f1:100;f3:20 这样的kv对形式

    2019-07-17 21:48:20
    赞同 展开评论
  • 用tensorflow/scipy的sparse tensor/matrix

    2019-07-17 21:48:20
    赞同 展开评论
  • 一个热爱科技,热爱生活的阳光男孩

    我也想知道

    2019-07-17 21:48:20
    赞同 展开评论