开发者社区> 问答> 正文

1000万数据,如何进行one-hot编码

想用sklearning的DictVectorizer,但是查看源码的comment,需要将数据全部存在memory里面,数据量比较大,所以感觉比较困难,有没有大神作过大数据预处理的,求教。。。跪谢了

展开
收起
冰封加百列 2017-12-11 14:30:08 3710 0
3 条回答
写回答
取消 提交回答
  • 需要用sparse的方法来处理的。稀疏特征。比如 f1:100;f3:20 这样的kv对形式

    2019-07-17 21:48:20
    赞同 展开评论 打赏
  • 用tensorflow/scipy的sparse tensor/matrix

    2019-07-17 21:48:20
    赞同 展开评论 打赏
  • 一个热爱科技,热爱生活的阳光男孩

    我也想知道

    2019-07-17 21:48:20
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载