开发者社区> 问答> 正文

为什么大规模样本下特征总量轻易超过千亿量级会影响了算法效果?

为什么大规模样本下特征总量轻易超过千亿量级会影响了算法效果?

展开
收起
罗鹏大佬 2022-04-20 10:20:16 576 0
来自:阿里技术
1 条回答
写回答
取消 提交回答
  • 传统的特征编号方法需要消耗极多的机器资源和耗费很长的计算时间来完成特征编号,而且对新出现的特征也难以及时进行编号。从资源消耗和时间消耗上看,特征序列化编号方法已经是不可承受的步骤。此外,采用类似TensorFlow里通过string_to_hash_bucket的方法将特征映射到固定范围的做法,虽然保证固定了tensor的shape,减少了参数总量,但是在特征总数巨大的时候则又引入了大量的哈希冲突,影响了算法效果。

    2022-04-20 13:12:47
    赞同 展开评论 打赏
来源圈子
更多
收录在圈子:
+ 订阅
问答排行榜
最热
最新

相关电子书

更多
数据+算法定义新世界 立即下载
袋鼠云基于实时计算的反黄牛算法 立即下载
Alink:基于Apache Flink的算法平台 立即下载