1.动态特征稀疏化正则。我们根据每个特征f的动态效用值Utlity(f)实现特征的动态增加和动态删除, 当Utility(f)大于一定阈值时创建特征并学习特征权重,小于一定阈值时擦除特征并删除特征权重。动态特征的设计思想有效控制了可学习的特征总量; 2.动态表达维度扩张。我们根据每个特征f的动态信息量Infomation(f),给不同特征赋予不同的隐向量维度,对重要特征进行高维压缩,不重要的特征进行低维压缩,提高特征价值,提升内存使用效率。 3.自动化会话特征建模。我们在模型中自动统计长期、中期和短期的会话特征,把会话特征加入神经网络进行特征统计值和隐表达的联合学习,自动化会话特征思想将在算子设计中详细介绍。 4.分频次正则。我们对不同频次的特征采用不同的正则系数,以避免局部过拟合,最大化测试准度。在性能方面,猜你喜欢场景累计的全量数据,包含了千亿规模的特征和万亿规模的样本,单个样本平均一百个特征,在5600核16TB内存的资源开销下(和MR任务混部的普通CPU集群),XNN算法可以在7小时内完成每天增量的百亿规模的流式样本的学习。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。