开发者社区> 问答> 正文

XPS平台提出了很多创新的技术来应对超大规模的数据体量都有哪些?

XPS平台提出了很多创新的技术来应对超大规模的数据体量都有哪些?

展开
收起
罗鹏大佬 2022-04-20 10:20:15 541 0
来自:阿里技术
1 条回答
写回答
取消 提交回答
  • 1、在样本处理问题上,我们采用流式学习算法为主的算法选型来解决大规模样本问题。在流式学习下,对每一批新数据,直接在当前模型上进行增量训练,并产出下一个模型,无需加载全量数据进行多轮全量学习。流式学习算法选型,平衡了数据规模和资源消耗问题,更轻量级地应对了大规模样本的问题; 2、在特征处理问题上,采用了将特征哈希映射为哈希值的方法替代特征编号机制。在节省内存、提升性能的同时,支持了特征的动态稀疏化正则机制和表示向量维度的动态扩张机制,解决了特征总量过大的问题; 3、在分布式规模方面,通过异步Checkpoint和Exactly Once Failover以及高性能的ArrayHashMap等机制,加上动态稀疏化正则机制等特征处理技术,保证了分布式训练的性能,提高了Server的存储效率。

    2022-04-20 13:12:47
    赞同 展开评论 打赏
问答地址:
来源圈子
更多
收录在圈子:
+ 订阅
问答排行榜
最热
最新

相关电子书

更多
大规模日志数据平台架构面临的问题与挑战 立即下载
性能魔方:大规模企业该如何应对应用性挑战 立即下载
数据智能驱动的企业增长之道——深度洞察用户、提升企业CLV 立即下载