备案控制台

开发者社区问答正文

为什么大规模样本下特征总量轻易超过千亿量级会影响了算法效果？

为什么大规模样本下特征总量轻易超过千亿量级会影响了算法效果？

展开

收起

罗鹏大佬 2022-04-20 10:20:16 601 版权

来自：阿里技术

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

Dons

传统的特征编号方法需要消耗极多的机器资源和耗费很长的计算时间来完成特征编号，而且对新出现的特征也难以及时进行编号。从资源消耗和时间消耗上看，特征序列化编号方法已经是不可承受的步骤。此外，采用类似TensorFlow里通过string_to_hash_bucket的方法将特征映射到固定范围的做法，虽然保证固定了tensor的shape，减少了参数总量，但是在特征总数巨大的时候则又引入了大量的哈希冲突，影响了算法效果。

2022-04-20 13:12:47

赞同展开评论

问答分类：

算法

问答标签：

算法特征特征算法算法大规模算法样本大规模算法

问答地址：

开发者社区 > 阿里技术 > 问答

相关问答

机器学习PAI这种在线学习的算法是把从评估结果来看，是把负样本没学进去吗？

155

2

0

有没有什么算法可以实现分析组件的输入和输出的特征，优化采集任务的执行效率？

62

0

0

在B端算法发展的背景下，为什么需要引入用户实时特征？

56

1

0

通义听悟应用是如何利用大规模语言模型（LLM）进行基础算法探索和应用落地的？

146

1

0

机器学习PAI-Designer算法组件特征离散如何选择离散方式

291

1

0

使用JPEG算法对一个8x8图像块进行压缩编码它的重构样本是什么样？

1096

1

0

D2C 智能化技术体系，算法工程中的样本生成有什么作用？

538

1

0

KNN算法的核心思想说K个最相似的样本是什么意思呀？

545

1

0

数据挖掘中分类算法按照样本数据里有没有特殊的一列可以分为什么？

447

1

0

商品算法大规模是怎么助力招商选品链路自动化升级的？

640

1

0

收录在圈子:

阿里技术

7038

+ 订阅

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

“数据超人”MCP工具，到底是怎么让数据‘燃’起来的？

DeepSeek V3.1 昨天还能用tool，今天怎么就用不了了？

我正在搭建智能体，遇到下图问题，不知道怎么解决

用了一年多的lingma 插件，现在.lingma 文件夹有三十多个g，这是正常的吗，是否会继续变大

通义千问和通义千问开源系列有什么区别？

相关文章

MySQL分库分表：应对海量数据的策略

面向教育平台的分层内容采集思路

AR智慧运维系统介绍

硬盘性能提升100倍的秘密：看懂顺序I/O的魔力

还有其他疑问?