备案控制台

开发者社区> 问答> 正文

为什么大规模样本下特征总量轻易超过千亿量级会影响了算法效果？

为什么大规模样本下特征总量轻易超过千亿量级会影响了算法效果？

展开

收起

罗鹏大佬 2022-04-20 10:20:16 576 0

来自：阿里技术

1 条回答

写回答

取消提交回答

Dons

传统的特征编号方法需要消耗极多的机器资源和耗费很长的计算时间来完成特征编号，而且对新出现的特征也难以及时进行编号。从资源消耗和时间消耗上看，特征序列化编号方法已经是不可承受的步骤。此外，采用类似TensorFlow里通过string_to_hash_bucket的方法将特征映射到固定范围的做法，虽然保证固定了tensor的shape，减少了参数总量，但是在特征总数巨大的时候则又引入了大量的哈希冲突，影响了算法效果。

2022-04-20 13:12:47

赞同展开评论打赏

问答分类：

算法

问答标签：

算法特征算法大规模特征算法大规模算法算法样本

问答地址：

开发者社区 > 阿里技术 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

机器学习PAI这种在线学习的算法是把从评估结果来看，是把负样本没学进去吗？

84

2

0

有没有什么算法可以实现分析组件的输入和输出的特征，优化采集任务的执行效率？

28

0

0

在B端算法发展的背景下，为什么需要引入用户实时特征？

33

1

0

通义听悟应用是如何利用大规模语言模型（LLM）进行基础算法探索和应用落地的？

58

1

0

机器学习PAI-Designer算法组件特征离散如何选择离散方式

264

1

0

使用JPEG算法对一个8x8图像块进行压缩编码它的重构样本是什么样？

1070

1

0

D2C 智能化技术体系，算法工程中的样本生成有什么作用？

501

1

0

KNN算法的核心思想说K个最相似的样本是什么意思呀？

512

1

0

数据挖掘中分类算法按照样本数据里有没有特殊的一列可以分为什么？

426

1

0

商品算法大规模是怎么助力招商选品链路自动化升级的？

563

1

0

来源圈子

更多

收录在圈子:

阿里技术

7023

+ 订阅

问答排行榜

最热

最新

1 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1819097

2 据说在家办公的程序员是这样写代码的？ 1793250

3 阿里云开放端口权限 690332

4 如何升级配置 536321

5 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522892

6 【精品问答】python技术1000问(1) 514148

7 Flink Forward Asia 2021 有奖问答 512925

8 OceanBase 使用动画（持续更新） 359392

9 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329813

10 OSS存储服务-客户端工具 321623

11 为体验实验室取一个新名字。 307507

12 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 304118

13 Win Server 2003-2016 加密勒索事件必打补丁合集 295344

14 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 284243

15 安全组详解，新手必看教程 277356

16 写code还是做管理，开发者如何进行职业规划？ 269223

17 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255892

18 阿里云手机和阿云浏览器连接问题专帖 235703

19 支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】 230206

20 请问阿里云邮箱如何开启SMTP服务啊！ 225901

1 通义APP上新【局部风格化】新功能，万物皆可毛茸茸你体验了吗？ 175

2 一个专属的智能 AI 总结助手，能在多大程度上提升工作效率？ 146

3 宜搭表单中的复选框问题 110

4 AI视频技术的发展是否会影响原创内容的价值？ 825

5 日常工作中，开发者应该如何避免“效率陷阱”？ 467

6 AI 编码助手能否引领编程革命？一起探索 AI 对研发流程的变革 1368

7 宜搭数据管理页面如何把一个字段设置为链接跳转 230

8 AI新茶饮，是噱头还是未来？ 1338

9 开发者们需要如何打造属于自己的Plan B? 620

10 阿里云电脑免费体验30天在哪申请？ 185

11 ACP认证有几次考试机会？ 178

12 动机VS自律，对开发者们来说哪个比较重要？ 682

13 AI音色克隆挑战播客，它能模拟人的特质吗？ 1259

14 阿里云RDS mysql数据库show slave status信息疑问 472

15 求助：宜搭如何在请求数据源时传入参数 220

16 宜搭报表对日期字段赋值 363

17 求助：如何在宜搭自定义表单中获取普通表单子表单中的数据 298

18 AI生成海报or人工手绘，哪个更戳你？ 2444

19 “AI +脱口秀”，笑点能靠算法去创造吗？ 1618

20 宜搭配置更新花名册信息的连接器 424

相关课程

更多

智能运维赛（复赛）：利用数据和算法，快速定位系统异常并进行根因分析

57

1

去学习

智能创作赛（复赛）：相册应用中的视频故事生成算法介绍

29

1

去学习

智能创作赛（初赛）：相册应用中的故事生成算法介绍

21

1

去学习

相册服务中的故事生成算法介绍

62

1

去学习

Go语言核心编程 - 数据结构和算法

1838

47

去学习

神经网络概览及算法详解

1398

36

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

数据+算法定义新世界 立即下载

袋鼠云基于实时计算的反黄牛算法 立即下载

Alink：基于Apache Flink的算法平台 立即下载

相关实验场景

更多