• 关于

    训练集

    的搜索结果

问题

视频里解释,多任务学习测试机AUC比训练集AUC好,类比于单任务学习,防止过拟合加L2正则

haliwanzi 2019-12-01 19:33:36 1195 浏览量 回答数 1

回答

当你使用较小的数据集进行机器学习时,容易产生过度拟合,因此使用较大的数据量能避免过度拟合现象。但是当你不得不使用小型数据集进行建模时候,可以使用被称为交叉验证的技术。在这种方法中数据集被分为两节,测试和训练数据集,测试数据集只测试模型,而在训练数据集中,数据点被用来建模。 在该技术中,一个模型通常是被给定有先验知识的数据集(训练数据集)进行训练,没有先验知识的数据集进行测试,交叉验证的思想是:在训练阶段,定义一个数据集用来测试模型。 dropout:训练神经网络模型时,如果训练样本较少,为了防止模型过拟合, Dropout可以作为一种trikc供选择。 early stop结合cross validation使用。 尽可能的扩大 training dataset,增加训练集的全面性和数量

珍宝珠 2019-12-02 03:22:19 0 浏览量 回答数 0

回答

我们继续用猫分类器为例,我们说人类在这个任务上能做到几乎完美,所以贝叶斯错误率或者说贝叶斯最优错误率,我们知道这个问题里几乎是0%。所以要进行错误率分析,你通常需要看训练误差,也要看看开发集的误差。比如说,在这个样本中,你的训练集误差是1%,你的开发集误差是10%,如果你的开发集来自和训练集一样的分布,你可能会说,这里存在很大的方差问题,你的算法不能很好的从训练集出发泛化,它处理训练集很好,但处理开发集就突然间效果很差了。 但如果你的训练数据和开发数据来自不同的分布,你就不能再放心下这个结论了。特别是,也许算法在开发集上做得不错,可能因为训练集很容易识别,因为训练集都是高分辨率图片,很清晰的图像,但开发集要难以识别得多。所以也许软件没有方差问题,这只不过反映了开发集包含更难准确分类的图片。所以这个分析的问题在于,当你看训练误差,再看开发误差,有两件事变了。首先算法只见过训练集数据,没见过开发集数据。第二,开发集数据来自不同的分布。而且因为你同时改变了两件事情,很难确认这增加的9%误差率有多少是因为算法没看到开发集中的数据导致的,这是问题方差的部分,有多少是因为开发集数据就是不一样。 为了弄清楚哪个因素影响更大,如果你完全不懂这两种影响到底是什么,别担心我们马上会再讲一遍。但为了分辨清楚两个因素的影响,定义一组新的数据是有意义的,我们称之为训练-开发集,所以这是一个新的数据子集。我们应该从训练集的分布里挖出来,但你不会用来训练你的网络。

因为相信,所以看见。 2020-05-20 17:31:14 0 浏览量 回答数 0

阿里云试用中心,为您提供0门槛上云实践机会!

0元试用32+款产品,最高免费12个月!拨打95187-1,咨询专业上云建议!

回答

为什么ResNets能有如此好的表现,我们来看个例子,它解释了其中的原因,至少可以说明,如何构建更深层次的ResNets网络的同时还不降低它们在训练集上的效率。希望你已经通过第三门课了解到,通常来讲,网络在训练集上表现好,才能在Hold-Out交叉验证集或dev集和测试集上有好的表现,所以至少在训练集上训练好ResNets是第一步。

因为相信,所以看见。 2020-05-20 17:54:26 0 浏览量 回答数 0

回答

所以我想要让一个监督学习算法达到实用,基本上希望或者假设你可以完成两件事情。首先,你的算法对训练集的拟合很好,这可以看成是你能做到可避免偏差很低。还有第二件事你可以做好的是,在训练集中做得很好,然后推广到开发集和测试集也很好,这就是说方差不是太大。 在正交化的精神下,你可以看到这里有第二组旋钮,可以修正可避免偏差问题,比如训练更大的网络或者训练更久。还有一套独立的技巧可以用来处理方差问题,比如正则化或者收集更多训练数据。 总结一下前几段视频我们见到的步骤,如果你想提升机器学习系统的性能,我建议你们看看训练错误率和贝叶斯错误率估计值之间的距离,让你知道可避免偏差有多大。换句话说,就是你觉得还能做多好,你对训练集的优化还有多少空间。然后看看你的开发错误率和训练错误率之间的距离,就知道你的方差问题有多大。换句话说,你应该做多少努力让你的算法表现能够从训练集推广到开发集,算法是没有在开发集上训练的。 如果你想用尽一切办法减少可避免偏差,我建议试试这样的策略:比如使用规模更大的模型,这样算法在训练集上的表现会更好,或者训练更久。使用更好的优化算法,比如说加入momentum或者RMSprop,或者使用更好的算法,比如Adam。你还可以试试寻找更好的新神经网络架构,或者说更好的超参数。这些手段包罗万有,你可以改变激活函数,改变层数或者隐藏单位数,虽然你这么做可能会让模型规模变大。或者试用其他模型,其他架构,如循环神经网络和卷积神经网络。在之后的课程里我们会详细介绍的,新的神经网络架构能否更好地拟合你的训练集,有时也很难预先判断,但有时换架构可能会得到好得多的结果。

因为相信,所以看见。 2020-05-20 17:23:22 0 浏览量 回答数 0

问题

求问一下训练集的问题,各位大神赐教啊

neo_cc 2019-12-01 21:47:26 5012 浏览量 回答数 0

回答

建议每个分类的图片不少于50张,如果图片过少,会存在训练过拟合的情况;并且每个分类下的图片数量相对均匀,建议比例不要超过1:2;训练集和预测集的图片尽量保持一致,包括光线、角度、形状等,可通过将预测集图片添加便签后加入到训练集并在此训练,快速实现。

保持可爱mmm 2020-03-29 16:42:00 0 浏览量 回答数 0

回答

同问,我也遇到同样的问题。 其中Ω代表要判别的人脸,Ωk代表训练集内的某个人脸,两者都是通过特征脸的权重来表示的。式子是对两者求欧式距离,当距离小于阈值时说明要判别的脸和训练集内的第k个脸是同一个人的。当遍历所有训练集都大于阈值时,根据距离值的大小又可分为是新的人脸或者不是人脸的两种情况。根据训练集的不同,阈值设定并不是固定的。 用这个公式试一下阿里云的阕值是多少吧,只能靠猜了。

bw388537 2019-12-02 03:17:22 0 浏览量 回答数 0

问题

什么是训练数据集和测试数据集?

珍宝珠 2019-12-01 22:04:59 55 浏览量 回答数 2

问题

天猫推荐算法大赛Top 3 Fly402 团队访谈

夜之魅 2019-12-01 21:01:43 11323 浏览量 回答数 4

问题

阿里云NLP自学习平台文本分模型评价指标如何得到的?数据集否划分为训练集、验证集和测试集?

游客lg3motdclrui2 2020-07-13 16:19:31 0 浏览量 回答数 0

回答

如果一味的去提高训练数据的预测能力,所选模型的复杂度往往会很高,这种现象称为过拟合,所表现的就是模型训练时候的误差很小,但在测试的时候误差很大。 指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时, 复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。具体表 现就是训练集上效果好,在测试集上效果差。模型泛化能力弱。

珍宝珠 2019-12-02 03:22:19 0 浏览量 回答数 0

问题

训练/开发/测试集划分?

因为相信,所以看见。 2020-05-20 17:16:12 0 浏览量 回答数 1

问题

如何将数据集分割/划分为训练和测试数据集,例如进行交叉验证?

保持可爱mmm 2020-02-08 13:31:25 0 浏览量 回答数 1

回答

果你要做一个计算机视觉的应用,相比于从头训练权重,或者说从随机初始化权重开始,如果你下载别人已经训练好网络结构的权重,你通常能够进展的相当快,用这个作为预训练,然后转换到你感兴趣的任务上。计算机视觉的研究社区非常喜欢把许多数据集上传到网上,如果你听说过,比如ImageNet,或者MS COCO,或者Pascal类型的数据集,这些都是不同数据集的名字,它们都是由大家上传到网络的,并且有大量的计算机视觉研究者已经用这些数据集训练过他们的算法了。有时候这些训练过程需要花费好几周,并且需要很多的GPU,其它人已经做过了,并且经历了非常痛苦的寻最优过程,这就意味着你可以下载花费了别人好几周甚至几个月而做出来的开源的权重参数,把它当作一个很好的初始化用在你自己的神经网络上

因为相信,所以看见。 2020-05-20 17:58:35 0 浏览量 回答数 0

回答

数据的缺失值处理主要依赖于该数据的特征对模型的影响,比如数值型的特征可以选择去除、平均值以及线性插值的方式,具体哪种处理方式更为有效取决于你自己的业务和模型。所以一般在处理完数据后会对数据集进行划分为训练集、验证集、测试集,然后训练并查看结果。

brian.lv 2019-12-02 03:14:18 0 浏览量 回答数 0

回答

你做这件事的方法是正确的。您应该始终将培训和测试数据分开。您正在对传入数据测试模型,因此只能使用从中派生的信息。 在测试中使用训练数据的中位数并不像在训练中使用测试数据那么糟糕,但是请注意,对于这两个数据集,准备数据的过程是不同的。在第一种情况中,使用的是同一数据集的中位数,在第二种情况中使用的是与测试数据集无关的值。 同样,当使用训练集中值时,您必须将它与模型一起保存在某个地方。如果你有1000个功能呢?您必须保存1000个值。如果您想要一个迭代模型,您是否也更新那些值呢? 一个数据集被另一个数据集的信息弄脏的现象称为数据泄漏。

kun坤 2019-12-30 10:00:09 0 浏览量 回答数 0

回答

在类似于机器学习的各个信息科学相关领域中,一组数据被用来发现潜在的预测关系, 称为“训练数据集”。训练数据集是提供给学习者的案例,而试验数据集是用于测试由学习 者提出的假设关系的准确度。

珍宝珠 2019-12-02 03:22:21 0 浏览量 回答数 0

问题

什么是训练,验证,测试集?

因为相信,所以看见。 2020-05-20 15:52:15 1 浏览量 回答数 1

问题

寻找关于我的损失/准确性与历时曲线的宝贵建议

is大龙 2020-03-23 20:20:47 0 浏览量 回答数 1

回答

就是将样本集中的样本每次抽取一个不同的样本作为测试集,剩余的样本作为训练集。需要进行原样本个数次抽取,以进行后续的操作。假设一个.mat文件有310个样本,那么每次抽取一个不同的样本做测试,剩余的299个样本做训练。需要进行310次这样的过程,但是每次选取的做测试的样本是不同的,那么每次训练集的样本也是不同的。由于留一交叉验证的操作的次数十分多,这样选取出来的主成分更具普遍性,可以避免一些不必要的波动,避免一些数据分析时出现有时效果好,有时效果差,这样摇摆不定的情况。因此广受青睐,但是留一交叉验证也有其弊端,样本过多运算时间过长。

asdasdasd222 2019-12-02 01:09:07 0 浏览量 回答数 0

问题

LR训练集构造

leebug 2019-12-01 21:47:09 10935 浏览量 回答数 8

回答

训练集:[4.15 , 8.15] 测试集:(8.15 , 9.15] ------------------------- 回 7楼(踏雪ac) 的帖子 每个队伍的拿到的训练数据肯定是一样的啦,测试集不会有新的用户出现哦

樱木瞎折腾 2019-12-02 02:51:11 0 浏览量 回答数 0

问题

我的spark性能为何这么差?

help@ftp4oss 2019-12-01 19:40:27 1882 浏览量 回答数 1

回答

训练数据集和测试数据集,是机器学习领域,对于数据切分方式不同,而产生的2个概念。 通常做法:将原始数据切分时,将原始数据的80%作为训练数据来训练模型,另外20%作为测试数据,通过测试数据直接判断模型的效果,在模型进入真实环境前不断改进模型;

游客udbbdoswj4ff2 2020-03-06 15:18:43 0 浏览量 回答数 0

回答

有没有可能用一套系统把不同目标识别或者提取出来? 比如医学图像分割领域,针对肾脏、肝脏、肺部的分割,都要独立设计网络来实现,有没有办法统一用同一套更通用的网络? 训练结束后,在众多精度差别不大的网络中,如何选取“最优”网络? 比如在各种开放数据集的比赛中,最终的测试集是提交训练好的网络之后才公布。有这样一种情况: 训练网络的时候,得到了精度为97%(Net-1) 98%(Net-2)的状态,提交的时候选取了98%的Net-2。测试集数据用Net-2测下来精度只有96%。但是,后面使用Net-1来跑测试集却能达到98%。

游客6qg6mflllwwys 2020-02-27 10:11:54 0 浏览量 回答数 0

回答

Re关于购买行为数量 强烈希望阿里在第一赛季能够提供更大规模的数据,虽然目前提供的数据有18万条记录,但是真正的成交量就几千条,如果算某个品牌或者某个用户的成交量少到可怜的几条(很多品牌和用户是这样的),根本没法很好的训练模型。我每次在训练集上F总是perfect,但是到测试集就只有个位数了。询问多位专家后,原来是训练数据太少导致的。

marvel 2019-12-02 02:53:25 0 浏览量 回答数 0

回答

随着业务的变化,需要不断优化模型效果,当前支持添加通过添加训练集,再次训练模型从而优化效果,通过如图所示,可以查看每次训练的模型效果。

保持可爱mmm 2020-03-29 16:42:19 0 浏览量 回答数 0

回答

假设你在开发一个手机应用,用户会上传他们用手机拍摄的照片,你想识别用户从应用中上传的图片是不是猫。现在你有两个数据来源,一个是你真正关心的数据分布,来自应用上传的数据,比如右边的应用,这些照片一般更业余,取景不太好,有些甚至很模糊,因为它们都是业余用户拍的。另一个数据来源就是你可以用爬虫程序挖掘网页直接下载,就这个样本而言,可以下载很多取景专业、高分辨率、拍摄专业的猫图片。如果你的应用用户数还不多,也许你只收集到10,000张用户上传的照片,但通过爬虫挖掘网页,你可以下载到海量猫图,也许你从互联网上下载了超过20万张猫图。而你真正关心的算法表现是你的最终系统处理来自应用程序的这个图片分布时效果好不好,因为最后你的用户会上传类似右边这些图片,你的分类器必须在这个任务中表现良好。现在你就陷入困境了,因为你有一个相对小的数据集,只有10,000个样本来自那个分布,而你还有一个大得多的数据集来自另一个分布,图片的外观和你真正想要处理的并不一样。但你又不想直接用这10,000张图片,因为这样你的训练集就太小了,使用这20万张图片似乎有帮助。但是,困境在于,这20万张图片并不完全来自你想要的分布,那么你可以怎么做呢? 这里有一种选择,你可以做的一件事是将两组数据合并在一起,这样你就有21万张照片,你可以把这21万张照片随机分配到训练、开发和测试集中。为了说明观点,我们假设你已经确定开发集和测试集各包含2500个样本,所以你的训练集有205000个样本。现在这么设立你的数据集有一些好处,也有坏处。好处在于,你的训练集、开发集和测试集都来自同一分布,这样更好管理。但坏处在于,这坏处还不小,就是如果你观察开发集,看看这2500个样本其中很多图片都来自网页下载的图片,那并不是你真正关心的数据分布,你真正要处理的是来自手机的图片。

因为相信,所以看见。 2020-05-20 17:30:02 0 浏览量 回答数 0

问题

想问一下用于在线评测的数据占已给训练集的比例

crazyspider 2019-12-01 21:45:06 3496 浏览量 回答数 2
阿里云大学 云服务器ECS com域名 网站域名whois查询 开发者平台 小程序定制 小程序开发 国内短信套餐包 开发者技术与产品 云数据库 图像识别 开发者问答 阿里云建站 阿里云备案 云市场 万网 阿里云帮助文档 免费套餐 开发者工具 企业信息查询 小程序开发制作 视频内容分析 企业网站制作 视频集锦 代理记账服务 2020阿里巴巴研发效能峰会 企业建站模板 云效成长地图 高端建站