• 这些“秘密武器”,让你轻松跻身Kaggle前2%

    基于此特征,可能是因为一个故障,或者因为这个特征在违约者中很常见。了解泄漏特征的问题所在能让你更快地进行调试。理解为什么特征会泄漏 模型监控 由于featexp可计算两个数据集之间的趋势相关性,因此它可以很...
    文章 2018-11-29 1479浏览量
  • 企业级IT运维平台的发展趋势与规划要点

    趋势预测:进行历史数据拟合等算法,进行资源趋势/容量预测。例如,主机CPU,交换页不足、内存不足、存储不足会逐渐导致系统故障或应用故障,该系统建立关联模型,提醒用户可能后继会发生系统故障或应用故障。在故障...
    文章 2018-11-09 5109浏览量
  • 双11 背后的全链路可观测性:阿里巴巴鹰眼在“云原生...

    第一,历史故障推演,历史故障相当于已经知道标准答案的考卷,通过部分历史故障+人工经验来构建最初的诊断模型,然后迭代推演其余的历史故障,但是这一步出来的模型容易出现过拟合现象;第二,利用混沌工程模拟常见...
    文章 2019-12-20 2062浏览量
  • 干货:如何选择适当的机器学习算法

    SVM的优点是精度高,对避免过拟合有很好的理论保障,而且只要有了适当的核函数,哪怕数据在基本特征空间中不是线性可分的,SVM也能运行良好。在解决高维空间是常态的文本分类问题时,SVM特别受欢迎。SVM的缺点是消耗...
    文章 2018-07-12 3572浏览量
  • 稳定性保障6步走:高可用系统大促作战指南!

    作者|雍雍来源|阿里技术公众号一 前言...脚本常见故障排查方式、核心告警止血方式(强弱依赖不可用等),业务相关日志捞取脚本等。3)告警&大盘应包含业务、系统集群及中间件告警监控梳理结果,核心业务以及系统...
    文章 2021-03-08 2744浏览量
  • 手把手教你从零搭建深度学习项目(附链接)

    由于训练时间较短,即使训练数据集不够大,也可以避免过拟合。这种迁移学习在各个学科都很有效,例如用预先训练好的英语模型训练汉语模型。然而,这种迁移学习仅适用于需要复杂模型来提取特征的问题。在我们的项目中...
    文章 2018-05-14 6400浏览量
  • 一文助你解决90%的自然语言处理问题(附代码)

    故障排除(客户请求,支持票据,聊天记录) 社交媒体中出现的灾难」数据集 本文我们将使用由 CrowdFlower 提供的一个名为「社交媒体中出现的灾难」的数据集,其中: 编者查看了超过 1 万条推文,其中包括「着火」、...
    文章 2018-02-05 7620浏览量
  • 量化项目管理案例:缺陷趋势预测利器(1)

    不知身为软件工程师的你,在写代码时是不是有这样的经历:一方面对自己写的代码信心满满,一方面又非常希望知道自己开发的代码的质量到底多高。如果代码真的没被测出bug来或者测出的bug较少时,反而有点担心——...
    文章 2017-07-03 1724浏览量
  • 机器学习到底是什么?

    评估:一旦算法在训练数据上表现良好,它将再次使用没有见的数据进行测量。此过程允许你防止过度拟合,但这种情况仅发生在学习算法运行良好同时又与你的训练数据相关的情况下。优化:该模型针对目标应用程序内的...
    文章 2018-07-23 5593浏览量
  • 带你读《Python机器学习》之一:机器学习基础

    基于贝叶斯定理的一类算法统称为贝叶斯方法,该类算法是为了解决不定性和不完整性问题提出的,对于解决复杂设备不确定性和关联性引起的故障有很大的优势,在多个领域中获得广泛应用,主要用来解决分类和回归问题。...
    文章 2019-11-16 2415浏览量
  • 预测分析:R语言实现.

    此外,本章还会涉及正则化的重要概念,它可以用于避免预测模型常见的一种瑕疵—过拟合(over fitting)。第3章会对前一章里线性模型的思想进行扩展,方法是引入广义线性模型的概念。虽然这类模型有很多示例,但本章...
    文章 2017-05-02 8831浏览量
  • 神马搜索如何提升搜索的时效性?

    通过一些时间敏感的Patten做Attention来确定Query是否可以和某些时间敏感的词进行搭配,如果Query和这些时间敏感词的搭配比较合理在搜索语料中也比较常见,那么这个Query是时间敏感的Query的概率自然也会比较高,...
    文章 2020-07-01 1950浏览量
  • 神马搜索如何提升搜索的时效性?

    通过一些时间敏感的Patten做Attention来确定Query是否可以和某些时间敏感的词进行搭配,如果Query和这些时间敏感词的搭配比较合理在搜索语料中也比较常见,那么这个Query是时间敏感的Query的概率自然也会比较高,...
    文章 2020-07-08 1669浏览量
  • 令人拍案叫绝的Wasserstein GAN

    由于判别器作为一个神经网络可以无限拟合这个分隔曲面,所以存在一个最优判别器,对几乎所有真实样本给出概率1,对几乎所有生成样本给出概率0,而那些隔不开的部分就是难以被最优判别器分类的样本,但是它们的测度为...
    文章 2017-08-01 1326浏览量
  • 预测分析:R语言实现2.1 线性回归入门

    最简单和最常见的回归类型就是线性回归。本章要探讨为什么线性回归如此常用,以及它的局限性和扩展问题。2.1 线性回归入门 在线性回归(linear regression)中,输出变量是通过输入特征的一个线性加权组合来预测的...
    文章 2017-05-02 1828浏览量
  • 头一回见!提升10倍效率,阿里给业务校验平台插上了AI...

    意识好的或者是出问题的系统,可能会去配置一些校验任务,比如每隔1小时,去跑一次离线计算任务,判断这段时间内是不是有数据故障出现,但是这种方式时效性较差,然后每个系统团队的对账方式都比较零散随意,我们...
    文章 2018-12-12 16248浏览量
  • 双12根本不在话下,阿里首次揭秘扛双11的千亿级特征...

    我们对不同频次的特征采用不同的正则系数,以避免局部过拟合,最大化测试准度。在性能方面,猜你喜欢场景累计的全量数据,包含了千亿规模的特征和万亿规模的样本,单个样本平均一百个特征,在5600核16TB内存的资源...
    文章 2017-12-13 3016浏览量
  • 时序数据的数据预处理

    题目说明*初赛初赛提供11000条渔船北斗数据,数据包含脱敏后的渔船ID、经纬度坐标、上报时间、速度、航向信息,由于真实场景下海上环境复杂,经常出现信号丢失,设备故障等原因导致的上报坐标错误、上报数据丢失、...
    文章 2020-01-18 1509浏览量
  • 6万字解决算法面试中的深度学习基础问题(三)

    常见的是&xff0c;为后续的分类做降维处理。线性判别分析是特征抽取的一种方法。特征抽取又可以分为监督和无监督的方法。监督的特征学习的目标是抽取对一个特定的预测任务最有用的特征&xff0c;比如线性判别分析&xff08...
    文章 2022-04-26 49浏览量
  • 双12根本不在话下,阿里首次揭秘扛双11的千亿级特征...

    我们对不同频次的特征采用不同的正则系数,以避免局部过拟合,最大化测试准度。在性能方面,猜你喜欢场景累计的全量数据,包含了千亿规模的特征和万亿规模的样本,单个样本平均一百个特征,在5600核16TB内存的资源...
    文章 2017-12-13 2236浏览量
  • 饿了么技术往事(下)

    后面很多看起来轻而易举的事情 —— 午高峰线上故障容灾、全面上云、全站底层容器及调度系统的升级等等 —— 没有这次架构演进将会很艰难。体会和教训: 多数据中心——多数据中心核心解决高可用诉求和容量带来的...
    文章 2020-11-26 6662浏览量
  • 如何解决大规模机器学习的三大痛点?

    我们对不同频次的特征采用不同的正则系数,以避免局部过拟合,最大化测试准度。在性能方面,猜你喜欢场景累计的全量数据,包含了千亿规模的特征和万亿规模的样本,单个样本平均一百个特征,在5600核16TB内存的资源...
    文章 2017-12-14 4348浏览量
  • 双11专栏|EdgeRec:电商信息流的端上推荐系统

    目前多序列建模中常见的建模方式为&xff1a;隐式交互。各个序列分别独立建模&xff0c;然后将结果进行拼接&xff0c;在最后的MLP阶段再进行隐式交互。Cross attention建模。以曝光序列和点击序列为例&xff0c;在attention中&...
    文章 2021-11-19 282浏览量
  • 视频监控落地四要素:预测、检测、报警及定位

    比如在维度D上指标M有异常波动,可以将D拆分成D1,D2,D3来对比,常见的具体情况比如机房对照、分组对照、版本对照、终端类型对照等等,如果在监测数据层级清晰的基础上,我们可以一层一层的钻取数据做A/Btest,...
    文章 2017-07-05 1642浏览量
  • 工程设计论——如何写好工程代码

    例如最优化设计中就没有需求变更,logo设计中就没有系统故障。如果认同需求是设计的共同点,那么搞清楚需求是什么则是重要的。大部分人都认为,在我们的实际工作中,需求是不明确的,不完整的。那我们不妨用辩证的...
    文章 2022-02-14 1901浏览量
  • 应用运维智能化的关键技术——《应用智能运维实践...

    其中包括用于主动发现图4-1 常见的应用智能运维场景潜在风险的应用运行期风险主动探伤、用户数字体验保障与优化、风险定位与根源问题分析&xff0c;以及应用运行期负载趋势预测与容量规划等。围绕这些场景&xff0c;我们...
    文章 2021-07-06 563浏览量
  • CPU 利用率从 10%提升至 60%:中型企业云原生成本优化...

    试点业务要适中,小的业务没有代表性,而如果业务大,一旦出现问题,后果会很严重。在试点业务成功实践之后,再推动到公司的核心业务。核心业务有足够的代表性和说服力,只有在核心业务落地才可能在全公司全面...
    文章 2022-06-07 36浏览量
  • 分享实录|阿里巴巴代码缺陷检测探索与实践

    这些补丁生成的方法主要有三大局限,首先是准确率低,主要体现在Overfitting(过度拟合)问题上,意思是生成的修复片段和现实中工程师实际的修复方式不同,有些修复甚至是面向测试用例的修复而不是面向真实缺陷的...
    文章 2020-03-05 4765浏览量
  • 干货|关于机器学习的知识点,全在这篇文章里了

    当对算法进行训练时,过度的训练将会导致过拟合,即拟合曲线与数据完美拟合,但是失去了泛化能力,为检测过拟合我们需要用测试集进行验证,称为统计中的交叉验证,它是模型选择中的一部门:为模型选择正确的参数,...
    文章 2019-08-29 3386浏览量
  • 分辨真假数据科学家的20个问题及回答

    答:正则化项是保证模型平滑性的一个调节参数,它可以起到防止过拟合的作用。正则化的通常做法,是将已有的权重向量经过L1(Lasso)或者L2(ridge)变换,当然变换也可以是其他形式。最终的模型优化目标,是加入了正则化...
    文章 2017-05-31 1757浏览量
1 2 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化