• 遇到虚拟系统内存问题怎么办?Hypervisor帮你除bug

    服务器可靠取决于识别错误并从错误中迅速恢复,否则可能导致服务器上所有虚拟机同时宕机的系统错误,内存错误就是其中一个重要的示例。很多内存错误是容易重现的“软”错误,但如果没有及时解决可能会导致整个...
    文章 2017-07-03 812浏览量
  • DELL服务器硬件错误检查

    顺便也收集了一下DELL 800的电话,希望对大家有帮助,在知道怎么办的时候也可以去问问他们(其实他们也怎么样) 戴尔(dell)售后服务800及400免费电话整理大全 戴尔商用台式机售后服务电话 Optiplex 800-858-0950...
    文章 2017-11-22 2483浏览量
  • 如果,你的DNS提供商遭遇DDoS攻击该怎么办

    很多企业都曾思考或者经历过:当其系统遭受针对分布式拒绝服务攻击会发生什么。多年来,我们看到很多看似灵活的企业由于分布式拒绝服务攻击失去其核心网络业务。特定系统网络中断是一回事;但是,你有没有想过,...
    文章 2017-08-01 1149浏览量
  • Mobileye闯红灯之后,这些问题值得我们深思

    以及基于“安全层”的正式确定性系统,其可以否定“安全”的自动驾驶决策。换句话说,Mobileye并完全信任AI来真正学习“鲁莽”和“安全”之间的区别。Galves表示:Mobileye并没有花费巨大精力来优化AI算法,而是...
    文章 2018-05-29 1088浏览量
  • 分布式系统数据层设计模式

    表示能容忍的从故障发生系统恢复正常运转的时间,这个时间越短,容灾要求越高。RPO,Recovery Point Objective,数据恢复点目标。表示能容忍故障造成过去多长时间的数据丢失,RPO 为 0 表示允许数据丢失。分布式...
    文章 2019-08-03 731浏览量
  • 安筱鹏:拥抱“数据+算法”定义的新世界

    美国国家标准与技术研究院,对智能制造有一个定义,这个定义的核心词,我认为就是要对不确定性系统增加它的确定性。做一个总结,如何能够把正确的数据在正确的时间,以正确的方式传递给正确的人和机器,需要具备两个...
    文章 2018-12-03 2115浏览量
  • 如何做好一名稳定SRE-业务团队系统稳定的思与行

    3.做扁鹊:在系统发生问题时快速解决问题 2.自动化、系统化、数据化SRE不是在做一种收尾型、擦屁股的工作,而是在做一种探索、前瞻的工作,但SRE可避免的,会面对很多重复的工作,所以除了要在组织和机制上...
    文章 2020-10-26 4300浏览量
  • SQLServer灾难恢复

    打开SQLSERVER联机帮助文件,希望从中得到帮助,但是都没有符合我遇到的这个状况,因为我们的日志备份是晚上进行的,到发生故障时为止,没有经过一次备份。现在已经是21:30分,找到SQL的QQ群,向兄弟们求助,得到的...
    文章 2017-11-15 1128浏览量
  • ElasticSearch Reading and Writing documents ...

    另一方面,主分片也不会让其他分片(没有)出现故障(也就是能让自己出现故障,因为自己故障了整个单点集群就算挂了),但是会请求master节点检查自己,这样master节点就会知道只有一个好的主分片,从这个意义上我们...
    文章 2018-10-24 980浏览量
  • 666IDC高防服务器 全年24小时30秒售后回复 有问题找我

    异常排除排除非物理机器,将系统中暂时关注的VM等产生的异常信息排除掉。排除非业务状态的机器,如装机状态中的,包括生产中,维修中,迁移中,重装中,销毁中,重启中,无管控状态,只监控正常状态的机器。排除非...
    文章 2020-05-14 490浏览量
  • 蚂蚁金服冯柯:下一个十年,核心自研技术将迎来黄金...

    因此,在两地三中心的架构下,如果真的发生城市级故障,我们通常也敢把业务切到灾备中心,只能等待故障的数据中心恢复,在这个过程中,系统是无法提供服务的。两地三中心的本质是同一城市内跨数据中心的扩展和...
    文章 2018-05-15 1501浏览量
  • 蚂蚁金服冯柯:下一个十年,核心自研技术将迎来黄金...

    因此,在两地三中心的架构下,如果真的发生城市级故障,我们通常也敢把业务切到灾备中心,只能等待故障的数据中心恢复,在这个过程中,系统是无法提供服务的。两地三中心的本质是同一城市内跨数据中心的扩展和...
    文章 2018-05-15 2586浏览量
  • 新冠这只“黑天鹅”,AI 该如何“驯服”?

    5.模型性能无法改善时,了解模型预测的不确定性。有时候可能并没有好的模型,这种情况下,如何知道你的模型有多不确定吗?此时,可以利用贝叶斯方法返回模型的预测及其置信水平。监测是最重要的。驯服“黑天鹅”,...
    文章 2020-04-23 283浏览量
  • 十个应对数据中心宕机的措施与方法

    虽然数据中心的设计在理论上不会发生故障,但它确实会出现这种情况,因此数据中心运营商将面临非常严峻的情况,特别是托管数据中心。根据最近发生的一些事情,表明托管数据中心遭遇停电和业务中断的后果是十分严重的...
    文章 2017-10-02 1188浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    而我们从客户端(App/PC)到达服务端会涉及到的关键节点就有 CDN、动态加速、高防、应用防火墙、4/7 层负载均衡、前后端服务集、缓存、数据库存储、中间件、基础设施层等等,整个链路都面临着不确定性,比如负载均衡...
    文章 2020-02-18 4569浏览量
  • 【智驾深谈】特斯拉死亡事故官方洗白,业界被判死缓...

    其实这个调查结果只能说Joshua Brown冤死了,这个系统没有缺陷性故障,但是给Joshua Brown给滥用了。其实更深层次的问题在于,随着车辆的复杂提高,主动安全特性增加使得驾驶员对系统的安全增加,在ADAS辅助驾驶...
    文章 2017-08-01 1091浏览量
  • 疫情期,APP 崩了怎么办?阿里工程师公开高可用架构...

    而我们从客户端(App/PC)到达服务端会涉及到的关键节点就有 CDN、动态加速、高防、应用防火墙、4/7 层负载均衡、前后端服务集、缓存、数据库存储、中间件、基础设施层等等,整个链路都面临着不确定性,比如负载均衡...
    文章 2020-02-18 4955浏览量
  • DTCC 2019|深度解码阿里数据库实现 数据库内核——...

    美国的一位教授提出了确定性事务,并基于确定性事务模型创办了一家公司,创建了一个分布式数据库(FAUNA)。确定性事务指事务是完整的,而不是交互型的。比如,在淘宝这种互联网企业处理的都是非确定性事务。非确定...
    文章 2019-05-24 7137浏览量
  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    作为队长,实际上这个时候是没有退路的,因为我心里很清楚,用原来的方法是可能保障双11系统稳定的,所以在第二年一直讨论方案,讨论方案的时候提出来,为了影响线上的用户,我们再做一套数据库。方案想出来了...
    文章 2021-01-06 370浏览量
  • 信息系统项目管理01——信息化和信息系统

    (2)MMTR——平均维护时间,可维护性用此度量,这是系统发生故障后维修和恢复正常花费的平均时间。1.4 软件工程 1 需求 1 好的需求应该具有无二义性、完整性、一致性、可测试性、确定性、可跟踪性、正确性、必要性...
    文章 2020-12-11 117浏览量
  • 阿里如何做好双11技术保障?大队长霜波分享4点经验

    作为队长,实际上这个时候是没有退路的,因为我心里很清楚,用原来的方法是可能保障双11系统稳定的,所以在第二年一直讨论方案,讨论方案的时候提出来,为了影响线上的用户,我们再做一套数据库。方案想出来了...
    文章 2021-01-06 2586浏览量
  • 阿里集团搜索中台TisPlus

    这样的架构执行目标确定,前往目标的路径也是确定的,最大的问题是中间执行的任务节点出现错误,遇到问题都需要人工接入处理,让系统先达到稳定正常状态,再继续操作。这样的架构体系冒失并没有什么不妥的地方。这...
    文章 2018-01-26 6739浏览量
  • 我们总结了每个技术团队都会遇到的 4 个难题

    另外,核心交易链路的梳理,也是一个体力活,如果依赖人为处理,有可能会漏掉一些看起来不那么重要的”分支”,这是整个容量不确定的地方,可变的因子很多。比较有效的方式,是在生产系统部署全链路压测,来验证各个...
    文章 2019-03-13 3170浏览量
  • 一个复杂系统的拆分改造实践

    经历过这个事情后,我们马上设想出现脏数据的各种场景,然后上线了三个清理脏数据的job,以防其它可预知的产生脏数据的故障场景,以后只要遇到出现脏数据的故障,直接触发这三个清理job,先恢复再排查。...
    文章 2017-01-04 7657浏览量
  • Uber首席系统架构师Matt Ranney:可伸缩的软件系统...

    但是我们可以了解Uber的调度系统,怎样实行地理空间索引,怎样规划他们的系统,怎样实行高利用率和怎样处理失败,包括令人惊讶的方式处理数据中心故障,使用驱动的手机作为恢复外部分布式存储系统。在Matt的报告中,...
    文章 2016-03-17 3519浏览量
  • Uber首席系统架构师Matt Ranney:可伸缩的软件系统...

    但是我们可以了解Uber的调度系统,怎样实行地理空间索引,怎样规划他们的系统,怎样实行高利用率和怎样处理失败,包括令人惊讶的方式处理数据中心故障,使用驱动的手机作为恢复外部分布式存储系统。在Matt的报告中,...
    文章 2017-11-20 1717浏览量
  • 2019年美团、滴滴、蘑菇街Java岗9次面试总结

    spark的通信模型,集群发生故障怎么办。spark的执行流程。java中有哪些锁。synchronized为什么是重量级锁。如果工作中提出合理的需求你会怎么办。怎么看待加班。实习时间。过了几天面试官说面试通过,过几天老板...
    文章 2019-07-24 1658浏览量
  • 罕见故障!数据库对象编号达到最大值,必须重新建库!

    我们对于危机的恐惧不在于到底有多艰难,而在于危机发生不确定性。所以,通过我们的苦难,写这篇文章,给你们大家一个预警。增加一个监控告警,最高级别,每天最大对象编号增长超过10万,就告警。做运维就是这样,...
    文章 2017-05-15 1814浏览量
  • 车联网上云最佳实践(一)

    由于高速公路在此期间免费的政策,导致越来越多的人们开始选择驾车出行或出游,所以每当节假日来临时必然导致车联网用户暴增,这个洪峰流量来临的时间和流量是不确定的。如何能准确做好每次节假日出行高峰预测是个...
    文章 2018-08-31 2926浏览量
  • 为什么说传统分布式事务不再适用于微服务架构

    这可能持续一个不确定的时间,尤其是在系统已经表现出高延迟时或者网络故障导致失去连接时。依据目前的成功经验,可用一般是更好的选择,但是在服务和数据库之间维护数据一致是非常根本的需求,微服务架构中应...
    文章 2017-07-03 1565浏览量
1 2 3 4 5 >

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化