• 字节跳动 Flink 单点恢复功能实践

    作业发生全局重启,只有故障 Task 发生 Failover 非故障 Task 不受影响,正常为线上提供服务 解决思路 当初遇到这些问题的时候,我们提出的想法是说能不能在机器故障下线的时候,只让在这台机器上的 Tasks 进行 ...
    文章 2020-09-29 8720浏览量
  • Oracle Data Recovery Advisor(DRA)数据恢复顾问

    这些Advisor往往是和Oracle自动后台作业绑定,由一个或者多个后台进程进行自动信息收集诊断,并且最后生成诊断建议。 应该说,Advisor是Oracle迈向自动化、智能化的一个重要战略步骤。本篇介绍的Data ...
    文章 2017-07-24 2303浏览量
  • Linux 的 OOM 终结者

    虽然现在已经知道发生了什么,但还是搞不清楚到底是谁触发了这个终结者,然后在早晨5点钟把我吵醒。进一步的分析后找到了答案: proc/sys/vm/overcommit_memory中的配置允许内存的超量使用——该值设置为1,这意味着...
    文章 2017-05-02 1540浏览量
  • 自动化测试—业务线仿真回归流程剖析

    这期间也出过一次不大不小的故障,部分作业因部署的gateway疏忽修改而跑到了线上,好在密码不对,所有操作都被线上集群拒绝了。这样的双重保障最终确保了测试与线上之间的安全隔离,两者互不干扰。除了确保数据的...
    文章 2017-07-03 1316浏览量
  • 宜信微服务任务调度平台建设实践

    在我们公司发生过一个这样的案例,若干年前的一个冬天,我们的一个项目团队用3个月的时间做了一个项目,运行一段时间后发现项目的效果并不是很理想,便将相关的程序都停掉了,却忘了有一个跑批任务的节点还在继续...
    文章 2019-10-22 1816浏览量
  • 如何设计稳定性横跨全球的 Cron 服务

    如果发生故障,很有可能这个任务就被再次执行,因为没有节点知道这个任务已经被执行过了。Cron 任务的完成状态通过 Paxos 通知给其它节点,从而保持同步,这里要注意一点,这里的“完成”状态并不是表示任务是成功...
    文章 2017-06-05 1104浏览量
  • 都在说微服务,那么微服务的反模式和陷阱是什么(一)

    与上面超时的方法相比,使用断路器的方式更为稳妥,这种设计模式就像家里的电器的保险丝一样,当负载过大,或者电路发生故障或异常时,电流会不断升高,为防止升高的电流有可能损坏电路中的某些重要器件或贵重器件,...
    文章 2018-01-09 1729浏览量
  • 规模化落地云原生,阿里云即将重磅亮相 KubeCon China

    议题简介在云时代,企业中基于容器的应用激增,由于人工操作、硬件故障等,发生容器故障的可能性大幅增加。因此,如何在不增加资源投入的情况下保证大规模容器的可靠性成为云平台面临的一个巨大挑战。阿里巴巴运行着...
    文章 2019-06-12 11466浏览量
  • 规模化落地云原生,阿里云即将重磅亮相 KubeCon China

    演讲人阿里云容器平台技术专家 熊欢(宁拙)议题简介在云时代,企业中基于容器的应用激增,由于人工操作、硬件故障等,发生容器故障的可能性大幅增加。因此,如何在不增加资源投入的情况下保证大规模容器的可靠性...
    文章 2019-06-12 2369浏览量
  • 秋招结束面试和面经的总结(个人向)

    基本功能并发与队列一般来说,弹幕数据会通过异步请求或 socket 消息传到前端,这里会存在一个隐患——数据量可能非常大。如果一收到弹幕数据就马上渲染出来,在量大的时候:显示区域不足以放置这么多的弹幕,弹幕会...
    文章 2021-10-10 25浏览量
  • 9月最新184道阿里、百度、腾讯、头条Java面试题合集

    微服务,A服务请求B服务B1接口,B1接口又请求A服务A2接口。会不会有问题?18.不使用高级工具,只使用Linux自带的工具,你会如何debug?如何预估一个mysql语句的性能?20.go函数中,返回值未命名,发生了panic,但是在...
    文章 2019-09-06 2869浏览量
  • 《架构真经:互联网技术架构的设计》水平扩展

    两台设备被配置成高可用性(HA)模式,供应商声称这种配置允许服务在故障发生时可以无缝转移。不幸的是,ZirMed的产品在会话期间依赖状态,并且会话状态无法在一对防火墙之间做优雅失败的平滑配置。克里斯继续说,...
    文章 2017-05-19 2609浏览量
  • 《架构真经:互联网技术架构的设计原则(原书第2版)...

    两台设备被配置成高可用性(HA)模式,供应商声称这种配置允许服务在故障发生时可以无缝转移。不幸的是,ZirMed的产品在会话期间依赖状态,并且会话状态无法在一对防火墙之间做优雅失败的平滑配置。克里斯继续说,...
    文章 2017-05-02 1239浏览量
  • 【双11背后的技术】万亿交易量级下的秒级监控

    Brain被选举出来之后,定时捞出用户的配置,转换为计算作业模型,生成一个周期(比如某分钟的)的任务,我们称之为拓扑(Topology),拓扑也很形象的表现出Map/Reduce多层计算结构的特征。所有任务所需的信息,都保存在...
    文章 2017-01-12 5521浏览量
  • 【合集】规模化落地云原生,阿里云亮相 KubeCon China...

    在云时代,企业中基于容器的应用激增,由于人工操作、硬件故障等,发生容器故障的可能性大幅增加。因此,如何在不增加资源投入的情况下保证大规模容器的可靠性成为云平台面临的一个巨大挑战。阿里巴巴运行着数百万个...
    文章 2019-06-24 10304浏览量
  • 《Kafka Stream》调研:一种轻量级流计算模式

    Batch:将一组作业提交给计算机,返回一组,优势是减少IO等待时间 Stream:Batch异步过程,任务和任务之间没有明显的边界 流计算一般有哪些方式?DIY 简单实现 以wordcount来作例子,我们可以启动一个server,内存中...
    文章 2016-07-27 23822浏览量

云产品推荐

视频直播 大数据计算服务 MaxCompute 国内短信套餐包 ECS云服务器安全配置相关的云产品 开发者问答 阿里云建站 新零售智能客服 万网 小程序开发制作 视频内容分析 视频集锦 代理记账服务 阿里云AIoT 阿里云科技驱动中小企业数字化