加载中
高可用DevHa实践,告诉你生产环境0性能故障是如何做到的!

导读:近日,数列科技 CTO 陆学慧参加 ArchSummit 全球架构师峰会,并进行了题为《0 性能故障是如何做到的:高可用性能领域的 DevHA 实践》的主题演讲,详细介绍了 0 性能故障的实践经验及对...

七年 4 个阶段:滴滴可观测架构演进与实践

一分钟精华速览 在当前阶段,可观测性的建设并没有统一的执行路径。每家公司会根据自身的业务需求、运营模式和规模,形成一套独特的实践方案。为了应对业务规模的扩大和需求的变化,可观测团...

12/01 14:49
726
去哪儿“技术债”偿还实践:如何高效、低风险砍掉50%无用代码?

一分钟精华速览 底层技术是系统稳定运行的基石,往往牵一发而动全身。通过底层技术的优化,有效地管理和减少代码量,能极大提升系统的运行效率。去哪儿网作为业内较早落地“代码瘦身”的企业...

12/01 11:59
537
故障发现、定位提效超 70%,去哪儿可观测体系做了哪些优化?

一分钟精华速览 去哪儿网的原有监控系统在指标数量上展现出了强大实力——上亿指标量和百万级的告警量,但在故障数据方面却稍显不足——订单类故障平均发现时间长达 4 分钟,仅有 20%的订单类...

11/17 15:50
146
APM建设踩了哪些坑?去哪儿旅行分布式链路追踪系统实践

一分钟精华速览 分布式链路追踪系统在企业的APM体系中扮演着重要的角色。本文分享了去哪儿旅行构建分布式链路追踪系统的实践经验。从APM整体架构设计入手,讲述了日志收集、Kafka传输和Flink...

11/03 16:21
415
“1-5-15”原则:中国联通数字化监控平台可观测稳定性保障实践

一分钟精华速览 “只知道系统有问题,但是找不到问题到底出在哪里”,这几乎是大家都面临过、或正在面临的问题。用户在投诉,但是我的指标都是正常的,到底是哪一环出问题了? 本文详细介绍了...

11/03 16:19
44
SRE实战:如何低成本推进风险治理?稳定性与架构优化的3个策略

一分钟精华速览 SRE 团队每天面临着不可控的各类风险和重复发生的琐事,故障时疲于奔命忙于救火。作为技术管理者,你一直担心这些琐事会像滚雪球一样,越来越多地、无止尽地消耗你的团队,进...

10/11 14:06
625
亿级月活的社交 APP,陌陌如何做到 3 分钟定位故障?

一分钟精华速览 本文概述了挚文集团(陌陌和探探母公司)在微服务架构下解决故障定位问题中遇到的痛点、解决方案以及取得的效果。通过构建统一可观测平台,实现了故障快速定位,大幅提升了问...

08/24 16:56
122
如何从用户视角搭建可观测体系?阿里云ECS业务团队的设计思路

一分钟精华速览 互联网平台以业务为中心,以用户为中心,平台的功能服务、质量和用户体验等是关键的目标,仅仅关注后台系统的可用性是不够的,以传统运维的视角来解决故障、做监控会比较被动...

08/24 16:54
37
阿里云故障洞察提效50%,全栈可观测建设有哪些技术要点?

一分钟精华速览 全栈可观测是一种更全面、更综合和更深入的观测能力,能协助全面了解和监测系统的各个层面和组件,它不仅仅是一个技术上的概念,更多地是技术与业务的结合。在“以业务为导向...

08/24 16:52
85
月活近千万,连续 365 天无故障:货拉拉怎么做稳定性指标度量?

一分钟精华速览 每一位被故障折磨的稳定性负责人,都或多或少面临自证的困境:如何证明今年的稳定性工作是出色的?在无法完全避免故障发生的前提下,如何证明稳定性保障工作的价值?在团队和...

08/24 15:18
5.5K
保险业务连续性保障:从测试到生产,混沌平台建设节奏如何把控?

一分钟精华速览 中国信通院最新的调查报告显示,越来越多企业正在尝试通过混沌工程来提高系统稳定性。实验的不同阶段,大家面临着不同的问题,我们尝试从混沌工程推进的不同角度,为大家提供...

06/29 18:08
685
月近万次发布,故障率<4‰如何做到?去哪儿测试左移重难点揭秘!

一分钟精华速览 去哪儿发布的数据显示,在过去一年中,其发布故障率始终保持在 4‰ 以下并不断降低。作为一家出行旅游服务平台,去哪儿网如何在复杂的业务场景下,仍能保持如此低的故障率?其...

06/25 11:54
1.3K
如何减少创建订单、支付等线上写场景漏测?去哪儿流量录制回放实践

一分钟精华速览 流量录制与回放技术在故障排除、性能优化和升级迁移等方面具有重要的应用价值。流量录制是指记录网络通信过程中的数据包,包括请求和响应数据,以便后续分析和调试。流量回放...

06/05 11:43
236
如何在金融企业推进故障演练?中国人寿分阶段实践总结

一分钟精华速览 越来越多企业正在通过故障注入和演练的方式提升系统可靠性,这其中金融行业的应用较为特殊。一方面其可靠性要求比非涉账类系统更高;另一方面金融行业有更加严格的监管要求,...

05/18 18:26
204
服务百万商家的系统,发布风险如何规避?微盟全链路灰度实践

一分钟精华速览 全链路灰度发布是指在微服务体系架构中,应用的新、旧版本间平滑过渡的一种发布方式。由于微服务之间依赖关系错综复杂,一次发布可能会涉及多个服务升级,所以在发布前进行小...

10万字干货:《数字业务连续性提升最佳实践》免费领取|TakinTalks社区

一分钟精华速览 首刊限版400本,没有电子版下载。 100本作为社区福利,免费领取,领完即止!不加印。 为什么会有这本刊物? TakinTalks社区是由业内专家共同发起的、专注业务稳定性提升的技术...

04/21 15:35
205
支撑百万商户、千亿级调用:微盟如何通过链路设计降本40%?

一分钟精华速览 在典型的分布式系统中,用户的一个请求到达组合的前端服务后,前端服务会分发请求到内部的各个服务,每次调用都涉及跨系统的一次请求和一次响应。在有大规模、高并发请求量的...

04/18 16:15
5.1K
“930大促”日活增速超40% ,哈啰如何用预案高效应急?

一分钟精华速览 应急预案,是指在系统出现故障时,为了保障核心业务能够持续可用,而提前准备的指导手册。这个手册可以用来告诉我们:在遇到什么样的问题后,做什么样的操作能最大化地降低对...

04/18 16:14
1.5K
B站容量管理:游戏赛事等大型活动资源如何快速提升10+倍?

一分钟精华速览 当成千上万的服务器都处于低利用率时,就意味着巨额的浪费,良好的容量管理可以帮助消除某些“最后时刻”的临时应急式的盲目或者超量采购。除了成本合理控制方面,容量管理还...

03/27 14:51
1K

没有更多内容

加载失败,请刷新页面

返回顶部
顶部
http://www.vxiaotou.com