监控是运维领域的重要组成部分,我们把监控形容为运维的眼睛、耳朵和嘴巴。整个运行的质量状况要靠监控来发现异常,通过告警来通知大家。给大家分享一个最近的真实案例,2018年春节前的最后一个周末2月10号凌晨6点29分,已有同学休假回家,大部分人还在被窝里熟睡的时候,深圳某个机房的机架掉电。直到7点20分,负责机房的同学才告诉我们机房的温度异常升高。26分的时候反馈温度异常原因是空调故障,需要几个小时的恢复时间。来看一下我们的业务监控。6月21分业务视图告警通知到业务运维同学,6点30分,在10分钟之