重庆思庄Oracle、、PostgreSQL、Redhat认证学习论坛
标题:
周三离职,周四公司的核心数据库就挂了
[打印本页]
作者:
郑全
时间:
2025-6-29 08:16
标题:
周三离职,周四公司的核心数据库就挂了
本故事纯属虚构,如有雷同纯属巧合! 朋友小A这周三从老东家离职,周四就听闻老东家一最核心的库宕机了,而且一宕就是好几天!小A本着八卦的心打听,原来是一个非常小的问题,造成的这次大故障! 我从小A的口述来复盘一下这个故障:这套核心库跑在云上,其中有个数据盘是单独挂载的,并在fstab设置使用的盘符挂载。周四因为云平台异常(bug)导致云主机重启,重启后该盘盘符变化,导致未能正常挂载,而某云运维和小A老东家管理员均为发现是盘符变化导致数据未挂载,从而导致紧急情况下选择从备份恢复,而恢复需要数天! 开始恢复后才发现有盘符未挂载,并非数据丢失!离了大谱🤪🤪! 复盘这个故障,主要有如下几个问题:1.云平台的问题,为什么主机会无故重启,目前给的说法是bug,但是这种级别故障不是一句bug就能搪塞过去的!后续根据SLA条款,某云平台估计会被索赔!2.因为人员变动,新人不了解盘符挂载问题,可能存在疏忽,导致决策重大误判!原本可能几分钟解决故障,造成数天的宕机!3. 云主机异常重启是小概率事件,重启后盘符改变也是小概率事件,正好赶上老员工离职也是小概率事件,多重巧合造成的重大事故!4.最佳实践使用
UUID挂载
在这里显得尤为重要了! 人生充满了巧合,只要时间拉的够长几乎所有小概率事件的发生都是必然!所以按最佳实践来做实施真的非常重要,可以最大程度避免这些小概率事件!而不是赌我不会运气这么差遇到这种问题! 人生不是什么爽文小说,没有那么多大起大落,快意恩仇!从我个人的道德观念来说,只要是和老东家好聚好散,都会祝福老东家越来越好!今年四月份第一份工作的CIO出差来苏州,还专门叫了我们一帮离职的老员工聚餐,把酒言欢,聊过去畅未来,大部分人就算离开也不会和老东家变得水火不容!这才是绝大多数职场人的现状吧! 所以聊一聊 你们是会骂老东家,还是祝福老东家?
欢迎光临 重庆思庄Oracle、、PostgreSQL、Redhat认证学习论坛 (http://bbs.cqsztech.com/)
Powered by Discuz! X3.2