重庆思庄Oracle、、PostgreSQL、Redhat认证学习论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 118|回复: 0
打印 上一主题 下一主题

周三离职,周四公司的核心数据库就挂了

[复制链接]
跳转到指定楼层
楼主
发表于 2025-6-29 08:16:39 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本故事纯属虚构,如有雷同纯属巧合!  朋友小A这周三从老东家离职,周四就听闻老东家一最核心的库宕机了,而且一宕就是好几天!小A本着八卦的心打听,原来是一个非常小的问题,造成的这次大故障!    我从小A的口述来复盘一下这个故障:这套核心库跑在云上,其中有个数据盘是单独挂载的,并在fstab设置使用的盘符挂载。周四因为云平台异常(bug)导致云主机重启,重启后该盘盘符变化,导致未能正常挂载,而某云运维和小A老东家管理员均为发现是盘符变化导致数据未挂载,从而导致紧急情况下选择从备份恢复,而恢复需要数天! 开始恢复后才发现有盘符未挂载,并非数据丢失!离了大谱🤪🤪!  复盘这个故障,主要有如下几个问题:1.云平台的问题,为什么主机会无故重启,目前给的说法是bug,但是这种级别故障不是一句bug就能搪塞过去的!后续根据SLA条款,某云平台估计会被索赔!2.因为人员变动,新人不了解盘符挂载问题,可能存在疏忽,导致决策重大误判!原本可能几分钟解决故障,造成数天的宕机!3. 云主机异常重启是小概率事件,重启后盘符改变也是小概率事件,正好赶上老员工离职也是小概率事件,多重巧合造成的重大事故!4.最佳实践使用UUID挂载在这里显得尤为重要了!   人生充满了巧合,只要时间拉的够长几乎所有小概率事件的发生都是必然!所以按最佳实践来做实施真的非常重要,可以最大程度避免这些小概率事件!而不是赌我不会运气这么差遇到这种问题!  人生不是什么爽文小说,没有那么多大起大落,快意恩仇!从我个人的道德观念来说,只要是和老东家好聚好散,都会祝福老东家越来越好!今年四月份第一份工作的CIO出差来苏州,还专门叫了我们一帮离职的老员工聚餐,把酒言欢,聊过去畅未来,大部分人就算离开也不会和老东家变得水火不容!这才是绝大多数职场人的现状吧! 所以聊一聊 你们是会骂老东家,还是祝福老东家?
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 支持支持 反对反对
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|手机版|小黑屋|重庆思庄Oracle、Redhat认证学习论坛 ( 渝ICP备12004239号-4 )

GMT+8, 2025-7-16 01:43 , Processed in 0.071096 second(s), 18 queries .

重庆思庄学习中心论坛-重庆思庄科技有限公司论坛

© 2001-2020

快速回复 返回顶部 返回列表