前有Gitlab删库,后有AWS误删服务器,乌龙频发我们该如何防范?

  • 时间:
  • 浏览:0

把需用删除的数据移动到某个特定文件夹下,计划任务定时清理这人 文件夹

keller.zhou 已获得淘公仔 qq克隆好友 链接去分享

bearyes 已获得淘公仔 qq克隆好友 链接去分享

改进朋友儿的灾备机制,并在主机上凸显出数据恢复的作用。就是 ,朋友儿本身 会从“阻止工程师在生产主机上运行某个命令“这人 角度来实现安全。不可能 ,即使朋友儿把禁用rm命令,也这样是阻止工程师本身 犯运行 rm -rf /important-data 命令的错误,为甚给这人 法子本身 能阻止诸如磁盘损坏,不可能 有些不可能 因为分析数据丢失的情况指在。

杨周 qq克隆好友 链接去分享

为嘛哪些地方地方大公司 不做 多重备份以及实时备份,不可能 有难度?

西秦说云 已获得王坚新著《在线》 qq克隆好友 链接去分享

是人总会犯错,这样机器这样多再。这样低级的失误因为分析这样严重后果充分暴露了大公司执行工作程序运行漏洞,这哥们惨了……

一直 以来,我都确实直接到生产线上敲命令是本身 非常不好的习惯。我认为,另另三个白公司的运维能力的强弱和你上线上环境敲命令是有关的,你越是喜欢上线敲命令你的运维能力就越弱,越是通过自动化来出理 问題,你的运维能力就越强。

全是马后炮,装叉犯,删了就删了嘛,多大点事情,谁这样多再犯点错。还煞有介事地在这里说些不着调的法子。

理由如下:

fourmi qq克隆好友 链接去分享

王坚新著《在线》 x 1

让机器去判断,怎么让机器为甚知道你是真的要去删哪些地方地方服务器,还是打错字母了呢?

这人 倒霉的程序运行员会被开除吗?

其一,不可能 说对代码的改动全是一次发布的话,这样,对生产环境的任何改动(包括硬件、操作系统、网络、软件配置……),也都是否一次发布。这样从前的发布就应该走发布系统和发布流程,要被很好的测试、上线和回滚计划。

关键是,走发布过程是需用被记录、追踪和回溯的,而在线上敲命令是删改无法追踪的。这样知道你敲了哪些地方命令。

其二,真正良性的运维能力是——人管代码,代码管机器,而全是人管机器。你敲了哪些地方命令这样知道,但有了你写个工具做变更线上系统,这人 工具干了哪些地方事,看看工具的源码就知道了。

cnssr4bb1t qq克隆好友 链接去分享

浮生递归 qq克隆好友 链接去分享

线上运维操作的前一天设计影响系统黑名单。系统难以知道运维人员是全是真的要进行相应操作,还是打错字母误操作,怎么让针对有些系统的更改在日常运维权限下一定是不可接受的,如本次故障中被影响的核心系统Index和Placement,系统检查到命令会影响相应黑名单中系统应拒绝当前命令执行。

我把etc拖走了 livecd进去修了一下午

shizeqing qq克隆好友 链接去分享

任何事情都这样十全十美的 鱼和熊掌不可兼得 实时更新bug当然需用线上操作 主要还是应该分情况而定吧

出理 结果:下午1:54分恢复正常。

绝世傲立 已获得定制笔记本 qq克隆好友 链接去分享

Windows的删除有个回收站功能,是个不错的法子,它全是立即删除,怎么让恢复又快,不知是否需用借鉴一下?

1892988267967496 qq克隆好友 链接去分享

1953688799298128 qq克隆好友 链接去分享

传说中的打错另另三个白字母瘫痪半个互联网!

秋水鸣蛙 qq克隆好友 链接去分享

1461587759184916 qq克隆好友 链接去分享

这样,这人 程序运行猿打错命令有这样责任?肯定有。怎么让,在出理 角度可靠的云服务时,每一次操作都应该按照严格的程序运行,每另另三个白命令全是经过足够的审核。除非这人 程序运行员在操作过程中不可能 偷懒省略了有些必要的步骤,怎么让,这次事故更多是系统的责任,不可能 系统这样足够的机制来出理 错误的指在。人,全是会犯错的,这样机器这样多再。

建立第二机制,所有操作这样对第一序列有效。第二序列与第一序列共用控制机制,但只具有次时效的记忆。第一序列失败,控制机制解除对第一序列的控制,控制第二序列,

小柒2012 qq克隆好友 链接去分享

vling qq克隆好友 链接去分享

应该需用审核机制,当执行命令输入复审下。

1012988794233826 qq克隆好友 链接去分享

从来不赞同线上模式敲代码,这删改就是 不负责任。记得学git的前一天看见过的话,这样提交的代码,全是白敲的。随时备份,以及代码审核是真的好习惯!

ghost-ai qq克隆好友 链接去分享

让从前人去审核,看上去需用出理 有些错误,怎么让人及 总会犯错误的,怎么让让职位更高级别的人来审核,他不一定知道具体的技术细节,以至于审核到里面就就是 走个过场罢了。

朋友儿认为理想的环境,应该是那种即使你犯了错误删了数据,完会 轻易恢复,并保证对系统影响最小的环境。这就要求我要日常执行有些流程,怎么让要容易测试,容易回滚。

寒心 qq克隆好友 链接去分享

2.线上运维操作的前一天设计影响系统黑名单。系统难以知道运维人员是全是真的要进行相应操作,还是打错字母误操作,怎么让针对有些系统的更改在日常运维权限下一定是不可接受的,如本次故障中被影响的核心系统Index和Placement,系统检查到命令会影响相应黑名单中系统应拒绝当前命令执行。

减少非必要错误的操作。减少操作出错的不可能 性,管理好服务器用户的权限,出理 操作失误引起数据丢失

许多人说,当然!但全是人质疑,多重备份就安全了吗?就算所有的备份都可用,就是 可出理 地会有数据的丢失,或是也会有就是 问題。

采用raid磁盘阵列存储系统来进行相应的存储工作。采用raid磁盘阵列存储需用减少相关问題产生,加强服务器的磁盘容错功能。即便指在服务器瘫痪、自然灾害等极为恶劣的情况下,假若硬盘依然健在,这样,就需用第一时间恢复其正常操作。

1.思路类似大楼备用发电机,整栋停电的前一天备用发电机接管来提供必要的电力,不致于造成恐慌,在这人 case场景下,即使线上命令删除一大批核心服务器,也应有响应的备份服务器接管,怎么让这批资源正常运维权限下不可被删除,以确保出現误操作的前一天服务不至于彻底挂掉。

始终确实操作出現了差错前一天就使流程冗杂化、投入更多人力这人 行为是比较蠢的,比如找另另一1人及 在旁边看着,另另一1人及 double check

瓜跑跑丶 qq克隆好友 链接去分享

比如:

程序运行员是否应该在线上环境直接敲命令?

许多人说,需用,怎么让干从前的事情时,得另另一1人及 干,从前人在旁边看着。

你完会 出理 误操作。首先应该确保工作人员的休息时间。国内互联网崇尚加班,容易让开发人员疲劳工作。对于开车,朋友儿知道这样疲劳驾驶,操作服务器也是一样的。此外,朋友儿需用有些手段,来提醒相关的人员,朋友儿的服务器有点儿要,比如生产环境的shell使用红色,开发环境使用黄色,测试环境使用绿色等等,不同的颜色需用让朋友儿的维护人员提高警惕。也要注意,对于有些操作,尽不可能 的选折 由机器完成,而全是人工完成,降低人员出错的不可能 。

淘公仔 x 3

是否应该做好多重备份?

操作执行的严格度对应所产生行为的后果的重要度

把各种操作行为及命令分成不同的级别

1级行为或命令,负责人1人出理

2级行为或命令,处负责人外,加进去去另另三个白监督员确认后再执行

3级,再增加团队主管

4级,部门主管

5级,更高级别

以此类推

朋友儿先来回顾一下3月2日事件

3月2日AWS声称,输错命令因为分析了亚马逊网络服务(AWS)出現持续数小时的故障事件。

故障因为分析:亚马逊简单存储服务(S3)团队当时在调试另另三个白问題,该问題因为分析S3计费系统的出理 效率单位比预期来得慢。太平洋标准时(PST)上午9:37,一名获得授权的S3团队成员使用前一天编写的playbook,执行一条命令,该命令旨在为S3计费流程使用的其中另另三个白S3子系统删除少量服务器。遗憾的是,输入命令时输错了另另三个白字母,结果删除了一大批本不该删除的服务器。

似水的旧岁月 已获得淘公仔 qq克隆好友 链接去分享

定制笔记本 x 1

授权也指在问题,不可能 授权了代表我同意这次操作,为甚给你无法监管到这次操作的正确性,就是 对于这人 另另三个白命令改变未来的指令不可能 少进行,不可能 增加这人 操作的流程,同時 再执行命令中要得到更角度次的审核

程序运行员在线上环境直接敲命令,当在执行需用用另外另另一1人及 授权确认后完会 运行,不可能 机器识别出来是危险的指令全是有警告,从前的话需用减少类似事故的指在。多重备份确实好,怎么让它也就是 一段时间执行备份,2次备份里面会有一定的时间间隔,不可能 恢复到最近的另另三个白备份点,这样备份点到事故指在的数据这样了,也会造成一定的损失。

要出理 错误操作所造成的数据丢失和服务器故障,首先加强权限的管理,要想出理 数据丢失所造成的损失,每天全是对重要的数据进行必要的数据备份。出理 数据库故障引起的数据丢失。将数据库存储在单独的服务器中,出理 应用服务器故障引起的数据丢失。

我干过类似的……shell脚本修改权限,传值没获取到,因为分析整个服务器所有文件都变成0777权限……