2011年9月18日星期日

使Facebook的自我修复

有趣的新闻的URL:http://rss.slashdot.org/~r/Slashdot/slashdot/~3/9shqwZZ2ypM/Making-Facebook-Self-Healing:

新提交djeps写道:“我用Nagios的事件处理程序脚本和RabbitMQ实现某种程度自动解决问题,但Facebook已经比我的老sysadmin的规模大得多报价:”当你的基础设施的大小Facebook的总是破碎的服务器和软件,已经走了下来或者是一般行为不端件在大多数情况下,我们的系统是设计的,这些问题的原因很少或根本没有影响使用该网站的人。但有时小停电可以成为更大中断,从而导致错误或在网站上表现不佳。一块破碎的软件或硬件,如果不影响该网站,然后它的重要,我们修复或更换尽快... ...我们必须找到一个自动化的方式来处理各种各样的问题,使人类的工程师可以把重点放在解决和预防的更大,更复杂的中断。于是,我开始写脚本,当我有时间的修复破碎的服务器和软件件各类自动化。“


这个故事在Slashdot。






沒有留言:

發佈留言