大数据汹涌,运维工作不轻松
在Facebook数据中心做运维工作并不轻松,对工作人员的能力要求很高。他们每天面对的是海量数据。
据统计,Facebook目前拥有11.5亿用户,日常登录用户约7.2 亿。每天Facebook 用户分享的内容达到 47.5 亿条,“赞”按钮点击次数近45亿次。Facebook目前存储了2400亿张照片,每月照片存储容量约增加7PB(注,单位换算:1PB=1024TB)。
自动故障诊断系统:原为留住人才
为了管理运维工作,Facebook 已经开发了相应软件来自动化处理日常运维任务,如 CYBORG 可自动检测服务器问题并进行修复。如果 CYBORG 无法自动修复检查出的问题,系统将自动给订单系统发送警告,并分派给数据中心工作人员,以对相应问题进行详细追踪与分析。
Eberly 提到,自动化工作的目标是尽量避免将技术人员派往现场解决问题,除非必须对服务器进行现场处理。强调自动化不是因为 Facebook 对打造无人数据中心感兴趣,原因在于 Facebook 重视自己的员工。
Eberly 解释说:我们要留住人才,因为大家更喜欢高水平的任务,公司希望让他们留下来与我们一起进步成长,这对 Facebook 来说至关重要。