可用地点:英国伦敦
关于该职位
我们正在寻找有才华的系统可靠性工程师,来构建和运营我们的边缘平台,该平台在120多个国家的320多个城市运行。我们的 SRE 来自多样的技术背景,并在不同的环境中积累了丰富的知识,但我们所有关注可靠性的工程师都有一个共同点,那就是对自动化、可扩展性和卓越运营的热情。我们以“跟随太阳”的模式支持我们的服务,在东亚、欧洲和北美设有办公室。
这是一个绝佳的机会,可以加入一个高绩效团队,并在 Cloudflare 业务增长的过程中扩展我们的高增长网络。我们处于系统、网络和软件之间的边界,并热衷于改善将它们结合在一起的“胶水”。与我们合作,您将构建工具,以不断提高服务的可用性、性能和运营速度。您将培养对“自动化一切”的热情,使系统具有抗故障能力并准备好扩展。
SRE 专注于全球 Cloudflare 平台的即时状态和功能,利用各种监控、警报和诊断工具,同时开发和增强 Cloudflare 平台及其能力。我们拥有广泛的应用和服务组合,运行开发者和运营者模式的紧密反馈循环。理想的 SRE 候选人对互联网的基本工作原理充满热情,并对网络、Linux 和 TLS 具有深厚的知识,同时具备 Go 或 Python 的编码能力。
该职位可能需要在标准工作时间之外灵活待命,以便根据需要解决技术问题。
必备技能
• 识别问题的能力,能够承担责任并与他人合作解决问题
• Linux 系统经验
• 3 年 SRE 职位或类似职能的工作经验
• 在 Go 或 Python 等某种编程语言中的软件开发技能
• 理解分布式软件系统和大规模系统设计的权衡
• 对常见网络协议(如 DNS 和 HTTP)的中级经验
• 理解路由协议和概念,如 BGP 和 IP anycast
期望的技能、知识和经验
• Linux 内核和 Linux 软件打包的经验
• 性能分析和调试
• 配置管理系统,如 Saltstack、Chef、Puppet 或 Ansible
• 负载均衡和反向代理,如 Nginx、Varnish、HAProxy、Squid 或 Apache
• SQL 数据库
• 时间序列数据库,如 OpenTSDB、Graphite、Prometheus 或 Grafana
• 键/值存储
加分项
• 持续/快速发布工程经验
• 强大的工具和自动化开发经验
• 在 24/7/365 服务环境中工作的经验
• 在大规模生产分布式系统中工作的经验
• 有贡献开源软件的历史
我们使用的一些工具
• Nginx
• PostgreSQL
• Docker
• Prometheus
• Grafana
• Consul
• Nomad
• Salt