系统可靠性工程师 (SRE), 边缘

伦敦 10天前全职 网络
面议
可用地点:英国伦敦 关于该职位 我们正在寻找有才华的系统可靠性工程师,来构建和运营我们的边缘平台,该平台在120多个国家的320多个城市运行。我们的 SRE 来自多样的技术背景,并在不同的环境中积累了丰富的知识,但我们所有关注可靠性的工程师都有一个共同点,那就是对自动化、可扩展性和卓越运营的热情。我们以“跟随太阳”的模式支持我们的服务,在东亚、欧洲和北美设有办公室。 这是一个绝佳的机会,可以加入一个高绩效团队,并在 Cloudflare 业务增长的过程中扩展我们的高增长网络。我们处于系统、网络和软件之间的边界,并热衷于改善将它们结合在一起的“胶水”。与我们合作,您将构建工具,以不断提高服务的可用性、性能和运营速度。您将培养对“自动化一切”的热情,使系统具有抗故障能力并准备好扩展。 SRE 专注于全球 Cloudflare 平台的即时状态和功能,利用各种监控、警报和诊断工具,同时开发和增强 Cloudflare 平台及其能力。我们拥有广泛的应用和服务组合,运行开发者和运营者模式的紧密反馈循环。理想的 SRE 候选人对互联网的基本工作原理充满热情,并对网络、Linux 和 TLS 具有深厚的知识,同时具备 Go 或 Python 的编码能力。 该职位可能需要在标准工作时间之外灵活待命,以便根据需要解决技术问题。 必备技能 • 识别问题的能力,能够承担责任并与他人合作解决问题 • Linux 系统经验 • 3 年 SRE 职位或类似职能的工作经验 • 在 Go 或 Python 等某种编程语言中的软件开发技能 • 理解分布式软件系统和大规模系统设计的权衡 • 对常见网络协议(如 DNS 和 HTTP)的中级经验 • 理解路由协议和概念,如 BGP 和 IP anycast 期望的技能、知识和经验 • Linux 内核和 Linux 软件打包的经验 • 性能分析和调试 • 配置管理系统,如 Saltstack、Chef、Puppet 或 Ansible • 负载均衡和反向代理,如 Nginx、Varnish、HAProxy、Squid 或 Apache • SQL 数据库 • 时间序列数据库,如 OpenTSDB、Graphite、Prometheus 或 Grafana • 键/值存储 加分项 • 持续/快速发布工程经验 • 强大的工具和自动化开发经验 • 在 24/7/365 服务环境中工作的经验 • 在大规模生产分布式系统中工作的经验 • 有贡献开源软件的历史 我们使用的一些工具 • Nginx • PostgreSQL • Docker • Prometheus • Grafana • Consul • Nomad • Salt