职位概要
我们正在寻找一名站点可靠性工程师(SRE),以确保我们生产系统的可靠性、可扩展性和性能。SRE将与工程、DevOps和产品团队紧密合作,构建高可用性系统,自动化操作,并在维护服务水平目标(SLO)的同时提高系统可观测性。
主要职责
可靠性与运营
确保生产系统的高可用性、可靠性和性能。
定义、监控和管理SLI、SLO和SLA。
领导事件响应、根本原因分析(RCA)和事后事件审查。
实施主动监控和警报以防止中断。
自动化与工程
使用脚本和基础设施即代码自动化重复的操作任务。
通过工程解决方案而非手动干预来提高系统可靠性。
通过构建工具、自动化和自愈系统来减少繁琐工作。
云与基础设施
在云平台(AWS / Azure / GCP)上设计和管理可扩展的基础设施。
使用Docker和Kubernetes管理容器化工作负载。
实施和维护CI/CD管道以实现安全和频繁的部署。
监控与可观测性
使用以下工具构建和维护可观测性解决方案:
Prometheus, Grafana
ELK / OpenSearch
Datadog, New Relic
跟踪系统性能、容量规划和错误预算。
安全与合规
确保与安全标准一致的可靠性最佳实践。
参与值班轮换并确保系统安全运行。
与安全团队合作实施安全的基础设施实践。
所需技能与资格
计算机科学、工程或相关领域的学士学位。
在Linux/Unix系统管理方面有丰富经验。
至少精通一种脚本或编程语言:
Python, Go, Bash或Java
具有云平台(AWS / Azure / GCP)经验。
具有Kubernetes和容器编排的实践经验。
了解网络基础知识(TCP/IP、DNS、负载均衡)。
具有监控、警报和事件管理经验。
优先/加分技能
具有根据Google SRE原则实施SRE最佳实践的经验。
了解Terraform、Ansible或CloudFormation。
具有服务网格(Istio, Linkerd)经验。
了解混沌工程工具(Gremlin, Chaos Mesh)。
在金融科技、银行或高可用性系统方面的经验。