关于职位
作为一名 DevOps/网站可靠性工程师,您将在确保我们数字平台的可靠性和性能方面发挥关键作用。
您将负责支持和增强生产系统的可观察性,维护关键服务的 SLI/SLO,并与开发团队合作,识别可靠性风险并改善系统架构。
必备技能
• CI/CD
• AWS 和/或 GCP
• Python 或 Bash 或 Groovy
• 监控工具如 Datadog
• Ansible
• JMeter
主要职责
• 支持和增强生产系统的可观察性(监控、日志、警报)
• 帮助维护关键服务的 SLI/SLO
• 参与评估服务的生产准备情况
• 与开发团队合作,识别可靠性风险并改善系统架构
• 参与运维自动化,包括 CI/CD 流水线、事件响应和基础设施配置
• 参与关键服务的事件响应和轮班值班
• 参与事件后分析并推动可靠性改进
• 与安全、基础设施和产品团队合作,支持性能、合规性和运营卓越
这是一个全职职位,要求愿意在现场工作,并在需要时参与 24/7 的值班轮换。理想的候选人应具有 5 年以上管理和支持高流量数字平台的经验。