我们正在寻找一位技术娴熟且积极主动的DevOps/网站可靠性工程师(SRE),要求具有2年以上经验,以帮助我们构建、扩展和维护稳健、安全和高可用性的基础设施。作为DevOps/SRE团队成员,您将与开发、质量保证和运营团队紧密合作,自动化流程、监控系统健康状况,并确保我们服务的可靠性。 这是一个需要强大技术技能、对现代DevOps工具和实践的深入理解以及解决问题思维的实际操作角色。
主要职责:
- 设计、实施和维护CI/CD流水线以实现可靠的代码部署
- 使用Prometheus、Grafana或Datadog等工具监控应用性能和系统可靠性
- 根据最佳实践维护和改进云基础设施(如AWS、GCP、Azure)
- 使用Terraform、Ansible或CloudFormation等工具管理基础设施即代码
- 排查基础设施和应用问题,确保最小停机时间和快速解决
- 自动化重复的操作任务并改进开发工作流程
- 实施和执行安全、备份和灾难恢复策略
- 参与值班轮换,并通过根本原因分析和事后评审响应事件
- 与开发团队紧密合作,确保应用设计满足性能、可用性和可扩展性要求
- 优化跨云环境的资源使用和成本
资格要求:
必需条件:
- 计算机科学、工程或相关领域的学士学位
- 2年以上DevOps、SRE或系统工程角色的经验
- 拥有Linux/Unix系统管理的实际操作经验
- 具备Jenkins、GitHub Actions、CircleCI或GitLab CI等CI/CD工具的经验
- 具备云平台(AWS、GCP、Azure)的工作知识
- 熟悉容器化和编排工具(如Docker、Kubernetes)
- 具有使用Terraform、Ansible或类似工具进行基础设施即代码的经验
- 精通至少一种脚本或编程语言(如Bash、Python、Go)
- 对监控、日志记录和警报系统有深入理解
- 熟悉Git版本控制
优先条件:
- 具有生产环境中Kubernetes管理的经验
- 熟悉安全最佳实践和合规标准
- 理解网络、负载均衡和DNS配置
- 接触过事件管理和SLA/SLO/SLI概念
- 有在敏捷环境中工作的经验