职位:网站可靠性工程(SRE)专家
我们正在寻找一位经验丰富的网站可靠性工程(SRE)专家加入我们的基础设施团队。此角色将负责设计、自动化和运营具有弹性、可扩展性和安全性的云平台。理想的候选人将推动服务可靠性、运营卓越性和自动化,涵盖包括OCI、GCP、私有云、Kubernetes和现代Dev Ops工具链的混合和多云环境。
主要职责
• 操作、监控和维护OCI、GCP和私有云环境中的云原生基础设施,确保高可用性、可扩展性和安全性。
• 使用Kubernetes和Docker部署、管理和优化容器化工作负载。
• 使用Git Lab CI/CD实施Git Ops实践,实现自动化、可审计和可靠的部署。
• 使用Terraform设计和维护基础设施即代码(IaC),执行最佳实践和合规标准。
• 使用Ansible自动化操作工作流程和配置管理。
• 使用Prometheus、ELK和告警框架构建和维护可观测性和监控解决方案。
• 开发操作手册、自动化脚本和文档以减少操作负担并改善事件响应。
• 应用SRE原则,包括SLIs、SLOs、错误预算和事后事件回顾,以持续提高平台可靠性。
• 与开发、安全和平台团队密切合作,以提高系统性能、弹性和效率。
• 执行云、Kubernetes和安全治理的最佳实践。
所需技能和资格
• 6年以上Dev Ops、平台工程或网站可靠性工程(SRE)角色的经验。
• 在OCI、GCP和私有云环境中有丰富的实操经验。
• 在生产环境中具有高级Kubernetes和Docker经验。
• 在Git Lab CI/CD、Git和Git Ops工作流程方面有扎实的专业知识。
• 具有使用Terraform进行基础设施配置的经验。
• 使用Ansible进行强大的自动化和配置管理技能。
• 具有使用监控和可观测性工具(Prometheus、ELK)和告警系统的实操经验。
• 熟练掌握Bash和Python等脚本语言。
• 对云和Kubernetes安全最佳实践有深刻理解。
优先资格
• 具有混合云和多云架构的经验。
• 在应用SRE实践(SLIs、SLOs、错误预算、事件管理)方面有实际经验。
• 熟悉Sonar Qube等代码质量和静态分析工具。
• 相关认证如CKA、CKAD、Terraform Associate、OCI或GCP云认证。