我们正在寻找一位动手能力强的 DevOps 工程师,负责设计和操作混合云可观察性堆栈,涵盖本地和 AWS 环境。您将负责遥测——日志、指标、追踪、警报和仪表板,以帮助团队在大规模环境中检测、排查和预防问题。
主要职责
• 设计并维护 AWS 和本地环境之间统一的可观察性平台。
• 构建和管理日志管道(ELK/OpenSearch、Logstash、Fluent Bit、Filebeat)。
• 在 Grafana、Kibana 和 CloudWatch 中开发仪表板和警报。
• 部署和扩展 Prometheus、Alertmanager 和 Splunk,用于指标、追踪和分析。
• 使用 Terraform、Helm 和 CI/CD 管道自动化基础设施。
• 强制执行 RBAC、数据保留和可观察性的成本优化。
• 推动 SRE 实践——SLI、SLO、错误预算和事件后审查。
所需技能
• 4–8 年以上 DevOps/SRE/平台工程经验。
• 精通 Prometheus、Grafana、ELK/OpenSearch、Splunk 和 AWS CloudWatch。
• 精通 Terraform、Kubernetes、Python/Go 脚本和基于 Git 的 CI/CD。
• 扎实的 Linux、网络、容器和分布式系统的理解。
优先考虑
• 具备 SRE 和可观察性即代码概念的经验。
• AWS、Kubernetes 或 Terraform 认证者优先。