职位描述
我们正在寻找一位动手能力强的 DevOps 工程师,负责设计和运营一个跨本地和 AWS 的混合云可观察性堆栈。您将负责遥测——日志、指标、跟踪、警报和仪表板——以帮助团队在大规模下检测、排除故障和预防问题。
主要职责
• 设计和维护一个统一的可观察性平台,覆盖 AWS 和本地环境。
• 构建和管理日志管道(ELK/OpenSearch、Logstash、Fluent Bit、Filebeat)。
• 在 Grafana、Kibana 和 CloudWatch 中开发仪表板和警报。
• 部署和扩展 Prometheus、Alertmanager 和 Splunk 以进行指标、跟踪和分析。
• 使用 Terraform、Helm 和 CI/CD 管道自动化基础设施。
• 强制实施 RBAC、数据保留和可观察性的成本优化。
• 推动 SRE 实践——SLI、SLO、错误预算和事件后审查。
必备技能
• 4-8 年以上 DevOps/SRE/平台工程经验。
• 精通 Prometheus、Grafana、ELK/OpenSearch、Splunk 和 AWS CloudWatch。
• 精通 Terraform、Kubernetes、Python/Go 脚本和基于 Git 的 CI/CD。
• 对 Linux、网络、容器和分布式系统有扎实的理解。
优先考虑
• 具备 SRE 和可观察性即代码概念的经验。
• AWS、Kubernetes 或 Terraform 认证者优先。