职位描述我们正在寻找一位动手能力强的 DevOps 工程师，负责设计和运营一个跨本地和 AWS 的混合云可观察性堆栈。您将负责遥测——日志、指标、跟踪、警报和仪表板——以帮助团队在大规模下检测、排除故障和预防问题。主要职责 • 设计和维护一个统一的可观察性平台，覆盖 AWS 和本地环境。 • 构建和管理日志管道（ELK/OpenSearch、Logstash、Fluent Bit、Filebeat）。 • 在 Grafana、Kibana 和 CloudWatch 中开发仪表板和警报。 • 部署和扩展 Prometheus、Alertmanager 和 Splunk 以进行指标、跟踪和分析。 • 使用 Terraform、Helm 和 CI/CD 管道自动化基础设施。 • 强制实施 RBAC、数据保留和可观察性的成本优化。 • 推动 SRE 实践——SLI、SLO、错误预算和事件后审查。必备技能 • 4-8 年以上 DevOps/SRE/平台工程经验。 • 精通 Prometheus、Grafana、ELK/OpenSearch、Splunk 和 AWS CloudWatch。 • 精通 Terraform、Kubernetes、Python/Go 脚本和基于 Git 的 CI/CD。 • 对 Linux、网络、容器和分布式系统有扎实的理解。优先考虑 • 具备 SRE 和可观察性即代码概念的经验。 • AWS、Kubernetes 或 Terraform 认证者优先。

软件工程师（DevOps 工程师）

ELLIOTT MOSS CONSULTING PTE. LTD.