您将要做的工作
- 定义SLIs/SLOs,维护错误预算,并推动平台可靠性。
- 实施安全的CI/CD,使用自动化测试、蓝绿部署和金丝雀发布(Argo Rollouts)以及自动回滚。
- 加强安全性:镜像签名、SBOM、密钥管理、PodSecurity、NetworkPolicies和即时访问。
- 提高可观测性:OpenTelemetry管道、日志/跟踪关联、仪表板和SLO报告。
- 优化成本:合理配置资源、Karpenter供应、HPA/VPA调优、FinOps实践。
- 领导事件和事后分析;创建运行手册、模板和培训。
- 与产品、后端和安全团队合作进行容量、合规性和路线图规划。
您将使用的技术
AWS、EKS、Argo CD & Rollouts、Terraform/Terragrunt、GitHub Actions、Prometheus/Grafana、OpenTelemetry、Elastic APM、Secrets Manager、Cilium、Aurora/DynamoDB、SQS/SNS/Kafka。