要求:
- 7年以上AWS DevOps/基础设施工程经验
- 具有为高增长公司重新设计和扩展生产基础设施的成功经验
- 深入掌握AWS服务,包括RDS、EC2、ELB/ALB、Route53、VPC、IAM和CloudFormation/Terraform
- 具有基础设施加固和合规性经验的强大安全背景
- 具有从传统部署迁移到现代容器编排(Kubernetes/ECS)的经验
- 熟练使用基础设施即代码工具(首选Terraform)
- 精通Python、Go或Bash的脚本编写技能
- 具有GitLab CI/CD管道和基于GitLab的工作流经验
- 在大规模容器编排方面具有Kubernetes专业知识
- 具有监控/可观测性工具的经验(Prometheus、Grafana、DataDog、ELK堆栈)
- 高级GitLab经验,包括GitOps实践、GitLab Runner优化和GitLab安全扫描
- 了解无服务器架构和事件驱动系统
- 具有合规框架经验(SOC2、ISO 27001等)
- 具有支持AI/ML工作负载和数据管道的经验
职责:
- 严格评估我们现有的AWS基础设施设置,包括RDS配置、EC2实例、Nginx负载均衡、Docker Compose部署、目标组和Route53 DNS管理
- 识别当前架构中的安全漏洞和可扩展性瓶颈
- 设计并实施基础设施改进,重点关注高可用性、灾难恢复和自动扩展能力
- 现代化部署策略,从Docker Compose迁移到更具可扩展性的编排解决方案
- 对现有基础设施进行安全审计并实施安全加固措施
- 重新设计网络架构,进行适当的VPC分段、安全组和IAM策略
- 在所有服务中实施秘密管理和静态/传输中的加密
- 建立适合制造业和航空航天领域企业客户的合规框架
- 构建自动扩展解决方案以处理可变工作负载和流量峰值
- 优化数据库性能并为RDS实施适当的备份/恢复策略
- 设计能够处理全球流量分配的负载均衡策略
- 实施缓存层和CDN策略以提高性能
- 全面负责基础设施决策及其实施
- 在最少监督下从构思到完成推动项目
- 在工程组织中建立基础设施标准和最佳实践
- 领导基础设施相关问题的事件响应和事后分析