我们正在寻找一位高级Dev Ops工程师,负责设计、构建和运营可扩展、安全且高可用的平台。该职位专注于自动化、云基础设施、CI/CD、可观测性和可靠性,并与开发、安全和运营团队密切合作。理想的候选人应具备强大的技术专长和Dev Ops思维,负责平台稳定性、交付效率和持续改进。
主要职责
平台与基础设施
设计、构建和管理AWS、Azure、GCP或阿里云的云基础设施
使用Terraform和相关工具实施基础设施即代码(IaC)
确保高可用性、可扩展性、弹性和灾难恢复
优化云成本、性能和资源利用
CI/CD与自动化
使用Jenkins、GitLab CI、GitHub Actions或Azure Dev Ops设计和维护CI/CD流水线
自动化构建、测试、安全扫描和部署流程
实施蓝/绿、金丝雀和滚动部署等部署策略
提高发布频率,同时降低部署风险
容器与Kubernetes
使用Docker构建和管理容器化应用程序
操作Kubernetes集群(本地或托管服务)
管理Helm图表、Kubernetes清单、密钥和配置
排除Kubernetes网络、扩展和性能问题
可观测性与可靠性
实施监控、日志记录和跟踪解决方案(Prometheus、Dynatrace、Datadog、ELK、Open Telemetry)
定义和跟踪SLI、SLO和SLA
参与事件管理、值班轮换和根本原因分析
推动可靠性改进并减少操作负担
安全与Dev Sec Ops
将安全控制集成到CI/CD流水线
实施密钥管理和IAM最佳实践
确保容器、基础设施和流水线的安全
在需要时支持合规性和安全审计
协作与领导力
与开发、QA、安全和架构团队密切合作
指导初级工程师并推广Dev Ops最佳实践
参与架构决策和技术标准
记录系统、运行手册和操作程序
所需技能与经验
技术技能
5年Dev Ops、SRE或云工程经验
强大的Linux系统管理和故障排除技能
具备以下方面的实践经验:
(云平台(AWS / Azure / GCP / 阿里云)
Terraform和基础设施即代码
CI/CD工具和流水线设计
Docker和Kubernetes
熟练掌握脚本和自动化(Bash、Python)
具备监控、日志记录和警报工具的经验
对网络(DNS、HTTP、负载均衡)有扎实的理解
架构与工程
支持微服务架构的经验
理解应用程序性能和可扩展性
从操作角度熟悉SQL和NoSQL数据库
具备高可用性和容错系统的经验
加分技能
SRE实践(错误预算、容量规划)
Git Ops工具(Argo CD、Flux)
服务网格技术
性能测试与调优
平台工程或内部开发者平台
云成本优化(Fin Ops)