我们正在寻找一位高级开发运维工程师，负责设计、构建和运营可扩展、安全且高可用的平台。该职位专注于自动化、云基础设施、CI/CD、可观察性和可靠性，并与开发、安全和运营团队密切合作。理想的候选人应具备强大的技术专长和开发运维思维，能够对平台稳定性、交付效率和持续改进负责。主要职责平台与基础设施 - 设计、构建和管理AWS、Azure、GCP或阿里云上的云基础设施 - 使用Terraform和相关工具实施基础设施即代码（IaC） - 确保高可用性、可扩展性、弹性和灾难恢复 - 优化云成本、性能和资源利用率 CI/CD与自动化 - 使用Jenkins、GitLab CI、GitHub Actions或Azure DevOps设计和维护CI/CD流水线 - 自动化构建、测试、安全扫描和部署流程 - 实施蓝/绿、金丝雀和滚动部署等部署策略 - 提高发布频率，同时降低部署风险容器与Kubernetes - 使用Docker构建和管理容器化应用程序 - 运营Kubernetes集群（本地或托管服务） - 管理Helm图表、Kubernetes清单、密钥和配置 - 排查Kubernetes网络、扩展和性能问题可观察性与可靠性 - 实施监控、日志记录和跟踪解决方案（Prometheus、Dynatrace、Datadog、ELK、OpenTelemetry） - 定义和跟踪SLI、SLO和SLA - 参与事件管理、值班轮换和根本原因分析 - 推动可靠性改进并减少操作负担安全与开发安全运维 - 将安全控制集成到CI/CD流水线中 - 实施密钥管理和IAM最佳实践 - 确保容器、基础设施和流水线的安全 - 在需要时支持合规性和安全审计协作与领导力 - 与开发、QA、安全和架构团队密切合作 - 指导初级工程师并推广开发运维最佳实践 - 参与架构决策和技术标准制定 - 记录系统、运行手册和操作程序所需技能与经验技术技能 - 5年开发运维、SRE或云工程经验 - 强大的Linux系统管理和故障排除技能 - 实际经验包括： - 云平台（AWS / Azure / GCP / 阿里云） - Terraform和基础设施即代码 - CI/CD工具和流水线设计 - Docker和Kubernetes - 精通脚本和自动化（Bash, Python） - 具备监控、日志记录和警报工具的经验 - 对网络（DNS, HTTP, 负载均衡）有扎实理解架构与工程 - 支持微服务架构的经验 - 理解应用性能和可扩展性 - 从运营角度熟悉SQL和NoSQL数据库 - 具备高可用性和容错系统的经验加分技能 - SRE实践（错误预算、容量规划） - GitOps工具（Argo CD, Flux） - 服务网格技术 - 性能测试和调优 - 平台工程或内部开发者平台 - 云成本优化（FinOps）

高级DevOps工程师

International New