职位概要
我们正在寻找一位技术娴熟且经验丰富的云工程师负责人(一级),以支持跨商业云平台的商业运营的云基础设施。此角色需要具备管理多云环境的经验,主要是在亚马逊网络服务(AWS)上,并具备微软Azure和谷歌云平台(GCP)的知识。理想的候选人将展示出强大的基础设施即代码(IaC)能力、全面的操作系统生命周期和补丁操作、应用程序部署和故障排除专业知识,以及积极的运营领导能力。此角色强调动手的技术熟练度、安全意识、自动化驱动的实践、指导能力,以及熟悉网络分离环境中的严格正常运行时间、合规性和审计要求。
主要职责
多云基础设施运营
· 在AWS、微软Azure和谷歌云平台上操作和维护生产中的云原生服务:
· 具有云服务的实际操作经验,包括:Lambda、ECS/EKS、FSx、Glue、SES、GuardDuty、WAF、Shield Advanced、Security Hub、KMS、Secret Manager、SNS、SQS、EventBridge、API Gateway、EC2、S3、CloudWatch、Systems Manager、Azure虚拟机、Azure Kubernetes服务(AKS)、Azure Functions、Azure存储、Azure Monitor、Compute Engine、Google Kubernetes Engine(GKE)、Cloud Functions、Cloud Storage、Cloud Monitoring
· 监控和故障排除所有平台上的基础设施性能、正常运行时间和可扩展性
· 支持生产和暂存环境,确保24/7的可靠性目标
· 能够参与24/7轮班,以提供全天候的运营支持,并协助二级工程师团队进行技术问题的实际故障排除。
基础设施即代码(IaC)
· 具备工作知识,能够使用以下之一维护基础设施部署管道:Terraform、Ansible和/或Azure资源管理器(ARM)模板
· 故障排除多云环境中的环境漂移和管道故障。
· 促进并有权推动云操作中的自动化和持续改进计划。
· 实施和维护基础设施部署的GitOps实践
操作系统生命周期和补丁管理
· 使用AWS Patch Manager、Azure Update Management、WSUS、SCCM和YUM/DNF领导RHEL(v8到v10)和Windows Server(2016→2025)的操作系统补丁操作
· 维护Linux管理的基本知识,并在Wintel操作系统补丁和管理方面具有深厚的专业知识
· 在所有环境中安排、自动化和跟踪补丁
· 协调补丁批准并确保符合组织政策
· 执行每月和每季度的补丁周期,尽量减少干扰
· 执行补丁后的验证和补救活动
应用程序部署和故障排除
· 在Windows和Linux操作系统上部署和故障排除应用程序
· 支持应用程序团队进行操作系统级别的诊断和性能优化
· 与开发团队合作解决基础设施和操作系统相关的应用程序问题
· 实施和维护应用程序监控和警报框架
安全和合规性
· 在云平台上执行CIS(互联网安全中心)安全补救措施
· 根据CIS基准和政府安全基线进行安全加固
· 使用Trend Micro Vision One、Qualys、Tenable和AWS Config等工具进行漏洞补救
· 跟踪所有环境中的SSL证书续订
· 识别和补救包括操作系统版本和Lambda运行时在内的生命周期终止(EOL)组件
· 支持符合政府级别的安全、审计和监管要求
容器和DevSecOps
· 展示对容器技术(Docker、Kubernetes、ECS、EKS、AKS、GKE)的知识
· 熟悉或了解使用SHIP-HATS(安全混合集成管道 - Hive敏捷测试解决方案)在新加坡政府技术堆栈下的DevSecOps实践
· 支持CI/CD管道操作并与安全扫描工具集成
ITIL和服务管理
· 遵循ITIL流程,包括事件、问题、变更和请求管理
· 通过ServiceNow、Jira或类似平台管理和解决ITSM票据
· 推动工程团队和利益相关者之间的ITSM票据升级
· 协调变更管理活动,并与初级工程师一起参与变更咨询委员会(CAB)审查。
· 维护服务级别协议(SLA)和运营级别协议(OLA)
工具集成和可观测性
· 集成第三方工具,包括NGINX、监控仪表板和可观测性堆栈
· 配置和维护跨多云环境的指标、日志和警报的可观测性工具
· 使用CloudWatch、Azure Monitor和GCP Cloud Logging实施日志聚合和分析
文档和知识管理
· 创建和维护全面的基础设施运行手册、系统文档、变更跟踪日志和分配的应用程序的基础设施架构设计。
· 制定标准操作程序(SOP)和知识库文章
· 通过细致的文档纪律确保审计准备
· 维护配置管理数据库(CMDB)和资产清单
领导力和指导
· 为二级和初级工程师提供技术指导和指导
· 领导技术讨论和架构审查
· 促进知识转移会议和培训计划
· 作为复杂技术问题的升级点
· 推动持续改进计划和最佳实践采用
软技能和能力
· 问题解决 – 复杂多云系统的高级故障排除
· 沟通 – 与技术和非技术团队、利益相关者和管理层进行清晰有效的沟通
· 领导力 – 能够指导团队并推动技术计划
· 协作 – 跨工程、安全和业务团队的跨职能团队合作
· 适应性 – 在快速变化的环境中响应迅速且有效
· 责任心/注重细节 – 承担结果和服务交付的责任,确保准确和安全的实施
· 客户导向 – 支持性、服务导向的方法与利益相关者管理
· 持续学习 – 跟随不断发展的云和安全实践
· 韧性 – 在压力下和事件响应期间表现出色
· 指导 – 培养和支持初级团队工程师
主题专家期望 – 角色行为
此主题专家(SME)角色要求:
· 精通亚马逊网络服务,并具备Azure和GCP的工作知识
· 在关键正常运行时间和合规驱动的环境中有丰富经验
· 对初级和中级工程师具有强大的指导和领导能力
· 在事件预防和运营卓越方面具有积极主动的举措
· 在事件处理方面采取冷静、结构化和有条理的方法,严格遵循变更管理和事件响应流程
· 具有全面文档实践的审计准备心态
· 能够有效推动升级和管理利益相关者沟通
· 在新加坡政府技术框架内工作的经验
技术技能和经验
领域
所需技能
云平台
具有亚马逊网络服务或微软Azure或谷歌云平台的生产经验
基础设施即代码
Terraform、ARM模板
操作系统
Windows Server(2012/2016/2019/2022/2025),基本到中级的Linux/RHEL管理
补丁管理
AWS Patch Manager、Azure Update Management、WSUS、SCCM、YUM/DNF、隔离网络Linux仓库
应用程序支持
操作系统级别的应用程序部署、故障排除和性能优化
安全和加固
CIS基准、安全补救、漏洞管理、IAM最佳实践
容器
Docker、Kubernetes、ECS、EKS、AKS
DevSecOps
熟悉SHIP-HATS和/或DevSecOps框架
ITIL和ITSM
事件、问题、变更、请求管理;ServiceNow、Jira
SSL/证书管理
端到端SSL证书生命周期和续订跟踪
脚本和自动化
PowerShell、Bash、Python、AWS CLI、Azure CLI、gcloud CLI
文档
运行手册、SOP、日志和技术文档
所需资格
· 计算机科学、信息系统或相关领域的学士学位
· 至少3年商业云工程角色的经验
· 至少2年公共部门或受监管的云环境经验
· 至少3年AWS或微软Azure或谷歌云平台的实际操作经验
· 在24/7运营支持环境中具有轮班经验
· 在指导和领导初级工程师方面表现出色
· 在ITIL流程和ITSM平台方面有丰富背景,具有CIS安全加固和补救经验
· 熟悉新加坡政府技术标准和框架(例如SHIP-HATS、IM8政策)
优先认证
· AWS认证解决方案架构师 – 助理/专业
· AWS认证系统运维管理员 – 助理(优先)
· 微软认证:Azure管理员助理或Azure解决方案架构师专家
· 微软认证:Windows Server混合管理员助理
· RHCE或Linux专业学院认证(LPIC)
· ITIL v3/v4基础
工作安排
· 此角色需要参与24/7轮班,以支持关键基础设施操作
· 在事件、维护窗口和变更实施期间可能需要延长工作时间
· 作为轮班计划的一部分,承担随叫随到的支持职责
· 在正常办公时间外灵活工作,以进行补丁活动和紧急响应