首席云工程师

圣弗朗西斯科 10天前全职 网络
面议
卓越云中心(CCoE)负责在旧金山范围内提供关键任务基础设施,以提供基本公共服务。CCoE提供集中管理的基础设施服务,面向旧金山市和县的50多个部门。服务内容包括设计和架构,以及日常运营支持,以确保商业云提供商和服务的最佳性能、安全性、可用性、弹性和成本。 理想的候选人对通过改进和现代化IT基础设施以及倡导公共云服务来服务旧金山居民感到兴奋。 职位: 旧金山市和县技术部(DT)正在寻找一位经验丰富的首席云工程师,帮助设计、开发和维护服务于多个旧金山市和县部门的商业云基础设施。此职位将重点关注灾难恢复,并通过利用公共云基础设施来提高城市服务的弹性。 工作职责: - 担任云团队负责人。 - 为构建弹性云基础设施提供思想领导。 - 主动与DT灾难恢复(DR)团队和城市部门合作,领导应用程序和系统DR的云基础设施开发,包括数据迁移。 - 协助领导记录事件或紧急情况下系统DR恢复的流程和程序。 - 在任何紧急情况或中断期间,提供技术领导、故障排除和系统恢复。 - 为开发针对多个城市部门和应用程序优化的城市商业云服务贡献云专业知识和知识。 - 向业务合作伙伴咨询并建议云技术的最佳实践、效率和经济性。 - 架构、构建、操作、部署和维护安全、可扩展和高可用的商业云基础设施。 - 将业务系统和数据迁移到用于生产和灾难恢复环境的商业云基础设施。 - 开发和维护软件解决方案/框架,以在商业云平台中自动化云配置和管理。 - 设计和实施云原生解决方案,以实现快速但可靠的功能增强,并进行云容量规划。 - 与城市开发、应用程序、运营和安全团队协作,确保解决方案满足功能和非功能需求。 - 收集和分析操作系统和应用程序的指标,以协助性能调优和故障查找。 - 配置和部署云成本管理、云预算和大规模云能力。 - 创建和实施云基础设施最佳实践和指南,以支持审计和各种合规性。 - 开发和利用自动化工具,以确保商业云环境的运营和财政管理的一致性、效率、透明性和安全性。 - 增强和维护灾难恢复和业务连续性计划,包括识别关键系统以及设计和实施备份/恢复流程。 - 实施和维护运营监控和警报系统,以主动识别和解决问题/中断,并作为24x7的负责人,与云提供商升级问题解决。 - 创建、管理和维护操作程序范围(SOPs),包括标准操作程序、配置、经验教训、根本原因分析、诊断步骤和解决方案,以解决事件。 - 研究和评估行业趋势,以持续改进基础设施解决方案。 - 提供24小时随叫随到的支持,以确保关键任务系统和网络的软件或硬件问题快速恢复。 职位类型: 该永久豁免全职职位根据宪章不参与竞争性公务员考试程序,并应由任命官员自行决定。该项目职位的预期持续时间为三十六(36)个月,不会产生合格名单或永久公务员招聘。 工作性质: 在职者必须愿意根据部门确定的工作时间(例如,每周40小时)工作。可能需要在旧金山内旅行。 在职者必须是加利福尼亚州的居民,或愿意在开始与旧金山市和县的工作后4周内搬迁。 工作地点: 在职者将在技术部(1 S Van Ness, Ave San Francisco, CA 94103)进行大部分工作。然而,可能会有需要在旧金山市其他地点工作的情况。 该职位不支持完全远程工作。员工在获得主管批准后,可能被允许采用混合工作时间表,此后每两周必须至少有两天在办公室工作。