职位描述:
地点:埃德蒙顿
可在靠近CGI办公室的其他地点工作
混合工作模式
我们正在招聘一名高级站点可靠性工程师(SRE),具备构建和运营可靠、可扩展和弹性云平台的坚实基础。您将可靠性和性能工程思维融入到您所做的一切中——在运营稳定性与现代化和自动化之间取得平衡。在这个角色中,您将应用核心的SRE实践,包括SLIs/SLOs、可观察性、事件管理和运营自动化,同时临时支持一个区域支持战略项目,专注于评估和加强大规模运营环境。您将与平台、运营和架构团队密切合作,评估当前的实践,识别可靠性和支持差距,并为定义未来的运营模式和实施路线图做出贡献。除了这个项目之外,该角色还设计用于持续的、动手的SRE交付,您将在云和混合环境中领导和实施监控、可靠性工程、自动化和工具。您将与跨职能团队合作,设计、构建和持续改进平台可靠性、工程标准和运营卓越实践,以支持关键任务服务。这个职位将您置于一个面向客户、高影响力的环境中,您的技术深度、运营判断力以及将可靠性原则转化为实际成果的能力将直接影响服务稳定性、现代化努力和未来的云计划。如果您是一位在复杂环境中茁壮成长并重视动手工程和运营领导的SRE,这个角色提供了一个有意义和持久影响的机会。
您的未来职责和责任:
您是谁?
您是一名高级站点可靠性工程师,擅长解决大规模的复杂可靠性和运营挑战。您充满好奇、善于协作,并持续专注于改进平台、基础设施和服务的运营和支持方式。您的强项在于将合理的工程判断应用于现实世界的运营问题,平衡可靠性、性能和可维护性。您同样擅长动手使用工具和系统,并退后一步评估运营实践、支持模型和工作流如何影响服务可靠性。您可以自信地参与与工程师的技术讨论,同时也能清晰地与运营领导和利益相关者沟通,解释风险、权衡和改进机会。
以持续改进和学习为基础的思维方式,您倡导现代化、自动化和务实的可靠性实践。您因能够识别根本原因而非症状、提前提出担忧,并将可靠性原则转化为实际、可操作的结果而受到信任。您的同行重视您在复杂环境中的技术深度和冷静领导力,团队依赖您提升运营成熟度和执行质量。在CGI,我们认可优秀的SRE从业者,并为他们提供成长、贡献和在项目中产生有意义影响的环境和支持。
职责:
• 开发、运营和改进跨云和混合环境的监控、日志记录和警报能力,同时临时贡献SRE专业知识,以评估和合理化现有的运营监控实践,作为区域支持战略计划的一部分。
• 定义、实施和持续改进平台和服务可靠性的SLIs、SLOs和SLAs,在项目期间应用这些原则以评估当前服务结果并为未来的可靠性目标提供信息。
• 领导和参与事件响应、问题调查和根本原因分析,利用动手的SRE经验识别系统性可靠性问题和区域支持运营中观察到的重复性运营失败模式。
• 设计和自动化可靠性和运营流程,包括与CI/CD管道和运营工作流的集成,同时提供见解以减少手动工作并提高跨区域的支持一致性。
• 与DevOps、平台工程、架构和应用团队密切合作,在项目期间提供SRE领导,并无缝过渡到工具和平台为重的交付角色。
• 分析和记录当前的运营工作流、支持模型和升级路径,将前线运营见解转化为可操作的可靠性和服务改进建议。
• 通过应用SRE和运营卓越原则,贡献未来运营模式和实施路线图的定义,以提高可靠性、支持性和可扩展性。
• 提供定期的状态更新和风险评估,突出运营风险、依赖性和可靠性影响,以支持明智的决策。
成功担任此角色所需的资格:
• 在站点可靠性工程、平台工程或基础设施运营方面有5年以上经验,能够在交付和运营环境中应用可靠性原则。
• 熟练使用可观察性和监控平台,如Grafana、Prometheus、ELK、New Relic或同等工具,能够在复杂环境中评估、设计和改进监控策略。
• 在操作云平台(Azure、AWS和/或GCP)方面有动手经验,包括生产支持、可靠性工程和运营故障排除。
• 使用Python、Bash、Ansible或同等工具进行自动化和脚本编写的强大技能,专注于减少重复性工作并提高运营效率。
• 优秀的英语沟通能力(法语视为资产),能够清晰地向技术和非技术利益相关者阐述技术概念。
• 证明有提高系统可靠性、可用性和运营稳定性的记录,包括可衡量的减少事件频率或影响。
• 在IT或平台运营环境中分析和记录运营工作流、支持模型和升级路径的经验。
• 能够与工程师、运营团队和服务利益相关者一起主持技术和运营研讨会,以验证发现并就改进达成一致。
• 熟悉ITSM/ITIL实践(事件、问题、变更),特别是与可靠性、支持性和运营成熟度相关的实践。
• 在需要文档质量、安全分类和可审计性的受监管、企业或公共部门环境中工作的经验。
CGI为该角色提供合理的薪资范围估计。该范围的确定包括技能水平、地理市场、经验和培训、许可证和认证等因素。薪酬决策取决于每个案例的事实和情况。目前合理的估计范围是$90,–$,. 这个角色是一个未来的机会。
#LI-AB19
在此职位发布中使用“工程”一词是指与信息技术(IT)相关的技术意义,并不意味着个人从事工程或拥有适用省或地区工程监管机构规定的必要许可证。我们正在寻找具有IT工程相关职能专业知识的个人,但该职位不需要工程监管机构的执照。在加拿大,工程是一个受监管的职业,在使用头衔和称号方面受到限制。
技能:
• 财务与运营应用解决方案架构