职位:首席站点可靠性工程师 (SRE)
职位描述:
地点:
埃德蒙顿
可接受靠近CGI办公室的其他地点
混合工作模式
我们正在招聘一名高级站点可靠性工程师 (SRE),他在构建和运营可靠、可扩展和弹性云平台方面具有坚实的基础。您将可靠性和性能工程思维应用于所做的一切——在运营稳定性与现代化和自动化之间取得平衡。在此角色中,您将应用核心SRE实践——包括SLIs/SLOs、可观察性、事件管理和运营自动化——同时临时支持一个区域支持战略参与,重点是评估和加强大规模运营环境。
您将与平台、运营和架构团队密切合作,评估当前状态实践,识别可靠性和支持差距,并为定义未来状态运营模型和实施路线图做出贡献。除了这一参与之外,该角色还设计用于持续的、实际操作的SRE交付,您将在其中领导和实施跨云和混合环境的监控、可靠性工程、自动化和工具。
您将与跨职能团队合作,设计、构建和持续改进平台可靠性、工程标准和关键服务的运营卓越实践。这个职位将您置于一个面向客户、高影响力的环境中,您的技术深度、运营判断力和将可靠性原则转化为实际成果的能力将直接影响服务稳定性、现代化努力和未来的云计划。如果您是一位在复杂环境中茁壮成长的成熟SRE,并重视实际操作的工程和运营领导力,那么这个角色为您提供了一个创造有意义和持久影响的机会。
您未来的职责和责任:
您是谁?
您是一位高级站点可靠性工程师,擅长解决复杂的可靠性和运营挑战,充满好奇心、协作精神,并始终专注于改进平台、基础设施和服务的运营和支持。您的强项在于将合理的工程判断应用于现实世界的运营问题,平衡可靠性、性能和可维护性。您同样擅长实际操作工具和系统,并退后一步评估运营实践、支持模型和工作流程如何影响服务可靠性。
您能够自信地与工程师进行技术讨论,同时也能清晰地与运营领导者和利益相关者沟通,解释风险、权衡和改进机会。
以持续改进和学习为基础的心态,您倡导现代化、自动化和务实的可靠性实践。您因能够识别根本原因而非症状、及早提出担忧并将可靠性原则转化为实际、可操作的结果而受到信任。您的同事重视您在复杂环境中的技术深度和冷静领导力,团队依赖您提升运营成熟度和执行质量。
在CGI,我们认可优秀的SRE从业者,并为他们提供成长、贡献和在各项任务中产生有意义影响的环境和支持。
职责
• 开发、运营和改进跨云和混合环境的监控、日志记录和警报功能,同时临时贡献SRE专业知识,以评估和合理化现有运营监控实践,作为区域支持战略计划的一部分。
• 定义、实施和持续改进平台和服务可靠性的SLIs、SLOs和SLAs,在参与过程中应用这些原则以评估当前状态服务结果并为未来状态可靠性目标提供信息。
• 领导和参与事件响应、问题调查和根本原因分析,利用实际操作的SRE经验识别系统性可靠性问题和区域支持运营中观察到的重复性运营失败模式。
• 设计和自动化可靠性和运营…