面试：现场（2轮）现场地点：新泽西州伯克利高地美国公民和绿卡持有者 • 本地和云环境 • 必须具备云技术知识 • 需具备Kubernetes平台的良好经验 • Azure Redhat OpenShift • Azure Kubernetes 服务 • 任何软件工程经验都是加分项 • 需要具备Linux系统经验 • 将承担强制性的24/7生产支持责任（每几周一次） • 需要有作为升级支持点的经验，以解决复杂问题 • 监督生产变更、安装、测试，并确保遵守IT和审计要求 • 事件恢复，进行根本原因分析，并改善响应流程 • 与开发人员、架构师和跨职能团队合作，提供解决方案职位概述： SRE候选人将在客户的卡服务组织中支持数字组的日常运营。候选人负责为Web门户、Web服务、微服务和其他指定的生产应用程序提供现场服务连续性和升级支持。候选人将与开发团队和技术组密切合作，监控和分类组织不同部门识别的问题。这是一个高绩效文化，候选人必须展示出在金融Web门户上高效、快速工作的能力。您的表现将通过您满足个人和部门目标的能力以及减少服务影响问题的能力来衡量。职责： • 提供24x7的生产互联网应用支持，轮班进行。 • 具备Linux系统的实践理解 • 对云概念有良好的理解 • 作为应用支持的升级点，诊断并解决客户在访问门户和Web服务环境中遇到的复杂问题 • 根据需要推动开放系统SEVerity危机技术桥接和/或管理桥接，并利用经验和组织知识来减少MTTR • 审查交接文件，确保在生产安装之前它们是完整的 • 参与需求收集过程，代表生产环境，确保所有操作方面都被识别和记录。向项目经理提供所有任务和详细估算，审查并批准设计文档，确保理解业务逻辑变更和实施的技术解决方案 • 与变更管理/发布经理合作，审查生产的变更事件建议 • 与FTS和开放系统开发合作，进行项目代码安装，并获得开发和业务组的协助。验证成功实施或回退。 • 记录安装缺陷并为发生的问题分配严重性。在回退后，进行事后分析以识别根本原因分析（RCA） • 直接进行事件恢复，并与跨职能团队合作，解决识别的问题 • 确定并实施事件恢复、事件参与和事件沟通的改进 • 对问题进行趋势分析；预测问题并制定风险缓解计划 • 按管理要求参与内部和外部审计 • 确保监控警报和系统事件被评估、优先级排序并积极处理 • 在适当情况下将问题升级至技术、运营和/或供应商 • 确保数据库/应用程序控制和程序符合企业IT风险 • 支持所有生产环境的灾难恢复测试和实时恢复 • 与卡服务架构师合作，验证和设计企业解决方案和应用监控工具

SRE - Fiserv

ShiftCode Analytics