Service Reliability Specialist

16 months agoFull-time
Riot Games

Riot Games

location Singapore
unsaved
Riot Games成立于2006年,由一群有创业精神的游戏玩家组成,他们相信以玩家为中心的游戏开发可以带来优秀的游戏。2009年,Riot发布了他们的首款游戏《英雄联盟》,受到了评论家和玩家的好评。作为全球最受欢迎的电脑游戏,每个月有超过1亿人玩。玩家是我们社区的基石,我们不断发展和改进《英雄联盟》的体验就是为了他们。 我们正在寻找谦逊但雄心勃勃、聪明敏锐的专业人士,他们可以教会我们一些东西。我们承诺回报你的善意。像我们一样,你对游戏非常认真;你对游戏充满激情。我们欢迎那些有不同见解、敢于尝试,并且对限制持有健康的漠视态度的人。 这就是你的角色。 服务可靠性专员 - Riot运营中心 Riot运营中心(ROC)负责管理Riot面向玩家的服务的24x7监控和响应组成部分。当我们的任何线上服务出现问题时,我们是第一道防线。我们利用对最佳实践流程的技术熟悉程度,快速解决问题。该团队帮助创建并指导其他Riot团队在警报、监控和运营流程方面的最佳实践。 作为一名服务可靠性专员,你将与线上运营团队和Riot全球密切合作,为玩家建立和维护一个高性能和高可用性的游戏服务。你将监控和支持LIVE生产环境、开发环境和一般系统需求的所有方面。你的技术技能和对系统集成的理解将帮助你诊断和沟通潜在问题给Riot员工和社区,提高玩家体验的质量。你将成为操作和故障处理技能的大师。在棘手的情况下,团队可以指望你作为积极主动的个人来引导解决方案,专注于解决影响运行线上游戏的各个方面的日常问题。你还将参与中等复杂度的项目,以帮助不断改进故障管理和可观察性问题领域的整体服务质量。 职责: • 故障处理和调查线上事件,并带领团队处理线上事件 • 在快节奏的分布式系统环境中执行技术恢复服务操作,特别是微服务,以快速恢复服务并保护玩家体验 • 使用可观察性工具监控Riot的分布式服务的健康状况,识别警报、运行步骤、流程或工具的差距 • 开发、审计和维护运行手册,保持文档最新 • 创建培训材料并帮助新团队成员入职 • 在日常工作中指导团队成员提高他们的技能,成为技术升级的重要参考人 • 在重大发布、活动和发布部署期间提供支持和协调 • 与Riot其他组织成员建立关系,推动沟通和战略对齐 • 接受过事件指挥官培训,能够推动事件解决 • 在没有或几乎没有指导的情况下参与项目工作,开发自动化脚本、工具和新流程,不断改进故障管理流程 • 记录事件响应的详细信息,进行事件回顾和质量检查,以识别问题并改进整体故障管理/响应 • 根据需要参加事后故障分析会议 所需资格: • 计算机科学/IT系统/信息技术文凭、副学士学位或等同学历 • 4年以上服务可靠性管理或等同角色的工作经验(系统分析师、系统管理员/工程师、线上运营、网络管理员、NOC工程师等) • 在事件管理方面具备权威性发言,并对ITIL流程有良好的理解 • 熟悉操作系统、网络、软件开发生命周期(SDLC)和敏捷方法论的核心概念 • 在高容量、高可用性和高分布式环境中具备高级故障排查技能 • 有以下工具/平台的经验: • 监控解决方案,如Datadog、NewRelic、Nagios、Elastic Search、Grafana • 事件管理工具,如BigPanda、Moogsoft • 基于ITIL的工单系统,如ServiceNow、JIRA 期望资格: • 理解关系型数据库如MySQL、CI/CD流水线,尤其是Jenkins • 在线上环境中进行部署的经验是一个加分项 • 在基于容器的生态系统(如Docker)中工作,并使用容器调度器(如Kubernetes、Amazon EKS/ECS或GKE) • AWS云服务经验/认证/培训或等同经验,Linux+和Network+或等同经验 • 使用Python、Powershell、JavaScript或Bash构建自动化脚本/工具/作业的经验 • 熟悉站点可靠性工程(SRE)原则和最佳实践 请不要忘记附上简历和求职信。我们收到很多申请,但我们会注意到一个有趣、写得好的介绍,向我们展示你对游戏的认真态度。 注意:职位可能会有变动,请参考招聘网站获取最新信息(职位编号:SBJ-G337)。