Riot Games成立于2006年,由一群有创业精神的游戏玩家组成,他们相信以玩家为中心的游戏开发可以带来优秀的游戏。2009年,Riot发布了他们的首款游戏《英雄联盟》,受到了评论家和玩家的好评。作为全球最受欢迎的电脑游戏,每个月有超过1亿人玩。玩家是我们社区的基石,我们不断发展和改进《英雄联盟》的体验就是为了他们。
我们正在寻找谦逊但雄心勃勃、聪明敏锐的专业人士,他们可以教会我们一些东西。我们承诺回报你的善意。像我们一样,你对游戏非常认真;你对游戏充满激情。我们欢迎那些有不同见解、敢于尝试,并且对限制持有健康的漠视态度的人。
这就是你的角色。
服务可靠性专员 - Riot运营中心
Riot运营中心(ROC)负责管理Riot面向玩家的服务的24x7监控和响应组成部分。当我们的任何线上服务出现问题时,我们是第一道防线。我们利用对最佳实践流程的技术熟悉程度,快速解决问题。该团队帮助创建并指导其他Riot团队在警报、监控和运营流程方面的最佳实践。
作为一名服务可靠性专员,你将与线上运营团队和Riot全球密切合作,为玩家建立和维护一个高性能和高可用性的游戏服务。你将监控和支持LIVE生产环境、开发环境和一般系统需求的所有方面。你的技术技能和对系统集成的理解将帮助你诊断和沟通潜在问题给Riot员工和社区,提高玩家体验的质量。你将成为操作和故障处理技能的大师。在棘手的情况下,团队可以指望你作为积极主动的个人来引导解决方案,专注于解决影响运行线上游戏的各个方面的日常问题。你还将参与中等复杂度的项目,以帮助不断改进故障管理和可观察性问题领域的整体服务质量。
职责:
• 故障处理和调查线上事件,并带领团队处理线上事件
• 在快节奏的分布式系统环境中执行技术恢复服务操作,特别是微服务,以快速恢复服务并保护玩家体验
• 使用可观察性工具监控Riot的分布式服务的健康状况,识别警报、运行步骤、流程或工具的差距
• 开发、审计和维护运行手册,保持文档最新
• 创建培训材料并帮助新团队成员入职
• 在日常工作中指导团队成员提高他们的技能,成为技术升级的重要参考人
• 在重大发布、活动和发布部署期间提供支持和协调
• 与Riot其他组织成员建立关系,推动沟通和战略对齐
• 接受过事件指挥官培训,能够推动事件解决
• 在没有或几乎没有指导的情况下参与项目工作,开发自动化脚本、工具和新流程,不断改进故障管理流程
• 记录事件响应的详细信息,进行事件回顾和质量检查,以识别问题并改进整体故障管理/响应
• 根据需要参加事后故障分析会议
所需资格:
• 计算机科学/IT系统/信息技术文凭、副学士学位或等同学历
• 4年以上服务可靠性管理或等同角色的工作经验(系统分析师、系统管理员/工程师、线上运营、网络管理员、NOC工程师等)
• 在事件管理方面具备权威性发言,并对ITIL流程有良好的理解
• 熟悉操作系统、网络、软件开发生命周期(SDLC)和敏捷方法论的核心概念
• 在高容量、高可用性和高分布式环境中具备高级故障排查技能
• 有以下工具/平台的经验:
• 监控解决方案,如Datadog、NewRelic、Nagios、Elastic Search、Grafana
• 事件管理工具,如BigPanda、Moogsoft
• 基于ITIL的工单系统,如ServiceNow、JIRA
期望资格:
• 理解关系型数据库如MySQL、CI/CD流水线,尤其是Jenkins
• 在线上环境中进行部署的经验是一个加分项
• 在基于容器的生态系统(如Docker)中工作,并使用容器调度器(如Kubernetes、Amazon EKS/ECS或GKE)
• AWS云服务经验/认证/培训或等同经验,Linux+和Network+或等同经验
• 使用Python、Powershell、JavaScript或Bash构建自动化脚本/工具/作业的经验
• 熟悉站点可靠性工程(SRE)原则和最佳实践
请不要忘记附上简历和求职信。我们收到很多申请,但我们会注意到一个有趣、写得好的介绍,向我们展示你对游戏的认真态度。
注意:职位可能会有变动,请参考招聘网站获取最新信息(职位编号:SBJ-G337)。