可靠性负责人,公共服务

纽约 11天前全职 网络
143.2万 - 210.6万 / 年
CoreWeave是AI的核心云™。由先锋为先锋打造,CoreWeave提供了一个技术、工具和团队的平台,使创新者能够自信地构建和扩展AI。受到领先的AI实验室、初创公司和全球企业的信任,CoreWeave结合了卓越的基础设施性能和深厚的技术专业知识,以加速突破并将计算能力转化为能力。CoreWeave成立于2017年,并于2025年3月成为一家上市公司(纳斯达克代码:CRWV)。了解更多信息,请访问www.coreweave.com。 您的职责 CoreWeave的公共服务组织负责支持我们AI云产品和内部工程团队的共享平台、API和基础服务。从身份验证和授权到核心平台原语和开发者体验工具,该组织确保CoreWeave的其他部分能够可靠地构建、发布和运营。 作为公共服务的可靠性负责人,您将为该组织建立和领导可靠性工程和生产运营实践。您将与公共服务的工程领导者和团队密切合作,定义我们如何构建、发布、监控和运营关键服务——在整个过程中提高可靠性、可用性和运营卓越性。 关于此职位 作为公共服务的可靠性负责人,您将负责定义公共服务组合的可靠性策略、流程和标准,并推动跨多个团队的一致、高质量的运营实践。您将监控公共服务中的生产事件,并直接与您的合作团队合作,设计可靠、可观察和可支持的系统。您的日常工作将结合动手技术工作和跨职能领导,以推动公共服务生产运营的持续改进。 在此职位中,您将: • 为公共服务组织建立和领导SRE/生产工程实践,包括与中央产品工程组织合作制定可靠性、事件管理和随叫随到的标准。 • 制定一个运营卓越策略,不仅关注于提高系统性能,还关注于监控和减少运营负担。 • 与工程和产品团队合作,为关键的公共服务定义SLO、SLI和错误预算,并确保这些成为团队计划和权衡的一部分。 • 拥有并改进公共服务的事件管理生命周期,包括随叫随到的轮班、升级路径、事件工具、事后审查和纠正措施的跟进。 • 推动公共服务的可观察性策略(指标、日志、跟踪、仪表板、警报),确保我们对关键系统的健康状况、性能和容量有可操作的可见性。 • 与工程负责人合作,设计和审查可靠性、可扩展性、弹性和可操作性的架构,包括故障模式、冗余和优雅降级。 • 领导自动化和加强运营工作流的努力,包括部署、回滚、配置管理、变更管理和例行维护任务。 • 与合作团队和利益相关者建立基于信任的强大关系,成为公共服务中生产准备和运营风险的首选领导者。 • 招聘、指导和发展SRE和生产工程人才,培养持续改进、从事件中学习和人性化随叫随到的文化。 • 与CoreWeave的其他SRE和生产工程领导者合作,协调全球实践、工具和可靠性目标,代表公共服务的需求和限制。 您的背景 • 在站点可靠性工程、生产工程或类似角色中有7年以上的经验,处理分布式系统或云/平台服务。 • 具有2年以上的技术领导经验(团队负责人、资深/首席工程师或人员经理),在多个服务或团队中推动可靠性和运营改进。 • 在基于Linux的生产环境、容器和编排技术(如Kubernetes)方面有扎实的背景,包括在实时系统中调试复杂问题。 • 在可观察性堆栈(指标、日志、跟踪)和警报系统方面有实践经验,并有设计有意义的SLI/SLO和警报策略的记录。 • 在运行随叫随到轮班和事件响应方面有丰富经验,包括领导高严重性事件和推动高质量的事后审查。 • 在大规模或关键任务系统中设计可靠性(容量规划、冗余、故障切换、退避、断路、优雅降级等)方面有证明的能力。 • 熟悉基础设施即代码和自动化工具(如Terraform、Ansible、Helm、CI/CD管道),使操作可重复、可审计和安全。 • 具有强大的跨职能沟通能力——您可以在工程、产品和业务利益相关者之间进行翻译,并通过上下文和清晰性而不是仅仅依靠权威来影响。 • 倾向于数据驱动的决策,使用生产数据、容量信号和事件趋势来指导优先级和投资。 优先条件 • 有处理GPU工作负载、高性能计算或对延迟/吞吐量敏感系统的背景。 • 有多租户、多区域或高度监管环境的经验,以及相关的可靠性考虑。 • 熟悉服务所有权模型,并对如何以可扩展的方式对齐所有权、随叫随到和责任有强烈的意见。 • 有指导或管理高级工程师的经验,并通过指导、反馈和明确的期望建立高绩效团队。 想知道您是否合适? 我们相信投资于我们的人,并重视能够为我们的团队带来多样化经验的候选人——即使您不是100%技能或经验匹配。以下是我们发现与我们的团队兼容的一些特质。如果其中一些描述了您,我们很乐意与您交谈。 • 您非常关心运营卓越,并将可靠性视为产品特性,而不是事后的想法。 • 您对将秩序和清晰度带入复杂、快速发展的系统的挑战感到兴奋。 • 您热衷于建立人性化、可持续的随叫随到实践,并从事件中学习而不责备。 • 您喜欢与多个团队合作,通过上下文和清晰性而不是仅仅依靠权威来影响。 • 您对如何在生产中可靠高效地运行大规模、GPU密集型工作负载感到好奇。 为什么选择CoreWeave? 关于我们 在CoreWeave,我们努力工作,享受乐趣,并快速行动!我们正处于一个令人兴奋的超高速增长阶段,您不想错过。我们不怕一点混乱,并且不断学习。我们的团队非常关心我们如何构建产品以及我们如何合作,这通过我们的核心价值观体现出来: • 在核心中保持好奇 • 像业主一样行动 • 授权员工 • 提供一流的客户体验 • 一起实现更多 我们支持和鼓励创业心态和独立思考。我们营造了一个鼓励协作并提供机会开发创新解决方案以解决复杂问题的环境。随着我们准备起飞,组织内的成长机会不断扩大。您将被行业中一些最优秀的人才包围,他们也希望向您学习。加入我们吧! 此职位的基本工资范围为206,000美元至303,000美元。起始工资将根据与工作相关的知识、技能、经验和市场位置确定。我们在确定薪酬时努力实现市场对齐和内部公平。除了基本工资外,我们的总奖励包还包括酌情奖金、股权奖励和全面的福利计划(均基于资格)。 我们提供的 我们发布的范围代表了此职位的典型薪酬范围。为了确定实际薪酬,我们会审查每位候选人的市场价格,其中可能包括多种因素。这些因素包括资格、经验、面试表现和地点。 除了具有竞争力的薪水外,我们还提供各种福利以支持您的需求,包括: • 医疗、牙科和视力保险——由CoreWeave全额支付 • 公司支付的人寿保险 • 自愿补充人寿保险 • 短期和长期残疾保险 • 灵活支出账户 • 健康储蓄账户 • 学费报销 • 参与员工股票购买计划(ESPP)的能力 • 通过Spring Health提供的心理健康福利 • 由Carrot提供的家庭形成支持 • 带薪育儿假 • 通过Kinside提供灵活的全方位服务的儿童保育支持 • 提供慷慨雇主匹配的401(k) • 灵活的PTO • 我们的办公室和数据中心地点每天提供的餐饮午餐 • 休闲的工作环境 • 以创新颠覆为重点的工作文化 我们的工作场所 虽然我们优先考虑混合工作环境,但对于位于距离办公室超过30英里的候选人,可能会考虑远程工作,具体取决于角色要求的专业技能。新员工将在入职的第一个月内被邀请参加我们其中一个中心的入职培训。团队还会每季度聚集一次以支持协作。 加州消费者隐私法 - 仅限加州申请者 CoreWeave是一个平等机会雇主,致力于营造一个包容和支持的工作场所。所有合格的申请者和候选人将不论种族、肤色、宗教、性别、残疾、年龄、性取向、性别认同、国籍、退伍军人身份或遗传信息而获得就业考虑。 作为这一承诺的一部分,并与《美国残疾人法案》(ADA)一致,CoreWeave将确保为残疾申请者和候选人提供合理的招聘过程便利,除非此类便利会造成不当困难。如果需要合理便利,请联系:careers@coreweave.com。 出口管制合规 此职位需要访问受出口管制的信息。为了符合适用于该信息的美国政府出口法规,申请人必须是(A)美国人,定义为(i)美国公民或国民,(ii)美国合法永久居民(绿卡持有者),(iii)根据8 U.S.C. § 1157的难民,或(iv)根据8 U.S.C. § 1158的庇护者,(B)有资格在没有所需出口授权的情况下访问受出口管制的信息,或(C)有资格并且合理可能从相关的美国政府机构获得所需的出口授权。出于合法的商业原因,CoreWeave可能会拒绝进行任何出口许可流程。