前沿系统基础设施现场可靠性工程师

3天前全职
181.5万 - 348.8万 / 年 OpenAI

OpenAI

location 旧金山
unsaved
关于团队 OpenAI 的前沿系统团队构建、启动并支持世界上最大的超级计算机,这些超级计算机用于 OpenAI 最前沿的模型训练。 我们将数据中心设计转化为真实的、可工作的系统,并构建运行大规模前沿模型训练所需的软件。 我们的使命是在前沿模型训练期间启动、稳定并保持这些超大规模超级计算机的可靠性和效率。 关于角色 我们正在寻找工程师来操作下一代计算集群,这些集群为 OpenAI 的前沿研究提供动力。 该角色将分布式系统工程与我们最大数据中心的基础设施实际工作相结合。您将将 Kubernetes 集群扩展到大规模,自动化裸金属启动,并构建隐藏多个数据中心节点复杂性的软层。 您将工作于硬件与软件的交汇处,在那里速度和可靠性至关重要。期待您管理快速变化的操作,当事情出现问题时迅速诊断并解决,并不断提高自动化和正常运行时间的标准。 在这个角色中,您将: - 启动并扩展大型 Kubernetes 集群,包括为配置、引导和集群生命周期管理的自动化。 - 构建软件抽象,统一多个集群,并为训练工作负载提供无缝接口。 - 从裸金属到固件升级,负责节点的启动,确保在大规模下快速、可重复的部署。 - 改善操作指标,例如减少集群重启时间(例如,从几小时减少到几分钟)并加快固件或操作系统升级周期。 - 集成网络和硬件健康系统,以在服务器、交换机和数据中心基础设施之间提供端到端的可靠性。 - 开发监控和可观察性系统,以便及早发现问题并在极端负载下保持集群稳定。 - 期待以软件工程师的水平执行工作。 如果您具备以下条件,可能会在此角色中茁壮成长: - 在高增长或超大规模环境中操作或扩展 Kubernetes 集群或类似容器编排系统的深厚经验。 - 拥有强大的编程或脚本技能(Python、Go 或类似语言),并熟悉基础设施即代码工具,例如 Terraform 或 CloudFormation。 - 对裸金属 Linux 环境、GPU 硬件和大规模网络感到舒适。 - 喜欢解决快速变化的高影响操作问题,并构建自动化以消除手动工作。 - 能够在保持关键任务系统运行的紧迫性与仔细工程之间取得平衡。 资格 - 在大规模或高可用性环境中担任基础设施、系统或分布式系统工程师的经验。 - 深入了解 Kubernetes 内部结构、集群扩展模式和容器化工作负载的强大知识。 - 精通云基础设施概念(计算、网络、存储、安全)以及自动化集群或数据中心操作的能力。 - 加分项:具备 GPU 工作负载、固件管理或高性能计算的背景。 关于 OpenAI OpenAI 是一家致力于确保通用人工智能造福全人类的 AI 研究和部署公司。我们推动 AI 系统能力的边界,并通过我们的产品安全地将其部署到世界。人工智能是一个极其强大的工具,必须以安全和人类需求为核心来创建,为实现我们的使命,我们必须包容并重视构成全人类全景的多种不同观点、声音和经验。 我们是一个平等机会的雇主,不会基于种族、宗教、肤色、国籍、性别、性取向、年龄、退伍军人身份、残疾、遗传信息或其他适用的法律保护特征进行歧视。 有关更多信息,请参见 OpenAI 的平权行动和就业机会平等政策声明。 符合条件的申请者如果有逮捕或定罪记录,将根据适用法律考虑雇佣,包括旧金山公平机会条例、洛杉矶县雇主公平机会条例和加利福尼亚公平机会法。对于洛杉矶县未合并地区的工人:我们合理相信,犯罪历史可能与以下工作职责存在直接、不利和负面的关系,可能导致撤回有条件的雇佣提议:保护您所信托的计算机硬件免受盗窃、丢失或损坏;在终止雇佣或任务结束时归还您所持有的所有计算机硬件(包括其中包含的数据);并保持专有、机密和非公开信息的机密性。此外,工作职责要求访问安全和受保护的信息技术系统及相关数据安全义务。 如果您认为此职位发布不合规,请通过此表单向 OpenAI 提交报告。对于与职位发布合规性无关的查询,将不予回复。 我们致力于为残疾申请者提供合理的便利。 OpenAI 全球申请者隐私政策 在 OpenAI,我们相信人工智能有潜力帮助人们解决巨大的全球挑战,我们希望人工智能的好处能够广泛分享。加入我们,共同塑造技术的未来。 薪资 $255K – $490K + 提供股票