软件工程师,超算可扩展性

11个月前全职
295K - 530K OpenAI

OpenAI

location 旧金山
unsaved
关于团队 超级计算机以垂直方式扩展。工作负载是同步的且规模庞大。这些条件要求对集群基础设施采取创新的方法,这是超级计算可扩展性支柱的工作。重点是在超出 k8s 支持的节点计数以外进行扩展,快速而原子地部署整个集群的释放,全面监视集群中的健康和活动情况,以及快速对新的超级计算系统进行引入,使用最新的硬件和世界一流的规模。 关于角色 作为超级计算可扩展性工程师,您将致力于简化和扩展我们的DC规模计算机的运营。在扩展到现有工具的极限时,您将有效地使用广泛可用的工具,同时在面对新的硬件、日益增长的(规模更大的)集群数量以及快速增长的研究用户群时建立新颖解决方案。 这个角色位于加利福尼亚州旧金山。我们采用一种3天在办公室工作的混合工作模式,并为新员工提供搬迁帮助。 在这个角色中,您将: • 设计和操作我们超级计算机的编排和监控堆栈 • 自动化每一件事,直至我们对我们的堆栈拥有前所未有的控制 • 深入了解超级计算机健康和对研究人员有用的含义,并启用前沿模型训练 如果您具备以下特点,您可能会在这个角色中取得成功: • 深刻理解k8s和其他集群编排系统 • 具备良好的软件开发技能 • 有在公共云中工作的经验(尤其是Azure) • 行动迅速,能够在快节奏、动态的环境中构建 • 熟悉AI/ML数据访问模式 关于OpenAI OpenAI是一家致力于确保通用人工智能惠及全人类的人工智能研究和部署公司。我们推动AI系统能力的边界并通过我们的产品安全地将它们部署到世界上。AI是一种极其强大的工具,必须以安全和人类需求为核心创建,并为实现我们的使命,我们必须包含和重视形成人类完整光谱的许多不同观点、声音和经验。 我们是一家平等机会雇主,不以种族、宗教、国籍、性别、性取向、年龄、退伍军人身份、残疾或任何其他受法律保护的身份为基础进行歧视。 对于美国本地候选人:根据旧金山公平机会法,我们会考虑有犯罪记录和定罪记录的合格申请者。 我们致力于为残疾申请者提供合理的住宿安排,请求可以通过此链接提交。 OpenAI 全球应聘者隐私政策 在OpenAI,我们相信人工智能有助于帮助人们解决巨大的全球挑战,我们希望人工智能的优势得到广泛分享。加入我们,共同塑造未来的技术。