软件工程师/网络 - 推断

2天前全职
231.7万 - 349.4万 / 年 OpenAI

OpenAI

location 旧金山
unsaved
关于团队 我们的推断团队通过我们的产品将 OpenAI 最强大的研究和技术带给世界。我们使消费者、企业和开发者能够使用和访问我们最先进的 AI 模型,从而让他们能够完成以前无法做到的事情。我们专注于高效能和高效的模型推断,以及通过模型推断加速研究进展。 关于角色 我们正在寻找一位高级工程师来设计和构建位于我们研究推断堆栈前端的负载均衡器 - 以毫秒级的精度和可靠性路由世界上最大的 AI 模型。该系统将服务于研究任务,其中请求必须在数小时或数天内保持“粘性”到同一模型实例,并且即使是微小的错误也可能直接降低模型性能。 在这个角色中,您将: • 架构和构建前端所有研究任务的网关/网络负载均衡器,确保长期连接保持一致和高效。 • 设计流量粘性和路由策略,以优化可靠性和吞吐量。 • 对复杂的分布式系统进行监测和调试 - 专注于构建一流的可观察性和可调试性工具(分布式追踪、日志记录、指标)。 • 与研究人员和机器学习工程师密切合作,理解基础设施决策如何影响模型性能和训练动态。 • 拥有端到端系统生命周期:从设计和编码到部署、操作和扩展。 • 在一个以结果为导向的环境中工作,每个人都在堆栈的各个层面上做出贡献,从基础设施管道到性能调优。 如果您具备以下条件,您可能会在这个角色中茁壮成长: • 在设计和操作大规模分布式系统方面有深厚的经验,特别是负载均衡器、服务网关或流量路由层。 • 在理论设计和实践调试一致哈希、粘性路由和低延迟连接管理的算法和系统挑战方面有 5 年以上的经验。 • 作为软件工程师和系统架构师在高规模、高可靠性的基础设施上有 5 年以上的经验。 • 拥有强大的调试思维,喜欢花时间在追踪、日志和指标中理清分布式故障。 • 能够在 Rust 或类似的系统语言(C/C++、Java、Go、Zig 等)中编写和审查生产代码。 • 在大型科技公司或高增长环境中工作过,并且渴望将这些经验应用于更快速的环境。 • 对问题负责到底,并渴望构建一些基础性的东西,以便我们的模型与世界互动。 附加优点: • 具备网关或负载均衡系统的经验(例如,Envoy、gRPC、自定义 LB 实现)。 • 熟悉推断工作负载(例如,强化学习、流推断、KV 缓存管理等)。 • 在大型生产环境中接触过调试和运营卓越实践。 关于 OpenAI OpenAI 是一家 AI 研究和部署公司,致力于确保通用人工智能惠及全人类。我们推动 AI 系统能力的边界,并寻求通过我们的产品安全地将其部署到世界。AI 是一种极其强大的工具,必须以安全和人类需求为核心来创建,为了实现我们的使命,我们必须包容并重视形成全人类全景的许多不同视角、声音和经验。 我们是一个平等机会雇主,不会因种族、宗教、肤色、国籍、性别、性取向、年龄、退伍军人身份、残疾、遗传信息或其他适用的法律保护特征而歧视。 有关更多信息,请参见 OpenAI 的平权行动和就业机会平等政策声明。 符合条件的申请者如果有逮捕或定罪记录,将根据适用法律考虑就业,包括旧金山公平机会条例、洛杉矶县雇主公平机会条例和加利福尼亚公平机会法。对于未合并的洛杉矶县工人:我们合理地认为,犯罪历史可能与以下工作职责有直接、不利和负面的关系,可能导致撤回有条件的就业提议:保护您所托管的计算机硬件免受盗窃、丢失或损坏;在终止雇佣或任务结束时归还您所持有的所有计算机硬件(包括其中包含的数据);并维护专有、机密和非公开信息的机密性。此外,工作职责要求访问安全和受保护的信息技术系统及相关数据安全义务。 要通知 OpenAI 您认为此职位发布不合规,请通过此表单提交报告。对与职位发布合规无关的询问将不予回复。 我们致力于为残疾申请者提供合理的便利,申请可以通过此链接提出。 OpenAI 全球申请者隐私政策 在 OpenAI,我们相信人工智能有潜力帮助人们解决巨大的全球挑战,我们希望 AI 的收益能够被广泛分享。加入我们,共同塑造技术的未来。 原始职位 "软件工程师/网络 - 推断" 发布于 GrabJobs ©。如需标记此职位的任何问题,请使用 GrabJobs 上的报告职位按钮。