高级软件工程师,服务器基础设施

1个月前全职
114.7万 - 161.2万 / 年 CoreWeave

CoreWeave

location 纽约
unsaved
CoreWeave 是 AI 超级计算平台™,提供前沿的云服务平台,推动下一波 AI 的发展。我们的技术为企业和领先的 AI 实验室提供最具性能、效率和弹性的加速计算解决方案。自 2017 年以来,CoreWeave 在美国和欧洲的每个地区运营着不断增长的数据中心。CoreWeave 被评为 2024 年《时代》杂志 100 家最具影响力公司之一。 作为行业的领导者,我们在适应性和韧性是关键的环境中蓬勃发展。我们的文化为那些在变化和挑战中表现出色的人提供了职业发展的机会。如果你是一个在动态环境中茁壮成长、喜欢解决复杂问题并渴望产生重大影响的人,CoreWeave 就是你的理想之地。加入我们,成为解决行业中一些最激动人心挑战的团队的一部分。 CoreWeave 驱动着创新的智能的创建和交付。 在 CoreWeave,我们不把人局限于严格的职位名称——我们寻找杰出的工程师,并将他们与最能激励他们的工作相匹配。我们不是通过狭窄的资格清单来评估你,而是根据广泛的技术领域进行招聘,并利用我们的面试过程来确定你将在何处产生最大的影响。 告诉我们你最感兴趣的内容,在整个招聘过程中,我们将了解你的优势、专业知识和抱负。如果你加入 CoreWeave,你将进入一个能够让你做出最佳工作的团队——推动创新、解决复杂问题,并塑造云计算的未来。 关于该领域 在 CoreWeave,基础设施不仅是基础,它还是一种产品。我们构建可扩展的高性能计算系统,支持世界上最大的 AI 工作负载。我们正在寻找在软件和系统交汇处茁壮成长的工程师,负责部署和管理大规模裸金属计算。 在这个领域,你将设计和构建管理跨全球分布的数据中心的复杂基础设施的软件。使用 Go、Python/Ansible 深入 Linux 环境、可观察性/监控堆栈,并利用 gRPC 和 Kubernetes CR/控制器/操作员等技术。无论你是在自动化裸金属、构建车队生命周期管理服务、解决多层集成挑战,还是观察我们全球分布的车队,你的工作对公司提供可靠和高效的基础设施至关重要。 你将加入一个高绩效、沟通良好和支持的团队,在超大规模下解决复杂问题,在全球范围内部署专门构建的 AI。 你的工作内容 • 设计和实施解决方案,以解决 CoreWeave 全球服务器硬件车队的多站点部署和管理的规模问题。 • 使用 Go 或 Python 构建和维护与 Kubernetes 和其他基础设施系统交互的后端服务和 API(gRPC/REST)。 • 开发配置服务、自动化工作流和从裸金属到容器编排的车队管理工具。 • 编写和维护 Kubernetes 自定义控制器和操作员,以自动化基础设施行为。 • 设计和实施大规模服务器监控的可观察性解决方案,以改善系统稳定性和洞察力。 • 调整和扩展开源工具,以增强对系统指标、性能和健康状况的可见性。 • 创建测试计划、部署自动化、仪表板、警报和对我们车队操作的洞察。 • 解决整个基础设施堆栈的集成挑战,从数据中心硬件到编排平台。 • 参与值班轮换。 投资于我们的员工是我们最优先考虑的事项之一,我们重视能够为我们的团队带来多样化经验的候选人。以下是我们发现与我们的团队兼容的一些素质。我们很想讨论这是否与您的经验和兴趣相符,以及您下一个想要工作的内容。 你是谁 最低资格 • 5 年以上软件或基础设施工程经验。 • 精通 Go 和/或 Python 软件开发。 • 熟悉 CI/CD 工具,如 Argo、Flux 和 GitHub Actions。 • 对 Linux 内部结构有深入理解。 优先资格 • 有设计、实施和监控 Kubernetes 操作员的经验,适用于自定义资源定义。 • 有基础设施自动化和配置管理工具(如 Ansible、Puppet、Chef、Salt)的经验。 • 有分布式云计算原则的经验,包括测试策略、可观察性、错误预算和容错设计。 • 有实施指标管道、自定义警报和监控策略的经验。 • 能够将复杂问题分解为可实现的任务,并与团队成员合作执行。 • 愿意并能够在快节奏的初创环境中茁壮成长。 你可能会加入的 CoreWeave 团队示例 车队配置自动化:自动化是向客户提供可靠 GPU 计算的关键。在这个团队中,你将编写 Go 微服务,并扩展 Kubernetes 自定义资源和操作员,以交付和监控尖端计算平台。确保新计算硬件准备就绪并监控我们不断增长的数据中心足迹上的现有硬件。 车队管理工具:定期测试对保持我们的服务器硬件车队在最佳性能下运行至关重要。在这个团队中,你将编写和维护测试和维护 CoreWeave 车队的基础设施。我们使用各种技术(从 Ansible 到用 Go 编写的自定义 Kubernetes 控制器)工程解决方案,以解决规模问题。 车队监控与分析:我们的客户的 AI 工作负载将我们的物理基础设施推向极限。这个团队正在解决我们车队监控、可见性和自我修复的问题。我们开发、收集和关联指标,以工程可观察性解决方案,利用 Go、Prometheus、Grafana 和 Kubernetes 等技术。 该职位的基本薪资和目标总现金范围为 139,000 美元至 242,000 美元,以及 160,000 美元至 278,000 美元。薪资基于多个因素,包括市场位置,并可能因与工作相关的知识、技能和经验而有所不同。该职位包括酌情奖金、股权和全面的福利套餐。 我们提供的内容 我们发布的范围代表该角色的典型薪酬范围。为了确定实际薪酬,我们会审查每位候选人的市场率,这可能包括多种因素。这些因素包括资格、经验、面试表现和地点。 除了具有竞争力的薪资外,我们还提供多种福利以支持您的需求,包括: • 医疗、牙科和视力保险 - 100% 由 CoreWeave 支付 • 公司支付的寿险 • 自愿补充寿险 • 短期和长期残疾保险 • 灵活支出账户 • 健康储蓄账户 • 学费报销 • 参与员工股票购买计划 (ESPP) 的能力 • 通过 Spring Health 提供的心理健康福利 • Carrot 提供的家庭组建支持 • 带薪父母假 • 与 Kinside 提供的灵活全方位托儿支持 • 401(k) 计划,雇主慷慨匹配 • 灵活的 PTO • 每天在我们的办公室和数据中心地点提供的餐饮午餐 • 休闲的工作环境 • 专注于创新颠覆的工作文化 我们的工作场所 虽然我们优先考虑混合工作环境,但对于位于离办公室超过 30 英里且基于角色要求的专业技能的候选人,可能会考虑远程工作。新员工将在其入职的第一个月被邀请参加我们一个中心的入职培训。团队还每季度聚集一次以支持协作。 加利福尼亚消费者隐私法 - 加利福尼亚申请者专用 CoreWeave 是一个平等机会雇主,致力于营造一个包容和支持的工作场所。所有合格的申请者和候选人将获得就业考虑,而不考虑种族、肤色、宗教、性别、残疾、年龄、性取向、性别认同、国籍、退伍军人身份或遗传信息。 作为这一承诺的一部分,并与《美国残疾人法案》(ADA)保持一致,CoreWeave 将确保为合格的申请者和候选人提供合理的招聘过程便利,除非这种便利会造成不当困难。如果需要合理的便利,请联系:careers@coreweave.com。 出口管制合规 该职位需要访问出口管制信息。为了遵守适用于该信息的美国政府出口法规,申请者必须是 (A) 美国人,定义为 (i) 美国公民或国民,(ii) 美国合法永久居民(绿卡持有者),(iii) 根据 8 U.S.C. § 1157 的难民,或 (iv) 根据 8 U.S.C. § 1158 的庇护者,(B) 有资格在无需出口授权的情况下访问出口管制信息,或 (C) 有资格并合理可能获得适用美国政府机构所需的出口授权。CoreWeave 可能出于合法商业原因拒绝追求任何出口许可流程。