高级软件工程师,服务器基础设施

旧金山 7天前全职 网络
98.3万 - 196.7万 / 年
CoreWeave 是 AI™ 的基本云平台。由先驱为先驱构建,CoreWeave 提供一套技术、工具和团队的平台,使创新者能够自信地构建和扩展 AI。受到领先 AI 实验室、初创企业和全球企业的信任,CoreWeave 将卓越的基础设施性能与深厚的技术专长相结合,以加速突破并将计算转化为能力。CoreWeave 成立于 2017 年,并于 2025 年 3 月成为上市公司(纳斯达克:CRWV)。了解更多信息,请访问 www.coreweave.com。 在 CoreWeave,我们不将人们限制在固定的职位名称中——我们寻找卓越的工程师,并将他们与最能激励他们的工作匹配。我们不根据狭窄的资格清单来衡量你,而是根据广泛的技术领域进行招聘,并通过我们的面试过程来确定你将在哪里产生最大的影响。 告诉我们你最感兴趣的是什么,在整个招聘过程中,我们将了解你的优势、专业知识和抱负。如果你加入 CoreWeave,你将加入一个能够让你发挥最佳工作的团队——推动创新、解决复杂问题,并塑造云计算的未来。 关于这个领域 在 CoreWeave,基础设施不仅仅是基础,它是一个产品。我们构建可扩展的高性能计算系统,支持全球最大的 AI 工作负载。我们正在寻找在软件和系统交汇处蓬勃发展的工程师,负责部署和管理大规模的裸金属计算。 在这个领域内,你将设计和构建管理全球分布的数据中心复杂基础设施的软件。使用 Go、Python/Ansible 深入 Linux 环境、可观察性/监控堆栈,并利用 gRPC 和 Kubernetes CRs/Controllers/Operators 等技术。无论你是在自动化裸金属、构建车队生命周期管理服务、解决多层集成挑战,还是监控我们全球分布的车队,你的工作对公司提供可靠高效的基础设施至关重要。 你将加入一个高效、沟通良好且支持的团队,在超大规模环境中解决复杂问题,在全球范围内部署专用 AI。 你将做什么 • 设计和实施解决方案,以解决 CoreWeave 全球服务器硬件车队的多站点部署和管理规模问题。 • 使用 Go 或 Python 构建和维护与 Kubernetes 和其他基础设施系统交互的后端服务和 API(gRPC/REST)。 • 开发从裸金属到容器编排的供应服务、自动化工作流和车队管理工具。 • 编写和维护 Kubernetes 自定义控制器和操作器,以自动化基础设施行为。 • 设计和实施大规模服务器监控的可观察性解决方案,以改善系统稳定性和洞察力。 • 调整和扩展开源工具,以增强对系统指标、性能和健康状况的可见性。 • 创建测试计划、部署自动化、仪表板、警报以及对我们车队运营的洞察。 • 解决整个基础设施堆栈的集成挑战,从数据中心硬件到编排平台。 • 参与值班轮换。 投资于我们的员工是我们的首要任务之一,我们重视能够将多样化经验带入我们团队的候选人。以下是我们发现与团队兼容的一些品质。我们很想讨论这是否与您的经验和兴趣相符,以及您接下来想要从事什么工作。 你是谁 最低资格 • 5年以上软件或基础设施工程经验。 • 精通 Go 和/或 Python 软件开发。 • 熟悉 CI/CD 工具,如 Argo、Flux 和 GitHub Actions。 • 对 Linux 内部结构有深入理解。 优先资格 • 设计、实施和监控自定义资源定义的 Kubernetes 操作器的经验。 • 具有 Ansible、Puppet、Chef、Salt 等基础设施自动化和配置管理工具的经验。 • 具备分布式云计算原理的经验,包括测试策略、可观察性、错误预算和容错设计。 • 实施指标管道、自定义警报和监控策略的经验。 • 能够将复杂问题分解为可实现的任务,并与团队成员合作执行。 • 愿意并能够在快速发展的初创环境中蓬勃发展。 你可能会加入 CoreWeave 的团队示例 车队供应自动化:自动化是向客户提供可靠 GPU 计算的关键。在这个团队中,你将编写 Go 微服务并扩展 Kubernetes 自定义资源和操作器,以交付和监控尖端计算平台。确保新的计算硬件准备就绪并监控我们不断增长的数据中心基础设施中的现有硬件。 车队管理工具:定期测试对于保持我们的服务器硬件车队在最佳性能下运行至关重要。在这个团队中,你将编写和维护 CoreWeave 车队的测试和维护基础设施。我们利用从 Ansible 到用 Go 编写的自定义 Kubernetes 控制器等多种技术来解决大规模问题。 车队监控与分析:我们客户的 AI 工作负载将我们的物理基础设施推向极限。这个团队正在解决我们车队监控、可见性和自我修复问题。我们开发、收集和关联指标,以工程化可观察性解决方案,利用 Go、Prometheus、Grafana 和 Kubernetes 等技术。 该职位的基本薪资范围为 139,000 美元至 242,000 美元。薪资基于多个因素,包括市场位置,并可能根据与工作相关的知识、技能和经验而有所不同。该职位包括酌情奖金、股权和全面的福利套餐。 我们提供的内容 我们发布的薪资范围代表该角色的典型薪资范围。为了确定实际薪资,我们会审查每位候选人的市场费率,其中可能包括多种因素。这些因素包括资格、经验、面试表现和地点。 除了具有竞争力的薪水外,我们还提供多种福利以支持您的需求,包括: • 医疗、牙科和视力保险 - 100% 由 CoreWeave 支付 • 公司支付的生命保险 • 自愿补充生命保险 • 短期和长期残疾保险 • 灵活支出账户 • 健康储蓄账户 • 学费报销 • 参与员工股票购买计划(ESPP)的能力 • 通过 Spring Health 提供的心理健康福利 • Carrot 提供的家庭形成支持 • 带薪育儿假 • Kinside 提供的灵活全方位儿童保育支持 • 401(k) 计划,雇主慷慨匹配 • 灵活的带薪休假 • 每天在我们的办公室和数据中心提供的餐饮午餐 • 休闲的工作环境 • 专注于创新颠覆的工作文化 我们的工作场所 虽然我们优先考虑混合工作环境,但对于位于离办公室超过 30 英里且符合专业技能要求的候选人,可以考虑远程工作。新员工将在入职的第一个月被邀请参加其中一个中心的入职培训。团队还会每季度聚集一次以支持协作。 加利福尼亚消费者隐私法 - 仅限加利福尼亚申请者 CoreWeave 是一个平等机会雇主,致力于营造一个包容和支持的工作场所。所有符合条件的申请者和候选人将获得就业考虑,而不考虑种族、肤色、宗教、性别、残疾、年龄、性取向、性别认同、国籍、退伍军人身份或遗传信息。 作为对这一承诺的一部分,并与美国残疾人法案(ADA)保持一致,CoreWeave 将确保符合条件的申请者和候选人获得合理的招聘过程便利,除非此类便利会造成不当困难。如果需要合理的便利,请联系:careers@coreweave.com。 出口控制合规性 该职位需要访问出口受控信息。为了遵守适用于该信息的美国政府出口法规,申请者必须是 (A) 美国公民,定义为 (i) 美国公民或国民,(ii) 美国合法永久居民(绿卡持有者),(iii) 根据 8 U.S.C. § 1157 的难民,或 (iv) 根据 8 U.S.C. § 1158 的庇护者,(B) 有资格访问出口受控信息而无需申请出口授权,或 (C) 有资格并合理可能获得适用美国政府机构的所需出口授权。CoreWeave 可能出于合法商业原因拒绝追求任何出口许可流程。