高级软件工程师,服务器群基础设施

纽约 7天前全职 网络
96.5万 - 168.0万 / 年
CoreWeave是AI的基本云™,提供技术、工具和团队的平台,使创新者能够自信地构建和扩展AI。高级软件工程师将设计和构建管理全球分布式数据中心复杂基础设施的软件,专注于支持大型AI工作负载的高性能计算系统。 职责 • 设计和实施解决方案,以解决CoreWeave全球服务器硬件机群的多站点部署和管理的规模问题 • 使用Go或Python构建和维护与Kubernetes和其他基础设施系统交互的后端服务和API(gRPC/REST) • 开发从裸机到容器编排的供应服务、自动化工作流和机群管理工具 • 编写和维护Kubernetes自定义控制器和操作员,以自动化基础设施行为 • 设计和实施大规模服务器监控的可观测性解决方案,以提高系统稳定性和洞察力 • 适应和扩展开源工具,以增强对系统指标、性能和健康状况的可见性 • 创建测试计划、部署自动化、仪表板、警报和对我们机群运营的洞察 • 解决从数据中心硬件到编排平台的整个基础设施堆栈的集成挑战 • 参与值班轮换 技能 • 5年以上软件或基础设施工程经验 • 精通Go和/或Python软件开发 • 熟悉CI/CD工具,如Argo、Flux和GitHub Actions • 深刻理解Linux内部结构 • 具备设计、实施和监控Kubernetes操作员以进行自定义资源定义的经验 • 具备使用Ansible、Puppet、Chef、Salt等基础设施自动化和配置管理工具的经验 • 具备分布式云计算原则的经验,包括测试策略、可观测性、错误预算和容错设计 • 具备实施指标管道、自定义警报和监控策略的经验 • 能够将复杂问题分解为可实现的任务,并与团队成员合作执行 • 愿意并能够在快节奏的初创环境中茁壮成长 福利 • 医疗、牙科和视力保险 - 由CoreWeave全额支付 • 公司支付的人寿保险 • 自愿补充人寿保险 • 短期和长期残疾保险 • 灵活支出账户 • 健康储蓄账户 • 学费报销 • 参与员工股票购买计划(ESPP)的能力 • 通过Spring Health提供的心理健康福利 • 由Carrot提供的家庭形成支持 • 带薪育儿假 • 通过Kinside提供灵活的全方位服务的儿童保育支持 • 401(k)计划,提供慷慨的雇主匹配 • 灵活的带薪休假 • 我们的办公室和数据中心地点每天提供的餐饮午餐 • 休闲的工作环境 • 专注于创新颠覆的工作文化 公司概况 • CoreWeave是一家基于云的AI基础设施公司,提供GPU云服务以简化AI和机器学习工作负载。公司成立于2017年,总部位于美国新泽西州利文斯顿,员工人数为1001-5000人。其网站是https://www.coreweave.com。