资深软件工程师 - 管理的Kubernetes

旧金山 1个月前全职 网络
189.3万 - 323.8万 / 年
Lambda,超智能云,构建千兆瓦级AI工厂用于训练和推理。Lambda的使命是让计算像电一样普及,并让每个人都能接触到人工智能。一个人,一个GPU。 如果您希望构建世界上最好的深度学习云,请加入我们。 • 注意:此职位要求每周在旧金山办公室工作4天;Lambda目前指定的远程工作日为星期二。 Lambda的工程团队负责构建和扩展我们的云服务。我们的工作范围包括Lambda网站、云API和系统以及用于系统部署、管理和维护的内部工具。 关于该角色 我们正在寻找一位资深软件工程师加入我们的管理Kubernetes(Mk8s)团队。您将在塑造Kubernetes基础设施的架构、可靠性和自动化方面发挥关键作用,该基础设施为我们全球平台上的关键工作负载提供支持。 您的工作内容 • 设计、构建和维护可扩展的控制平面服务、操作器和自定义Kubernetes控制器,同时使用Python/Go开发自动化,以实现端到端的集群生命周期管理——包括配置、升级、修补和删除。 • 识别差距并开发内部工具、API和命令行接口(CLI),使客户和ML/AI团队能够部署和有效监控推理服务。 • 编写具有弹性的系统,能够优雅地处理大规模分布式环境中的故障。 • 开发自动化测试以确保质量和稳定性,并验证集群以识别和解决交付前的硬件问题。 • 通过值班轮换支持和调试生产问题。 您 • 拥有6年以上软件工程经验,3年以上领导大规模复杂项目或技术领导经验。 • 至少有两年在编排和部署系统方面的工作经验。 • 具备使用Kubernetes和第三方操作器(CRD、CSI、CNI等)的经验。 • 在Go和Python方面具备强大的编程技能;能够在共享代码库上有效协作。 • 对拥有和交付产品和平台的核心组件感到自豪。 • 具备基础设施即代码工具的经验(例如Terraform、Pulumi)。 • 对Linux系统、网络、容器和云基础设施有扎实的知识。 加分项 • 深厚的Kubernetes和Linux专业知识。 • 操作大规模Kubernetes集群的控制平面和低级组件的经验。 • 具备用户级限制和加固(例如AppArmor)的经验。 • 具备HPC集群、环境和工具的经验。 • 具备机器学习/AI框架的经验。 • 在混合或多云Kubernetes环境方面的专业知识。 • 熟悉GPU、Infiniband或K8s上的高性能计算。 • 过去对CNCF项目或Kubernetes SIGs的贡献是一个加分项。 如果您不符合所有这些要求,但认为自己可能适合,请仍然申请并提供一封求职信,以帮助我们了解您的经验和对该角色的准备情况。 薪资范围信息 此职位的年薪范围是根据市场数据和其他因素设定的。然而,对于资格与职位描述中列出的要求有显著不同的候选人,可能会有高于或低于此范围的薪资。 关于Lambda • 成立于2012年,约400名员工(2025年),快速增长。 • 我们提供丰厚的现金和股权补偿。 • 我们的投资者包括Andra Capital、SGW、Andrej Karpathy、ARK Invest、Fincadia Advisors、G Squared、In-Q-Tel (IQT)、KHK & Partners、NVIDIA、Pegatron、Supermicro、Wistron、Wiwynn、美国创新科技、Gradient Ventures、Mercato Partners、SVB、1517、Crescent Cove。 • 我们的系统正经历极高的需求,季度和年度盈利。 • 我们的研究论文已被顶级机器学习和图形会议接受,包括NeurIPS、ICCV、SIGGRAPH和TOG。 • 为您和您的家属提供健康、牙科和视力保险。 • 为特定角色提供健康和通勤津贴。 • 401k计划,提供2%的公司匹配(美国员工)。 • 灵活的带薪休假计划,大家都能实际使用。 最后的说明 您并不需要满足所有列出的期望即可申请此职位。我们致力于建立一个拥有多样化背景、经验和技能的团队。 平等机会雇主 Lambda是一个平等机会的雇主。申请者在考虑时不受种族、肤色、宗教、信仰、国籍、年龄、性别、性别认同、婚姻状况、性取向和身份、遗传信息、退伍军人身份、公民身份或当地、州或联邦法律禁止的任何其他因素的影响。 薪资范围:266K - 455K