高级软件工程师 - 管理型 Kubernetes

4个月前全职
183.1万 - 290.8万 / 年 Lambda

Lambda

location 旧金山
unsaved
在 2012 年,Lambda 由一群人工智能工程师创建,致力于在顶级机器学习会议上发布研究成果。我们最初是一家由人工智能工程师构建的人工智能公司,这一点没有改变。今天,我们的使命是成为全球顶尖的人工智能计算平台。我们为工程师提供工具,以便快速、安全、经济且可扩展地部署人工智能。无论他们需要强大的 GPU 硬件还是灵活的云解决方案,我们都有能力实现这一目标。Lambda 的人工智能云已被全球领先的公司和研究机构采纳,包括 Anyscale、Rakuten、人工智能研究所以及多家市值超过一万亿美元的企业。我们的目标是让计算变得像电一样轻松和无处不在。 如果您想构建世界上最好的深度学习云,请加入我们。 • 注意:此职位要求每周在我们位于旧金山的办公室工作 4 天;Lambda 当前指定的在家工作日为星期二。 关于该职位 我们正在寻找一位高级软件工程师加入我们的管理型 Kubernetes (Mk8s) 团队。这是一个混合角色,结合了深厚的软件工程能力与站点可靠性工程 (SRE) 原则。您将在塑造我们基于 Kubernetes 的基础设施的架构、可靠性和自动化方面发挥关键作用,该基础设施为我们全球平台的关键工作负载提供支持。 您将做什么 软件工程 • 设计、构建和维护可扩展的控制平面服务、操作员和 Kubernetes 的自定义控制器。 • 开发集群生命周期管理的自动化(配置、升级、打补丁、删除)。 • 开发内部工具、API 和命令行接口 (CLIs),使客户和 ML/AI 团队能够有效地部署和监控推理服务。 • 编写能够在大规模分布式环境中优雅处理故障的弹性系统。 SRE 与运营 • 为 Kubernetes 服务、工作负载和平台定义并实施服务级目标 (SLOs) 和服务级指标 (SLIs)。 • 深入系统的低级别以解决独特的集群问题,并撰写您的发现。 • 协助客户处理高层次的 Kubernetes 问题以及与应用程序、存储和身份验证的集成。 • 协助初始集群构建和验证,以帮助识别客户交付前的故障硬件。 • 与我们的 HPC 运营和数据中心运营团队密切合作,处理需要较低级别专业知识或跨职能解决方案的问题。 • 参与一个管理良好、可持续的值班轮换。 您 • 拥有 6 年以上的软件工程或 SRE 角色经验,3 年以上领导大型复杂项目或技术领导经验。 • 具备调优 Kubernetes 内部和编写操作员 (CRDs、CSI、CNI 等) 的经验。 • 在 Go 和 Python 中具有强大的编程技能;具有 GitOps(例如 ArgoCD)、Helm 和 Kubernetes 操作员的经验。 • 有在生产环境中操作 Kubernetes 集群的经验(例如 EKS、GKE、本地)。 • 深刻理解 SRE 原则:事件响应、混沌工程、扩展性和可靠性。 • 精通可观察性工具(Prometheus、Grafana、FluentBit 等)。 • 有基础设施即代码工具(Terraform、Pulumi)和 CI/CD 管道的经验。 • 扎实的 Linux 系统、网络、容器和云基础设施知识。 加分项 • 深厚的 Kubernetes 专业知识。 • 具有用户级限制和加固的经验(例如 AppArmor)。 • 具有 HPC 集群、环境和工具的经验。 • 具有大规模 AI/ML 训练集群的经验。 • 具有机器学习/AI 框架的经验。 • 在混合或多云 Kubernetes 环境中的专业知识。 • 熟悉 GPU、Infiniband 或 K8s 上的高性能计算。 • 过去对 CNCF 项目或 Kubernetes SIGs 的贡献是加分项。 如果您不符合所有要求,但相信您可能适合,请仍然申请并提供一封求职信,帮助我们了解您的经验和对此职位的准备情况。 薪资范围信息 根据市场数据和其他因素,该职位的年薪范围为 255,000 美元 - 405,000 美元。然而,对于资格与职位描述中列出的要求有显著不同的候选人,可能适合更高或更低的薪资。 关于 Lambda • 成立于 2012 年,约 350 名员工(2024 年),并正在快速增长。 • 我们提供丰厚的现金和股权补偿。 • 我们的投资者包括 Andra Capital、SGW、Andrej Karpathy、ARK Invest、Fincadia Advisors、G Squared、In-Q-Tel (IQT)、KHK & Partners、NVIDIA、Pegatron、Supermicro、Wistron、Wiwynn、美国创新科技、Gradient Ventures、Mercato Partners、SVB、1517、Crescent Cove。 • 我们的系统需求极高,季度和年度盈利能力持续增长。 • 我们的研究论文已被接受到顶级机器学习和图形会议,包括 NeurIPS、ICCV、SIGGRAPH 和 TOG。 • 为您和您的家属提供健康、牙科和视力保险。 • 为特定角色提供通勤/在家工作津贴。 • 401k 计划,提供 2% 的公司匹配(美国员工)。 • 灵活的带薪休假计划,我们都实际使用。 最后说明 您不需要完全符合所有列出的期望才能申请此职位。我们致力于建立一个拥有多样背景、经验和技能的团队。 平等机会雇主 Lambda 是一个平等机会的雇主。申请人不论种族、肤色、宗教、信仰、国籍、年龄、性别、性别、婚姻状况、性取向和身份、基因信息、退伍军人身份、公民身份或任何其他地方、州或联邦法律禁止的因素,均被考虑。 薪资范围:$255K - $405K