在 2012 年,Lambda 由一群人工智能工程师开始,发布研究成果于顶级机器学习会议。我们起初是一家由人工智能工程师创建的人工智能公司,这一点没有改变。今天,我们的使命是成为全球顶尖的人工智能计算平台。我们为工程师提供工具,以快速、安全、经济且可扩展的方式部署人工智能。无论他们需要现场强大的 GPU 硬件,还是云解决方案的灵活性,我们都有能力实现这一目标。Lambda 的 AI 云已被全球领先的公司和研究机构采用,包括 Anyscale、乐天、AI 研究所,以及多家市值超过一万亿美元的企业。我们的目标是使计算像电力一样轻松和普及。
如果你想构建全球最佳的深度学习云,请加入我们。
• 注意:此职位要求每周在旧金山办公室工作 4 天;Lambda 当前指定的远程工作日为星期二。
关于角色
我们正在寻找一位高级软件工程师加入我们的管理式 Kubernetes (Mk8s) 团队。这是一个混合角色,结合了深厚的软件工程能力与站点可靠性工程 (SRE) 原则。您将在塑造我们的 Kubernetes 基础设施的架构、可靠性和自动化中发挥关键作用,该基础设施为我们全球平台上的关键工作负载提供支持。
您的工作内容
软件工程
• 设计、构建和维护可扩展的控制平面服务、操作器和 Kubernetes 的自定义控制器。
• 开发集群生命周期管理的自动化(配置、升级、修补、删除)。
• 开发内部工具、API 和命令行接口 (CLI),使客户和 ML/AI 团队能够有效地部署和监控推断服务。
• 编写能够优雅处理大规模分布式环境中故障的弹性系统。
SRE 和运维
• 为 Kubernetes 服务、工作负载和平台定义并实施服务级目标 (SLO) 和服务级指标 (SLI)。
• 深入系统底层解决独特的集群问题并撰写您的发现。
• 协助客户解决高层次的 Kubernetes 问题以及与应用程序、存储和身份验证的集成。
• 协助初始集群构建和验证,以帮助在客户交付前识别故障硬件。
• 与我们的 HPC 运维和数据中心运维团队密切合作,处理需要较低级别专业知识或跨职能解决方案的问题。
• 参与管理良好、可持续的待命轮换。
您
• 拥有 6 年以上的软件工程或 SRE 角色经验,3 年以上领导大型复杂项目或技术领导经验。
• 具有调整 Kubernetes 内部结构和编写操作器 (CRD、CSI、CNI 等) 的经验。
• 精通 Go 和 Python 编程;具备 GitOps(例如 ArgoCD)、Helm 和 Kubernetes 操作器的经验。
• 在生产环境中操作 Kubernetes 集群的经验(例如 EKS、GKE、本地部署)。
• 深刻理解 SRE 原则:事件响应、混沌工程、扩展性和可靠性。
• 精通可观察性工具(Prometheus、Grafana、FluentBit 等)。
• 具备基础设施即代码工具(Terraform、Pulumi)和 CI/CD 管道的经验。
• 扎实的 Linux 系统、网络、容器和云基础设施知识。
额外加分项
• 深厚的 Kubernetes 专业知识。
• 具备用户级限制和加固(例如 AppArmor)的经验。
• 具有 HPC 集群、环境和工具的经验。
• 具有大规模 AI/ML 训练集群的经验。
• 具有机器学习/AI 框架的经验。
• 精通混合或多云 Kubernetes 环境。
• 熟悉 GPU、Infiniband 或 K8s 上的高性能计算。
• 过去对 CNCF 项目或 Kubernetes SIGs 的贡献是加分项。
如果您不符合所有这些要求,但认为自己可能适合,请依然申请,并提供一封求职信,帮助我们理解您的经验和对该角色的准备。
薪资范围信息
根据市场数据和其他因素,此职位的年薪范围为 255,000 美元 - 405,000 美元。然而,对于资格与职位描述中列出的要求有重大差异的候选人,可能会适合更高或更低的薪资。
关于 Lambda
• 成立于 2012 年,员工约 350 人(2024 年)并快速增长。
• 我们提供丰厚的现金和股权补偿。
• 我们的投资者包括 Andra Capital、SGW、Andrej Karpathy、ARK Invest、Fincadia Advisors、G Squared、In-Q-Tel (IQT)、KHK & Partners、NVIDIA、Pegatron、Supermicro、Wistron、Wiwynn、美国创新技术、Gradient Ventures、Mercato Partners、SVB、1517、Crescent Cove。
• 我们的系统需求极高,季度和年度盈利能力持续增长。
• 我们的研究论文已被接受于顶级机器学习和图形会议,包括 NeurIPS、ICCV、SIGGRAPH 和 TOG。
• 为您和您的家属提供健康、牙科和视力保险。
• 为特定角色提供通勤/远程工作津贴。
• 提供 401k 计划,2% 公司匹配(美国员工)。
• 提供灵活的带薪休假计划,大家都能实际使用。
最后说明:
您不需要完全符合所有列出的期望条件才能申请此职位。我们致力于建立一个拥有多样化背景、经验和技能的团队。
平等机会雇主
Lambda 是一个平等机会的雇主。申请人不论种族、肤色、宗教、信仰、国籍、年龄、性别、性别认同、婚姻状况、性取向和身份、遗传信息、退伍军人身份、公民身份或其他地方、州或联邦法律禁止的因素均被考虑。