高级站点可靠性工程师,管理Kubernetes - 欧洲

伦敦 2个月前 远程 全职 网络
150.5万 - 289.8万 / 年
Lambda,超级智能云,构建千兆瓦级的AI工厂用于训练和推理。Lambda的使命是使计算像电一样普及,让每个人都能接触到人工智能。一个人,一块GPU。 如果你想建立世界上最好的深度学习云,加入我们吧。 Lambda的工程团队负责构建和扩展我们的云服务。我们的工作范围包括Lambda网站、云API和系统,以及系统部署、管理和维护的内部工具。 你将做的事情 • 操作和维护裸金属Kubernetes集群,规模可达数千个节点 • 使用集群管理工具处理集群降级、恢复、调整大小和事件响应 • 参与一个管理良好的值班轮换,以应对关键事件 • 协助客户解决Kubernetes问题、工作负载集成、存储和身份验证 • 与我们的HPC运营和数据中心运营团队紧密合作,处理低级或跨职能的问题 • 使用Python和Golang创建工具并自动化平台质量的验证 • 设计、构建和维护可扩展的控制平面服务、操作员和Kubernetes的自定义控制器 • 开发集群生命周期管理的自动化:供应、升级、打补丁和删除 • 定义和实施Kubernetes服务、工作负载和平台可靠性的SLO和SLI。 关于你 必须具备 • 6年以上SRE、运维工程师或类似角色的经验,深刻了解Linux集群和系统的运行 • 精通Go和Python编程;具有GitOps(例如,ArgoCD)、Helm和Kubernetes操作员的经验 • 在生产环境中操作Kubernetes集群的证明经验(本地、EKS、GKE或类似) • 能够在有限指导下独立工作或作为团队的一部分工作 • 能够在事件发生时通过工单、实时消息或作为更大通话的一部分与客户沟通 • 熟悉Prometheus、Grafana、FluentBit和CI/CD管道等可观察性工具 • 具备使用kubeadm、Cluster API或类似工具配置Kubernetes的证明经验 加分项 • 深厚的Kubernetes专业知识:CRDs、CSI、CNI、Kubernetes操作员编码经验 • 接触HPC集群、AI/ML工作负载或大规模GPU集群的经验 • 混合或多云Kubernetes环境的经验 • 对CNCF项目或Kubernetes SIG的贡献 为什么加入我们 • 在前沿的管理Kubernetes平台上为AI/ML工作负载工作 • 影响平台路线图,帮助塑造运营和可靠性的最佳实践 • 与高技能的工程师合作 • 在快速成长、技术驱动的环境中获得指导和成长的机会 薪资范围信息 该职位的年薪范围已根据市场数据和其他因素设定。然而,候选人的资格与职位描述中列出的内容有显著差异时,薪资可能会高于或低于此范围。 关于Lambda • 成立于2012年,约400名员工(2025年)并快速增长 • 我们提供丰厚的现金和股权补偿 • 我们的投资者包括Andra Capital、SGW、Andrej Karpathy、ARK Invest、Fincadia Advisors、G Squared、In-Q-Tel (IQT)、KHK & Partners、NVIDIA、Pegatron、Supermicro、Wistron、Wiwynn、US Innovative Technology、Gradient Ventures、Mercato Partners、SVB、1517、Crescent Cove。 • 我们的系统需求极高,季度和年度盈利能力持续增长 • 我们的研究论文已被顶级机器学习和图形会议接受,包括NeurIPS、ICCV、SIGGRAPH和TOG • 为您和您的家属提供健康、牙科和视力保险 • 为特定职位提供健康和通勤津贴 • 401k计划,提供2%的公司匹配(美国员工) • 灵活的带薪休假计划,大家都能实际使用 最后的说明: 您不需要满足所有列出的期望才能申请此职位。我们致力于建立一个拥有多样背景、经验和技能的团队。 平等机会雇主 Lambda是一个平等机会雇主。申请者在考虑时不分种族、肤色、宗教、信仰、国籍、年龄、性别、性别身份、婚姻状况、性取向和身份、遗传信息、退伍军人身份、公民身份或任何其他地方、州或联邦法律禁止的因素。 薪资范围:€161K - €310K