在 2012 年,Lambda 由一群 AI 工程师开始,发布顶级机器学习会议的研究。我们最初是一家由 AI 工程师创建的 AI 公司,这一点没有改变。今天,我们的使命是成为全球顶尖的 AI 计算平台。我们为工程师提供工具,以快速、安全、经济且可扩展的方式部署 AI。无论他们需要强大的 GPU 硬件现场还是云解决方案的灵活性,我们都有能力实现这一目标。Lambda 的 AI 云已被全球领先的公司和研究机构采用,包括 Anyscale、Rakuten、AI Institute 以及多家市值超过一万亿美元的企业。我们的目标是让计算变得像电力一样轻松和普及。 如果您想建立世界上最好的深度学习云,请加入我们。 • 注意:此职位要求每周在旧金山办公室工作 4 天;Lambda 当前指定的远程工作日为周二。 您的工作内容: • 将存储系统(块存储、对象存储、文件存储)与监控和日志平台(例如,Prometheus、Grafana、Datadog)集成。 • 与存储和软件工程师合作,自动化存储软件的部署和配置。 • 开发和维护自定义仪表板、警报和指标,主动监控存储性能、容量和故障。 • 自动化与存储相关的事件和故障,以实现自动工单和恢复。 • 在 Github 或 BuildKite 中为存储组件实施 CI/CD 管道。 • 与存储工程师、车队编排和发布工程合作,自动化软件定义存储的部署和配置。 您具备的条件: • 8 年以上 Linux 或 HPC 环境的经验 • 高级 Linux 使用能力 • 具有共享或并行文件系统的经验,如 NFS、Ceph 或 GPFS • 5 年以上监控和日志经验,包括: • Alertmanager、Grafana、Prometheus、DataDog 或 SumoLogic • 为多个受众构建监控仪表板 • 构建和设计警报及呼叫路由 • 5 年以上 Kubernetes 经验: • ArgoCD 和其他部署技术 • Helm 或 Kustomize • 在 Kubernetes 故障排除方面的专家 • 5 年以上以下技术经验: • CI/CD 技术,如 Jenkins、Github Actions 或 BuildKite • Docker/Podman 和/或其他容器技术 • 使用 Python 或 Golang 进行系统编程 • 5 年以上基础设施即代码的经验(例如 Terraform、Ansible) • 5 年以上使用公共云基础设施的经验,如 AWS、Google Cloud 或 Microsoft Azure 额外加分: • 了解存储和软件定义存储,如 Ceph、BeeGFS、Gluster、GFS 等 • 曾使用或编写 Kubernetes CSI 驱动程序 • 在 HPC 环境中工作过 • 在 SRIOV 和虚拟化(KVM/Qemu)中工作过 • 具有 GPUDirect、RDMA、Infiband 或 ROCE 网络的经验 薪资范围信息 根据市场数据和其他因素,此职位的年薪范围为 185,000 美元 - 350,000 美元。然而,对于资格与职位描述中列出的内容有显著差异的候选人,可能会适合更高或更低的薪资。 关于 Lambda • 成立于 2012 年,员工人数约 350 人(2024)并快速增长 • 我们提供丰厚的现金和股权补偿 • 我们的投资者包括 Andra Capital、SGW、Andrej Karpathy、ARK Invest、Fincadia Advisors、G Squared、In-Q-Tel (IQT)、KHK & Partners、NVIDIA、Pegatron、Supermicro、Wistron、Wiwynn、美国创新技术、Gradient Ventures、Mercato Partners、SVB、1517、Crescent Cove。 • 我们的系统需求极高,季度和年度盈利 • 我们的研究论文已被顶级机器学习和图形会议接受,包括 NeurIPS、ICCV、SIGGRAPH 和 TOG • 为您和您的家属提供健康、牙科和视力保险 • 为特定职位提供通勤/远程工作津贴 • 401k 计划,提供 2% 的公司匹配(美国员工) • 灵活的带薪休假计划,我们都实际使用 最后说明: 您不需要满足所有列出的期望即可申请此职位。我们致力于构建一个具有多样背景、经验和技能的团队。 平等机会雇主 Lambda 是一个平等机会的雇主。申请者在考虑时不受种族、肤色、宗教、信仰、国籍、年龄、性别、性别、婚姻状况、性取向和身份、遗传信息、退伍军人身份、公民身份或任何其他地方、州或联邦法律禁止的因素的影响。