在 2012 年，Lambda 由一群 AI 工程师开始，发布顶级机器学习会议的研究。我们最初是一家由 AI 工程师创建的 AI 公司，这一点没有改变。今天，我们的使命是成为全球顶尖的 AI 计算平台。我们为工程师提供工具，以快速、安全、经济且可扩展的方式部署 AI。无论他们需要强大的 GPU 硬件现场还是云解决方案的灵活性，我们都有能力实现这一目标。Lambda 的 AI 云已被全球领先的公司和研究机构采用，包括 Anyscale、Rakuten、AI Institute 以及多家市值超过一万亿美元的企业。我们的目标是让计算变得像电力一样轻松和普及。如果您想建立世界上最好的深度学习云，请加入我们。 • 注意：此职位要求每周在旧金山办公室工作 4 天；Lambda 当前指定的远程工作日为周二。您的工作内容： • 将存储系统（块存储、对象存储、文件存储）与监控和日志平台（例如，Prometheus、Grafana、Datadog）集成。 • 与存储和软件工程师合作，自动化存储软件的部署和配置。 • 开发和维护自定义仪表板、警报和指标，主动监控存储性能、容量和故障。 • 自动化与存储相关的事件和故障，以实现自动工单和恢复。 • 在 Github 或 BuildKite 中为存储组件实施 CI/CD 管道。 • 与存储工程师、车队编排和发布工程合作，自动化软件定义存储的部署和配置。您具备的条件： • 8 年以上 Linux 或 HPC 环境的经验 • 高级 Linux 使用能力 • 具有共享或并行文件系统的经验，如 NFS、Ceph 或 GPFS • 5 年以上监控和日志经验，包括： • Alertmanager、Grafana、Prometheus、DataDog 或 SumoLogic • 为多个受众构建监控仪表板 • 构建和设计警报及呼叫路由 • 5 年以上 Kubernetes 经验： • ArgoCD 和其他部署技术 • Helm 或 Kustomize • 在 Kubernetes 故障排除方面的专家 • 5 年以上以下技术经验： • CI/CD 技术，如 Jenkins、Github Actions 或 BuildKite • Docker/Podman 和/或其他容器技术 • 使用 Python 或 Golang 进行系统编程 • 5 年以上基础设施即代码的经验（例如 Terraform、Ansible） • 5 年以上使用公共云基础设施的经验，如 AWS、Google Cloud 或 Microsoft Azure 额外加分： • 了解存储和软件定义存储，如 Ceph、BeeGFS、Gluster、GFS 等 • 曾使用或编写 Kubernetes CSI 驱动程序 • 在 HPC 环境中工作过 • 在 SRIOV 和虚拟化（KVM/Qemu）中工作过 • 具有 GPUDirect、RDMA、Infiband 或 ROCE 网络的经验薪资范围信息根据市场数据和其他因素，此职位的年薪范围为 185,000 美元 - 350,000 美元。然而，对于资格与职位描述中列出的内容有显著差异的候选人，可能会适合更高或更低的薪资。关于 Lambda • 成立于 2012 年，员工人数约 350 人（2024）并快速增长 • 我们提供丰厚的现金和股权补偿 • 我们的投资者包括 Andra Capital、SGW、Andrej Karpathy、ARK Invest、Fincadia Advisors、G Squared、In-Q-Tel (IQT)、KHK & Partners、NVIDIA、Pegatron、Supermicro、Wistron、Wiwynn、美国创新技术、Gradient Ventures、Mercato Partners、SVB、1517、Crescent Cove。 • 我们的系统需求极高，季度和年度盈利 • 我们的研究论文已被顶级机器学习和图形会议接受，包括 NeurIPS、ICCV、SIGGRAPH 和 TOG • 为您和您的家属提供健康、牙科和视力保险 • 为特定职位提供通勤/远程工作津贴 • 401k 计划，提供 2% 的公司匹配（美国员工） • 灵活的带薪休假计划，我们都实际使用最后说明：您不需要满足所有列出的期望即可申请此职位。我们致力于构建一个具有多样背景、经验和技能的团队。平等机会雇主 Lambda 是一个平等机会的雇主。申请者在考虑时不受种族、肤色、宗教、信仰、国籍、年龄、性别、性别、婚姻状况、性取向和身份、遗传信息、退伍军人身份、公民身份或任何其他地方、州或联邦法律禁止的因素的影响。

存储 SRE

Lambda