关于 Fluidstack 我们建设和运营高性能 GPU 集群，使得最具雄心的团队能够快速行动，专注工作，并且无缝扩展。我们的集群为顶尖 AI 实验室、政府及企业提供支持。我们的客户包括 Mistral、Poolside、Black Forest Labs、Meta 等。我们的团队动力十足，专注于提供世界级超级计算体验。我们在所有工作中始终将客户放在首位，努力不仅赢得销售，还要赢得重复业务和客户推荐。我们对自己和彼此都有高标准的要求。我们希望你对自己的工作、所构建的产品以及我们在每次互动中提供的客户体验有深切的关心。你必须努力工作，承担从开始到交付的所有责任，以开放的思维和积极的态度面对每个问题。我们重视效率、能力和成长心态。关于这个职位 SRE 负责人将从零开始建立我们的网站可靠性工程团队，创建一个负责确保我们 GPU 基础设施最大可用性和性能的团队。这个职位涉及从基础开始在我们的 Slurm 和 Kubernetes 平台中建立可靠性。你将每天与客户直接合作，支持工作负载安装、监控和调试。主要职责包括在 Fluidstack 运营的基础设施中实施系统，以检测和排除故障节点。你将与基础设施团队紧密合作，使用基础设施作为代码和 DevOps 最佳实践开发供应和配置自动化。重点 • 建立综合监控，进行主动和被动健康检查 • 为我们管理的 Slurm + Kubernetes 集群定义 SLI 和 SLO • 创建仅在必要时唤醒人员的可操作警报 • 编写任何人都能在凌晨 3 点跟随的运行手册 • 为所有集群部署实施基础设施作为代码 • 准备灾难恢复计划 • 通过积极自动化减少繁琐工作 • 设计和实施事件管理流程 • 推动事后评估，防止重复故障 • 指导工程师了解 SRE 原则和实践 • 实施和改进 CI/CD 流程关于你 • 5+ 年 SRE 经验，包括体系结构和设计的经验 • 你在快速成长的公司中扩展过基础设施 • 你有 GPU 工作负载和 HPC 环境的经验 • 你在生产中管理过 Kubernetes 或 Slurm 集群 • 你编写代码来解决运营问题 • 你从系统的角度思考，而不是个别服务器 • 你已经自动化了重复任务 • 你能够在压力下调试复杂的分布式系统 • 你曾直接与要求高的企业客户合作 • 你测量一切，并做出数据驱动的决策 • 你曾经值班并改善其他人的体验 • 你能够简单地解释复杂系统附加优势 • 多区域或多云部署 • 对开源基础设施工具的贡献 • 熟悉存储背板的高吞吐量网络拓扑（例如，RoCE、RDMA、InfiniBand） • 对使用前沿 AI 训练和推理硬件和网络感到兴奋 • 具有裸金属自动化的经验福利 • 具有竞争力的总薪酬包（现金 + 股权） • 符合当地规范的退休或养老金计划 • 健康、牙科和视力保险 • 符合当地规范的慷慨 PTO 政策

SRE 主管

Fluidstack