关于 Fluidstack
我们 建设 和 运营 高性能 GPU 集群,使得 最具 雄心的 团队 能够 快速 行动,专注 工作,并且 无缝 扩展。我们的 集群 为 顶尖 AI 实验室、政府 及 企业 提供 支持。我们的 客户 包括 Mistral、Poolside、Black Forest Labs、Meta 等。
我们的 团队 动力十足,专注于 提供 世界级 超级计算 体验。我们 在 所有 工作 中 始终 将 客户 放在 首位,努力 不仅 赢得 销售,还要 赢得 重复 业务 和 客户 推荐。
我们 对 自己 和 彼此 都 有 高标准的 要求。我们 希望 你 对 自己 的 工作、所 构建的 产品 以及 我们 在 每次 互动 中 提供的 客户 体验 有 深切的 关心。
你 必须 努力 工作,承担 从 开始 到 交付的 所有 责任,以 开放的 思维 和 积极的 态度 面对 每个 问题。我们 重视 效率、能力 和 成长 心态。
关于 这个 职位
SRE 负责人 将 从 零 开始 建立 我们 的 网站 可靠性 工程 团队,创建 一个 负责 确保 我们 GPU 基础设施 最大 可用性 和 性能 的 团队。
这个 职位 涉及 从 基础 开始 在 我们的 Slurm 和 Kubernetes 平台 中 建立 可靠性。你 将 每天 与 客户 直接 合作,支持 工作负载 安装、监控 和 调试。
主要 职责 包括 在 Fluidstack 运营的 基础设施 中 实施 系统,以 检测 和 排除 故障 节点。你 将 与 基础设施 团队 紧密 合作,使用 基础设施 作为 代码 和 DevOps 最佳 实践 开发 供应 和 配置 自动化。
重点
• 建立 综合 监控,进行 主动 和 被动 健康 检查
• 为 我们 管理的 Slurm + Kubernetes 集群 定义 SLI 和 SLO
• 创建 仅在 必要 时 唤醒 人员 的 可操作 警报
• 编写 任何 人 都能 在 凌晨 3 点 跟随 的 运行手册
• 为 所有 集群 部署 实施 基础设施 作为 代码
• 准备 灾难 恢复 计划
• 通过 积极 自动化 减少 繁琐 工作
• 设计 和 实施 事件 管理 流程
• 推动 事后 评估,防止 重复 故障
• 指导 工程师 了解 SRE 原则 和 实践
• 实施 和 改进 CI/CD 流程
关于 你
• 5+ 年 SRE 经验,包括 体系 结构 和 设计 的 经验
• 你 在 快速 成长 的 公司 中 扩展 过 基础设施
• 你 有 GPU 工作负载 和 HPC 环境 的 经验
• 你 在 生产 中 管理过 Kubernetes 或 Slurm 集群
• 你 编写 代码 来 解决 运营 问题
• 你 从 系统 的 角度 思考,而 不是 个别 服务器
• 你 已经 自动化 了 重复 任务
• 你 能够 在 压力 下 调试 复杂 的 分布式 系统
• 你 曾 直接 与 要求 高的 企业 客户 合作
• 你 测量 一切,并做出 数据驱动 的 决策
• 你 曾 经 值班 并 改善 其他 人 的 体验
• 你 能够 简单 地 解释 复杂 系统
附加 优势
• 多区域 或 多云 部署
• 对 开源 基础设施 工具 的 贡献
• 熟悉 存储 背板 的 高吞吐量 网络 拓扑(例如,RoCE、RDMA、InfiniBand)
• 对 使用 前沿 AI 训练 和 推理 硬件 和 网络 感到 兴奋
• 具有 裸金属 自动化 的 经验
福利
• 具有 竞争力 的 总 薪酬 包(现金 + 股权)
• 符合 当地 规范 的 退休 或 养老金 计划
• 健康、牙科 和 视力 保险
• 符合 当地 规范 的 慷慨 PTO 政策