关于 Fluidstack
我们构建并运营高性能的 GPU 集群,使最具雄心的团队能够快速行动、保持专注并无障碍地扩展。我们的集群为顶级 AI 实验室、政府和企业提供支持。我们的客户包括 Mistral、Poolside、Black Forest Labs、Meta 等。
我们的团队充满动力,专注于提供世界一流的超级计算体验。我们在所有工作中将客户放在首位,努力不仅赢得销售,还赢得重复业务和客户推荐。
我们对自己和彼此都抱有高标准。我们希望你对所做的工作、构建的产品以及客户在与我们每次互动中的体验都深感关心。
你必须努力工作,从构思到交付都要承担责任,以开放的心态和积极的态度看待每一个问题。我们重视有效性、能力和成长心态。
关于这个角色
我们正在寻找一位具有深厚可观察性基础设施经验的高级 / 员工网站可靠性工程师。这个角色对于确保我们的全球 AI 云的可靠性、性能和可调试性至关重要,因为它支持世界上一些最苛刻的机器学习工作负载。
你将设计、部署并运营我们的遥测堆栈,优化成本和性能,使我们的团队和客户能够快速检测、调试和解决生产问题。你将与平台和基础设施团队紧密合作,确保 Kubernetes、SLURM 和分布式训练作业的遥测覆盖。
关注点
我们正在寻找以客户为中心、具有行动倾向并能够在模糊环境中茁壮成长的候选人。我们期待良好的沟通技巧、低自我意识和积极的态度。
在技能方面,如果以下任一要点符合你,请与我们联系!
• 你在生产中操作过可观察性堆栈(Mimir、Loki、Prometheus、Tempo),并具备大规模经验(100M+ 系列,10TB+/天日志)
• 你为高可用性、成本效率和性能调整过分布式遥测系统
• 你在 GPU 密集型、多租户或全球分布系统的可观察性方面工作过
• 你对服务级别目标(SLO)、警报策略有深入经验,并通过自动化减少运营负担
• 你使用 Kubernetes、Helm、Kustomize 和 Terraform 部署和维护基础设施
• 你用 Go、Python 或 Bash 编写干净、可维护的代码,以支持可观察性和运营工具
关于你
• 7 年以上的总经验,3 年以上专注于高规模可观察性的 SRE 经验(≥ 100 M 指标系列,10 TB+/天日志)。
• 在生产中操作“Grafana 堆栈”的专业知识:Prometheus/Mimir、Loki、Tempo、Grafana、Alertmanager。
• 熟练掌握 Kubernetes(Helm/Kustomize、自定义 CRD、多集群联合)。
• 使用 Terraform(或 Pulumi)进行裸金属 + 云配置的基础设施即代码流利。
• 在 Go(优先)以及 Python/Bash 中具有强大的编码能力,用于自动化、数据导出和自定义控制器。
• 设计和治理 SLO / SLI 和警报策略,最小化误报和工程负担。
• 在高可用性、基数控制和成本效率方面调整可观察性管道的良好记录。
• 深厚的 Linux 系统/调试技能(cgroups、命名空间、网络、文件系统)以及 TCP/IP 和 TLS 基础知识。
• 担任值班责任的心态:你曾领导生产故障的事件响应和事后分析。
• 与客户和内部工程团队的清晰、富有同情心的沟通;在快速变化、模糊的环境中感到舒适。
加分项
• 有经验在 GPU 密集型 / HPC 集群(NVIDIA A-/H 系列、NVSwitch、DGX、RoCE、RDMA)中进行仪器化。
• 熟悉 Slurm、Ray 或 Kubernetes 原生批处理调度程序,用于分布式 ML 训练。
• 熟悉 eBPF、Cilium 或 Hubble 进行低开销网络可观察性。
• 跨指标、日志和跟踪的 OpenTelemetry 采用/迁移项目。
• 操作服务网格(Istio、Linkerd)和基于 Envoy 的遥测。
• 边缘或全球分布足迹的可观察性(EU/US/APAC PoPs,广域网优化)。
• 将 FinOps / 成本分配工具(Kubecost、Cloudability)集成到仪表板和警报中。
• 安全监控重叠(Falco、AWS GuardDuty、auditd 管道)。
• 对 CNCF 或 Grafana Labs 开源项目的贡献;关于大规模可观察性的公开演讲或博客文章。
• 对高性能存储和数据平面(Ceph、NVMe-oF、Lustre)及其指标的了解。
• 熟悉 Kafka / ClickHouse / VictoriaMetrics,作为自定义遥测后端的一部分。
福利
• 具有竞争力的整体薪酬方案(现金 + 股权)。
• 符合当地规范的退休或养老金计划。
• 健康、牙科和视力保险。
• 符合当地规范的慷慨 PTO 政策。
Fluidstack 是一个平等就业机会雇主。所有合格的申请者在就业时将不受种族、肤色、宗教、性别、国籍、性取向、性别认同、残疾和受保护的退伍军人身份或任何其他法律保护的特征的影响。Fluidstack 将根据适用法律考虑有逮捕和定罪记录的合格申请者。