高级 / 员工 SRE(可观察性)

3个月前全职
107.8万 - 143.7万 / 年 Fluidstack

Fluidstack

location 旧金山
unsaved
关于 Fluidstack 我们构建并运营高性能 GPU 集群,使最具雄心的团队能够快速行动,专注于目标,并无缝扩展。我们的集群为顶级 AI 实验室、政府和企业提供支持。我们的客户包括 Mistral、Poolside、Black Forest Labs、Meta 等。 我们的团队积极进取,专注于提供世界级的超级计算体验。我们在所做的一切中都将客户放在首位,努力不仅赢得销售,还赢得重复业务和客户推荐。 我们对自己和彼此都要求严格。我们期望你对自己所做的工作、构建的产品以及客户在与我们每次互动中的体验深感关心。 你必须努力工作,从构思到交付承担责任,以开放的心态和积极的态度面对每一个问题。我们重视效率、能力和成长心态。 关于该职位 我们正在寻找一位具有深厚可观察性基础设施专业知识的高级 / 员工站点可靠性工程师。这个角色对于确保我们全球 AI 云的可靠性、性能和可调试性至关重要,因为它支持一些世界上最苛刻的机器学习工作负载。 你将设计、部署和运营我们的遥测堆栈,优化成本和性能,使我们的团队和客户能够快速检测、调试和解决生产问题。你将与平台和基础设施团队紧密合作,以确保 Kubernetes、SLURM 和分布式训练作业的遥测覆盖。 关注点 我们寻找以客户为中心、行动导向并能够在模糊环境中茁壮成长的候选人。我们期望有良好的沟通技巧、低自我意识和积极的态度。 在技能方面,如果以下任何要点符合你的情况,请与我们联系! • 你在生产环境中操作过可观察性堆栈(Mimir、Loki、Prometheus、Tempo),且规模较大(100M+ 系列,10TB+/天日志) • 你已调优分布式遥测系统,以实现高可用性、成本效率和性能 • 你曾在 GPU 密集型、多租户或全球分布的系统上工作过可观察性 • 你在 SLO、警报策略和通过自动化减少运营负担方面有深厚经验 • 你使用 Kubernetes、Helm、Kustomize 和 Terraform 部署和维护基础设施 • 你用 Go、Python 或 Bash 编写干净、可维护的代码,以支持可观察性和运维工具 关于你 • 7 年以上的工作经验,其中 3 年以上专注于高规模可观察性的 SRE(≥ 100M 指标系列,10 TB+/天日志)。 • 在生产环境中操作“Grafana 堆栈”的专业知识:Prometheus/Mimir、Loki、Tempo、Grafana、Alertmanager。 • 熟练掌握 Kubernetes(Helm/Kustomize、自定义 CRD、多集群联合)。 • 熟练使用 Terraform(或 Pulumi)进行裸金属 + 云配置的基础设施即代码。 • 在 Go(优先)以及 Python/Bash 自动化、出口商和自定义控制器方面具备强大的编码能力。 • 设计与治理 SLO/SLI 和警报策略,以最小化误报和工程负担。 • 在高可用性、基数控制和成本效率方面调优可观察性管道的成功记录。 • 深厚的 Linux 系统/调试技能(cgroups、命名空间、网络、文件系统)以及 TCP/IP 和 TLS 基础知识。 • 拥有值班责任心:你曾领导生产中断的事件响应和事后分析。 • 与客户和内部工程团队的清晰、富有同情心的沟通;能够在快速变化、模糊的环境中工作。 附加优先条件 • 有为 GPU 密集型 / HPC 集群(NVIDIA A-/H 系列、NVSwitch、DGX、RoCE、RDMA)进行仪器化的经验。 • 熟悉 Slurm、Ray 或 Kubernetes 原生批处理调度程序,用于分布式 ML 训练。 • 在低开销网络可观察性方面有 eBPF、Cilium 或 Hubble 的实际操作经验。 • 在指标、日志和追踪方面进行 OpenTelemetry 采纳/迁移项目。 • 操作服务网格(Istio、Linkerd)和基于 Envoy 的遥测。 • 针对边缘或全球分布的足迹(EU/US/APAC PoPs、WAN 优化)进行可观察性。 • 集成到仪表板和警报中的 FinOps / 成本分配工具(Kubecost、Cloudability)。 • 安全监控重叠(Falco、AWS GuardDuty、auditd 管道)。 • 对 CNCF 或 Grafana Labs 开源项目的贡献;关于大规模可观察性的公开演讲或博客文章。 • 了解高性能存储和数据平面(Ceph、NVMe-oF、Lustre)及其指标。 • 熟悉 Kafka / ClickHouse / VictoriaMetrics 作为自定义遥测后端的一部分。 福利 • 具有竞争力的整体薪酬方案(现金 + 股权)。 • 符合当地规范的退休或养老金计划。 • 健康、牙科和视力保险。 • 符合当地规范的慷慨 PTO 政策。 Fluidstack 是一个平等就业机会雇主。所有合格申请者将在不考虑种族、肤色、宗教、性别、国籍、性取向、性别认同、残疾和受保护的退伍军人身份或任何其他法律保护特征的情况下获得就业考虑。根据适用法律,Fluidstack 将考虑具有逮捕和定罪记录的合格申请者。