站点可靠性工程师(海沃德)

圣弗朗西斯科 29天前全职 网络
面议
高级平台工程师/站点可靠性工程师 AI基础设施 加入一家处于隐身模式的初创公司,构建其AI和云平台,由数千个H100、H200和B200驱动,准备进行实验、全规模模型训练或推理。作为平台工程师/高级站点可靠性工程师,您将负责该GPU驱动基础设施的可靠性、性能和自动化,确保 在由Slurm、Kubernetes或直接SSH访问管理的环境中实现无缝编排。此外,还将支持他们即将上市的极具吸引力的新产品! 这是一个难得的机会,可以在AI基础设施和AI的交汇处工作,塑造私人部署中最大GPU集群之一的运营骨干。 如果您想为前沿AI工作负载构建和运营基础设施,在拍字节规模上自动化系统,并成为创始工程团队的一员,这就是实现这一目标的地方。 职责 - 设计、部署和维护大规模GPU集群(H100/H200/B200)以支持训练和推理工作负载。 - 构建自动化管道,以在Slurm和Kubernetes环境中提供、扩展和监控计算资源。 - 开发可观察性、警报和自动修复系统,以支持高可用性GPU工作负载。 - 与ML、网络和平台团队合作,优化资源调度、GPU利用率和数据流。 - 在数千个节点上实施基础设施即代码、CI/CD管道和可靠性标准。 - 诊断性能瓶颈,并推动在可靠性、延迟和吞吐量方面的持续改进。 所需技能和经验 - 客户面对经验和成为瑞士军刀的态度! - 在Kubernetes和Slurm用于集群编排和工作负载管理方面有丰富的实践经验。 - 深入了解Linux系统、网络和GPU基础设施(首选NVIDIA H100/H200/B200)。 - 精通Python、Go或Bash用于自动化、工具开发和性能调优。 - 具备可观察性栈(Prometheus、Grafana、Loki)和事件响应框架的经验。 - 熟悉大规模高性能计算(HPC)或AI/ML训练基础设施。 - 在可靠性工程、分布式系统或硬件加速环境方面的背景是一个很大的加分项。