该职位已过期，不再接受申请。

高级平台工程师/站点可靠性工程师 AI基础设施加入一家处于隐秘模式的初创公司，构建他们的AI和云平台，由数千个H100、H200和B200驱动，随时准备进行实验、全规模模型训练或推理。作为平台工程师/高级站点可靠性工程师，您将负责这个GPU驱动的基础设施的可靠性、性能和自动化，确保在由Slurm、Kubernetes或直接SSH访问管理的环境中实现无缝编排。同时支持他们即将上市的极具吸引力的新产品！这是一个在AI基础设施和AI交汇处工作的难得机会，塑造私人部署中最大GPU集群之一的运营骨干。如果您想为前沿AI工作负载构建和操作基础设施，在Peta级规模自动化系统，并成为创始工程团队的一员，这就是实现的地方。职责 • 设计、部署和维护大规模GPU集群（H100/H200/B200）以支持训练和推理工作负载。 • 构建自动化管道以在Slurm和Kubernetes环境中配置、扩展和监控计算资源。 • 开发可观察性、警报和自动修复系统以支持高可用性GPU工作负载。 • 与ML、网络和平台团队合作优化资源调度、GPU利用率和数据流。 • 在数千个节点上实施基础设施即代码、CI/CD管道和可靠性标准。 • 诊断性能瓶颈并推动可靠性、延迟和吞吐量的持续改进。所需技能和经验 • 客户面对经验和成为瑞士军刀的态度！ • 在Kubernetes和Slurm集群编排和工作负载管理方面有丰富的实践经验。 • 深入了解Linux系统、网络和GPU基础设施（首选NVIDIA H100/H200/B200）。 • 熟练使用Python、Go或Bash进行自动化、工具开发和性能调优。 • 具备观察性技术栈（Prometheus、Grafana、Loki）和事件响应框架的经验。 • 熟悉大规模高性能计算（HPC）或AI/ML训练基础设施。 • 在可靠性工程、分布式系统或硬件加速环境方面的背景是一个强大的加分项。

站点可靠性工程师（阿拉米达）

ExecutivePlacements.com