SRE,计算 - 去中心化高性能计算领导者

纽约 3天前合同 网络
面议
高级/资深站点可靠性工程师 – 计算基础设施 关于该职位 我们正在寻找一位高级或资深站点可靠性工程师,他在大规模基础设施、深度系统工程和尖端计算性能的交汇处茁壮成长。在这个角色中,您将成为一个庞大的计算平台的可靠性、速度和效率的推动力,该平台旨在支持现代AI和高性能计算工作负载。 这是一份动手的、高影响力的职位,您将设计、优化和发展全球裸机和虚拟化系统的舰队。您将跨越整个堆栈工作——从内核调优到编排自动化——以确保复杂的工作负载在大规模和卓越性能下无缝运行。 您的工作内容 - 挑战虚拟化的极限:设计虚拟机管理程序(KVM/QEMU)并微调内核子系统、CPU拓扑和NUMA配置,以降低对AI和HPC工作负载要求苛刻的尾延迟。 - 大规模部署和优化:推出拥有数千个CPU和GPU节点的新计算集群,验证SmartNIC和DPU的卸载能力,并加强不同工作负载之间的隔离。 - 自动化一切:构建智能遥测系统和可观测性管道,展示从内核到编排器的洞察。创建自动化事件响应工具和丰富的性能仪表板,以保持操作的透明性和弹性。 - 诊断最棘手的问题:领导深入调查内核崩溃、kexec/kdump分析和性能回归——将发现提炼为可操作的修复、配置改进或上游贡献。 - 合作开发计算的未来:与硬件和内核工程团队合作,调试复杂的驱动程序,加速I/O路径,并整合新兴计算技术,如TPU和DPU。 - 推动持续改进:设计混沌实验,领导操作演练,并将事后分析转化为有意义的SLO,衡量真正影响终端用户的因素。 您的背景 - 在大规模或计算密集型环境中拥有5年以上站点可靠性、内核或虚拟化工程经验。 - 对Linux内部原理有深入理解——从调度程序和内存管理到设备驱动程序和内核调试。 - 在生产环境中具有KVM、QEMU、Xen或VMware等虚拟化技术的实践经验。 - 精通C、Go或Rust编程语言,并具备基础设施即代码和CI/CD系统的实际知识。 - 熟悉SmartNIC、DPU或内核旁路网络技术,以提高数据吞吐量并减少系统开销。 - 在扩展高性能或HPC级基础设施方面取得了显著的可靠性和效率提升。 为什么这个角色很重要 这个角色提供了塑造大规模AI和科学计算基础设施基础的机会。您将处理需要创造力和精确度的问题——优化在当前硬件和软件极限下运行的系统。您的影响不仅体现在性能指标上,还体现在数千名用户更快创新和推动AI和HPC生态系统边界的能力上。 关于Andiamo AI革命的人才合作伙伴。作为全球公认的招聘和咨询公司,我们专注于为全球最大和最知名的公司提供顶尖2%的技术和市场专业人才。 20多年来,我们一直是Palantir、Amazon、Fluidstack、Bloomberg、Relativity Space、Firefly、MasterCard、Visa、Two Sigma、Citadel等公司,以及其他主要金融服务公司、精英对冲基金、谷歌支持的科技初创公司和主要软件公司的一级供应商。 我们的人才解决方案包括永久招聘、合同招聘、行政搜索和专用招聘服务(RPO)。了解更多信息,请访问www.andiamogo.com。