高级/资深站点可靠性工程师 – 计算基础设施关于该职位我们正在寻找一位高级或资深站点可靠性工程师，他在大规模基础设施、深度系统工程和尖端计算性能的交汇处茁壮成长。在这个角色中，您将成为一个庞大的计算平台的可靠性、速度和效率的推动力，该平台旨在支持现代AI和高性能计算工作负载。这是一份动手的、高影响力的职位，您将设计、优化和发展全球裸机和虚拟化系统的舰队。您将跨越整个堆栈工作——从内核调优到编排自动化——以确保复杂的工作负载在大规模和卓越性能下无缝运行。您的工作内容 - 挑战虚拟化的极限：设计虚拟机管理程序（KVM/QEMU）并微调内核子系统、CPU拓扑和NUMA配置，以降低对AI和HPC工作负载要求苛刻的尾延迟。 - 大规模部署和优化：推出拥有数千个CPU和GPU节点的新计算集群，验证SmartNIC和DPU的卸载能力，并加强不同工作负载之间的隔离。 - 自动化一切：构建智能遥测系统和可观测性管道，展示从内核到编排器的洞察。创建自动化事件响应工具和丰富的性能仪表板，以保持操作的透明性和弹性。 - 诊断最棘手的问题：领导深入调查内核崩溃、kexec/kdump分析和性能回归——将发现提炼为可操作的修复、配置改进或上游贡献。 - 合作开发计算的未来：与硬件和内核工程团队合作，调试复杂的驱动程序，加速I/O路径，并整合新兴计算技术，如TPU和DPU。 - 推动持续改进：设计混沌实验，领导操作演练，并将事后分析转化为有意义的SLO，衡量真正影响终端用户的因素。您的背景 - 在大规模或计算密集型环境中拥有5年以上站点可靠性、内核或虚拟化工程经验。 - 对Linux内部原理有深入理解——从调度程序和内存管理到设备驱动程序和内核调试。 - 在生产环境中具有KVM、QEMU、Xen或VMware等虚拟化技术的实践经验。 - 精通C、Go或Rust编程语言，并具备基础设施即代码和CI/CD系统的实际知识。 - 熟悉SmartNIC、DPU或内核旁路网络技术，以提高数据吞吐量并减少系统开销。 - 在扩展高性能或HPC级基础设施方面取得了显著的可靠性和效率提升。为什么这个角色很重要这个角色提供了塑造大规模AI和科学计算基础设施基础的机会。您将处理需要创造力和精确度的问题——优化在当前硬件和软件极限下运行的系统。您的影响不仅体现在性能指标上，还体现在数千名用户更快创新和推动AI和HPC生态系统边界的能力上。关于Andiamo AI革命的人才合作伙伴。作为全球公认的招聘和咨询公司，我们专注于为全球最大和最知名的公司提供顶尖2%的技术和市场专业人才。 20多年来，我们一直是Palantir、Amazon、Fluidstack、Bloomberg、Relativity Space、Firefly、MasterCard、Visa、Two Sigma、Citadel等公司，以及其他主要金融服务公司、精英对冲基金、谷歌支持的科技初创公司和主要软件公司的一级供应商。我们的人才解决方案包括永久招聘、合同招聘、行政搜索和专用招聘服务（RPO）。了解更多信息，请访问www.andiamogo.com。

SRE，计算 - 去中心化高性能计算领导者

Andiamo