资深站点可靠性工程师 / 高性能计算 - IPO前科技领军者

多伦多 1天前全职 网络
面议
关于这个角色 我们正在寻找一位高技能的资深站点可靠性工程师(SRE)/ 高性能计算(HPC)工程师,负责设计、构建和运营一家价值25亿美元的IPO前科技公司的大规模基础设施。我们的系统运行在庞大的分布式集群上,处理云计算、人工智能和数据驱动计算中一些最具挑战性的工作负载。 在这个角色中,您将负责确保关键平台的可靠性、可扩展性和性能。您将优化HPC工作负载,简化大规模集群的CI/CD,帮助研究和产品团队快速自信地交付创新。这是一个动手实践的职位,您将有机会影响架构,领导可靠性倡议,并解决分布式系统和性能工程中最棘手的问题。 您将做什么 • 设计可靠的基础设施:架构和维护大规模的分布式HPC和云原生系统,重点关注正常运行时间、可扩展性和弹性。 • 优化HPC工作负载:为计算和内存密集型工作负载(AI/ML、模拟、大规模分析)调整调度、作业编排和性能。 • 构建可观察性:实施监控、日志记录和警报系统,以提供对集群和服务健康的全面可见性。 • 自动化一切:开发工具和自动化,以实现关键系统的配置、扩展和恢复。 • 确保安全与合规:在HPC和云环境中实施访问控制、加密和治理的最佳实践。 • 跨职能协作:与工程、研究和产品团队合作,为下一代应用程序提供可靠的基础设施。 • 事件响应:领导高严重性事件的故障排除、根本原因分析和事后分析。 我们在寻找什么 • 专业经验:在SRE、基础设施工程或HPC角色中拥有7年以上的经验,并有支持大规模分布式系统的成功记录。 • 技术技能:精通Linux系统、Python或Go,以及基础设施即代码(Terraform、Ansible或类似工具)。 • HPC专业知识:对作业调度器(Slurm、Kubernetes或Mesos)、工作负载管理器和并行/分布式计算有深入了解。 • 云与混合:在AWS、GCP或Azure与本地HPC集群结合使用方面有实际经验。 • 可观察性:熟练使用监控和日志记录框架(Prometheus、Grafana、ELK、OpenTelemetry)。 • 弹性工程:具有混沌工程、故障测试和灾难恢复规划的经验。 • 协作:良好的沟通能力,能够与研究科学家、工程师和运营团队合作。 • 教育:计算机科学、工程或相关领域的学士或硕士学位。 为什么加入 这是一个加入一家价值25亿美元的IPO前科技领军者的机会,正值快速增长和创新的时期。作为资深SRE / HPC工程师,您将塑造推动下一代人工智能、分析和大规模计算的基础设施。您将解决一些最复杂的可靠性和性能挑战,与世界级团队合作,并在为公司准备IPO及其后续发展中发挥关键作用。规模庞大,挑战独特,您的影响将是立竿见影的。 关于Andiamo AI革命的人才合作伙伴。作为一家全球公认的招聘和咨询公司,我们专注于将前2%的科技和市场专业人士与世界上最大和最知名的公司匹配。 20多年来,我们一直保持着作为Palantir、Amazon、Fluidstack、Bloomberg、Relativity Space、Firefly、MasterCard、Visa、Two Sigma、Citadel以及其他主要金融服务公司、精英对冲基金、谷歌支持的科技初创公司和大型软件公司的一级供应商的地位。 我们的招聘解决方案包括永久职位安置、合同人员配备、高管搜索和专门招聘服务(RPO)。了解更多信息,请访问www.andiamogo.com